রিয়েল-লাইফ প্ল্যানিং সমস্যাগুলিতে কীভাবে প্রয়োগ করা যায় শক্তিবৃদ্ধি শেখার

সম্প্রতি আমি বাস্তব বাস্তব সমস্যার জন্য বিল্ডিং রিইনফোর্সমেন্ট লার্নিং মডেলগুলির কয়েকটি উদাহরণ পোস্ট করেছি। উদাহরণ: একটি সেট বাজেট এবং ব্যক্তিগত পছন্দের উপর ভিত্তি করে খাবার পরিকল্পনা করার জন্য পুনর্বহাল শেখার ব্যবহার।

যাতায়াত পরিকল্পনা, বাজেট পরিকল্পনা, এবং ব্যবসায়িক কৌশল সহ বিভিন্ন পরিকল্পনার সমস্যার জন্য শক্তিবৃদ্ধি শেখার বিষয়টি এভাবে ব্যবহার করা যেতে পারে। আরএল এর দুটি সুবিধা হ'ল এটি ফলাফলের সম্ভাবনাটিকে বিবেচনা করে এবং আমাদের পরিবেশের অংশগুলি নিয়ন্ত্রণ করতে দেয়। এ কারণে, আমি একটি সাধারণ উদাহরণ লেখার সিদ্ধান্ত নিয়েছি যাতে অন্যেরা কীভাবে তাদের প্রতিদিনের কিছু সমস্যা বা কাজের সমস্যার সমাধান শুরু করবেন সে সম্পর্কে চিন্তা করতে পারে।

রিইনফোর্সমেন্ট লার্নিং কী?

রিইনফোর্সমেন্ট লার্নিং (আরএল) হ'ল টেস্টিং প্রক্রিয়া যা পরিবেশের প্রতিটি অবস্থার জন্য কোন ক্রিয়াগুলি সর্বোত্তম হয় তা মূলত পরীক্ষা এবং ত্রুটির মাধ্যমে হয়। মডেলটি একটি এলোমেলো স্টার্টআপ নীতি উপস্থাপন করে এবং প্রতিবার কোনও পদক্ষেপ নেওয়া হলে মডেলটিতে যুক্ত করা হয় (পুরষ্কার বলা হয়)। এটি শেষ লক্ষ্য অর্জন না হওয়া অবধি চলতে থাকে, উদাঃ যদি এই রান (বা পর্ব) শেষ হয়ে যায় এবং গেমটি পুনরায় সেট করা হয় আপনি গেমটি জিতে বা হারাতে পারেন।

মডেলটি আরও বেশি পর্বগুলি অতিক্রম করার সাথে সাথে এটি শিখতে শুরু করে যে কোন ক্রিয়াগুলি ইতিবাচক ফলাফল তৈরির সম্ভাবনা বেশি। অতএব, এটি প্রদত্ত অবস্থায় সেরা ক্রিয়াকলাপ খুঁজে পায়, এটি অনুকূল নির্দেশিকা বলে।

শক্তিবৃদ্ধি শেখার সাধারণ প্রক্রিয়া

অনেকগুলি আরএল অ্যাপ্লিকেশন অনলাইন ট্রেন মডেল এমন কোনও গেম বা ভার্চুয়াল পরিবেশে যেখানে মডেল বারবার পরিবেশের সাথে যোগাযোগ করতে পারে। উদাহরণস্বরূপ, আপনি বিভিন্ন পদক্ষেপের চেষ্টা করার সময় সাফল্য এবং ব্যর্থতা পর্যবেক্ষণ করতে আপনি মডেলটিকে বারবার টিক-টাক-টু সিমুলেশন খেলতে দিন।

বাস্তব জীবনে, আমাদের সম্ভবত আমাদের মডেলটিকে এভাবে প্রশিক্ষণ দেওয়ার অ্যাক্সেস নেই। উদাহরণস্বরূপ, অনলাইনে কেনাকাটা করার সময়, একটি রেফারাল সিস্টেমটি কোনও ব্যক্তির প্রতিক্রিয়া দরকার এটি সফল হয়েছে কিনা তা আমাদের জানাতে প্রয়োজন এবং এটি শপিং ওয়েবসাইটের সাথে ইন্টারঅ্যাক্ট করা সংখ্যার ব্যবহারকারীর সংখ্যার ভিত্তিতে এটির উপস্থিতিতে সীমাবদ্ধ।

পরিবর্তে, আমাদের কাছে নমুনা ডেটা থাকতে পারে যা সময়ের সাথে সাথে শপিংয়ের প্রবণতা দেখায় এবং আনুমানিক সম্ভাবনা তৈরি করতে আমরা ব্যবহার করতে পারি। এর মাধ্যমে আমরা অন্তর্নিহিত সম্ভাব্যতা বন্টনকে সাধারণীকরণের জন্য আংশিকভাবে পর্যবেক্ষিত মার্কভ ডিসিশন প্রক্রিয়া (পিওএমডিপি) হিসাবে পরিচিত যা তৈরি করতে পারি।

আংশিকভাবে পর্যবেক্ষণ করেছেন মার্কভ সিদ্ধান্ত গ্রহণের প্রক্রিয়াগুলি (পিওএমডিপি)

মার্কভ ডিসিশন প্রসেসেস (এমডিপি) এমন পরিস্থিতিতে মডেলিংয়ের সিদ্ধান্ত গ্রহণের জন্য একটি কাঠামো সরবরাহ করে যেখানে ফলাফলগুলি আংশিকভাবে এলোমেলোভাবে এবং আংশিকভাবে কোনও সিদ্ধান্ত প্রস্তুতকারকের নিয়ন্ত্রণে থাকে। এমডিপিগুলির প্রধান বৈশিষ্ট্য হ'ল তারা মার্কভের সম্পত্তি অনুসরণ করে। ভবিষ্যতের সমস্ত রাজ্য অতীতের তুলনায় স্বাধীন are অন্য কথায়, পরবর্তী রাজ্যে যাওয়ার সম্ভাবনা কেবলমাত্র বর্তমান অবস্থার উপর নির্ভর করে।

পিওএমডিপিগুলি এমডিপিগুলির সাধারণীকরণ ব্যতীত একইভাবে কাজ করে। সংক্ষেপে, এর অর্থ এই যে মডেলটি কেবল পরিবেশের সাথে ইন্টারঅ্যাক্ট করতে পারে না, তবে পরিবর্তে আমরা যা পর্যবেক্ষণ করেছি তার উপর ভিত্তি করে একটি নির্দিষ্ট সম্ভাব্যতা বিতরণ দেওয়া হয়। আরো তথ্য পাওয়া যাবে এখানে। আমরা আমাদের POMDP এ মান পুনরাবৃত্তির পদ্ধতিগুলি ব্যবহার করতে পারি, তবে পরিবর্তে আমি এই উদাহরণে মন্টি কার্লো লার্নিং বেছে নিয়েছি।

নমুনা পরিবেশ

কল্পনা করুন আপনি ক্লাসরুমে স্কুলে ফিরে এসেছেন (বা সম্ভবত এখনও আছেন)। শিক্ষকের কাগজের বর্জ্য সম্পর্কিত কঠোর গাইডলাইন রয়েছে এবং প্রয়োজন হয় যে কাগজের সমস্ত স্ক্র্যাপগুলি তাকে ক্লাসরুমের সামনের দিকে দেওয়া উচিত এবং তিনি আবর্জনার আবর্জনায় ট্র্যাশটি রাখেন।

তবে, ক্লাসের কিছু ছাত্র শিক্ষকের নিয়মগুলি সম্পর্কে খুব বেশি চিন্তা করে না এবং শ্রেণিকক্ষের চারপাশে সংবাদপত্র পাস করার ঝামেলা বাঁচাতে পছন্দ করে prefer পরিবর্তে, এই উপদ্রব লোকেরা দূর থেকে দূরে আবর্জনা কাগজকে ট্র্যাশে ফেলে দিতে পছন্দ করতে পারেন। এখন এটি শিক্ষককে বিরক্ত করে এবং যারা এটি করে তাদের শাস্তি হবে।

এটি ক্রিয়া পুরষ্কারের জন্য একটি খুব প্রাথমিক ধারণাটি উপস্থাপন করে এবং আমাদের নিম্নোক্ত চিত্রটিতে শ্রেণিকক্ষের সেটিংয়ের উদাহরণ রয়েছে।

আমাদের লক্ষ্য হ'ল প্রতিটি ব্যক্তির জন্য সেরা নির্দেশ সন্ধান করা যাতে কাগজটি শিক্ষকের কাছে পৌঁছে যায় এবং আবর্জনায় ফেলে যায় এবং এটি আবর্জনায় ফেলে দেওয়া থেকে বাধা দেয়।

রাজ্য এবং কর্ম

আমাদের পরিবেশে, প্রত্যেক ব্যক্তিকে একটি রাষ্ট্র হিসাবে দেখা যেতে পারে এবং তাদের নানারকম ব্যবস্থা রয়েছে যা তারা বর্জ্য কাগজ দিয়ে নিতে পারেন। আপনি এটিকে কোনও প্রতিবেশী সহপাঠীর কাছে পৌঁছে দিতে, এটি ধরে রাখতে বা ট্র্যাসে ফেলে বাছাই করতে পারেন। এর কারণে, আমরা নীচে দেখানো হিসাবে আরও বেশি স্ট্যান্ডার্ড গ্রিড লেআউটে আমাদের পরিবেশকে ম্যাপ করতে পারি।

এটি ইচ্ছাকৃতভাবে তৈরি করা হয়েছে যাতে কোনও ব্যক্তি বা রাষ্ট্র চারটি পদক্ষেপ নিতে পারে: উপরে, নীচে, বাম বা ডান দিকে। কারা এই পদক্ষেপ নিয়েছে তার উপর নির্ভর করে প্রতিটি ক্রিয়াকলাপ "বাস্তবজীবনে" আলাদা ফলাফল করে। এমন একটি ক্রিয়া যা ব্যক্তি প্রাচীরের সাথে আটকে থাকে (মাঝখানে কালো ব্লক সহ) ইঙ্গিত দেয় যে ব্যক্তি কাগজটি ধরে আছে। কিছু ক্ষেত্রে এই ক্রিয়াটি সদৃশ হয়েছে, তবে আমাদের উদাহরণে সমস্যা নেই।

উদাহরণস্বরূপ, ব্যক্তি এ এর ​​ক্রিয়াগুলির ফলাফল:

  • আপ = আবর্জনা ক্যান মধ্যে নিক্ষেপ
  • নীচে = কাগজ দৃ firm়ভাবে ধরে
  • লিঙ্কগুলি = ব্যক্তির কাছে ফরোয়ার্ডিং খ
  • ডান = কাগজ ধরুন

সম্ভাব্য পরিবেশ

এই মুহূর্তে আমরা সিদ্ধান্ত প্রস্তুতকারী যারা পরিবেশকে আংশিকভাবে নিয়ন্ত্রণ করে। আমরা প্রতিটি ব্যক্তিকে কী পদক্ষেপ নিতে হবে তা বলব। এটি নীতি হিসাবে পরিচিত।

শেখার ক্ষেত্রে প্রথম চ্যালেঞ্জটি হ'ল পরিবেশটি সম্ভাব্য হওয়ার সম্ভাবনা এবং এর অর্থ কী তা বোঝা। সম্ভাব্য পরিবেশে, যখন আমরা কোনও রাষ্ট্রকে আমাদের নীতির অংশ হিসাবে পদক্ষেপ নিতে নির্দেশ করি, তখন সম্ভাবনা থাকে যে এটি সফলভাবে অনুসরণ করা হবে। অন্য কথায়, যদি আমরা ব্যক্তি A কে কাগজটি ব্যক্তি বিতে দেওয়ার নির্দেশ দিই, তবে তারা আমাদের নীতিমালায় বর্ণিত পদক্ষেপগুলি অনুসরণ না করে এবং পরিবর্তে বর্জ্য কাগজটি আবর্জনায় ফেলে দিতে পছন্দ করতে পারে।

আরেকটি উদাহরণ হ'ল আমরা যখন অনলাইনে শপিংয়ের পণ্যগুলির প্রস্তাব দিই, তখন সেই ব্যক্তিটি প্রত্যেকে দেখবে এমন কোনও গ্যারান্টি নেই।

পর্যবেক্ষণের সম্ভাবনাগুলি পর্যবেক্ষণ করা হয়েছে

পর্যবেক্ষণের স্থানান্তর সম্ভাবনাগুলি নির্ধারণ করতে, পরিবেশের আচরণ সম্পর্কিত কিছু নমুনা তথ্য সংগ্রহ করতে হবে। আমরা কোনও তথ্য সংগ্রহের আগে প্রথমে একটি প্রাথমিক নির্দেশিকা সরবরাহ করি। প্রক্রিয়া শুরু করতে, আমি এলোমেলোভাবে এমন একটি বেছে নিয়েছি যা দেখে মনে হচ্ছে এটি ইতিবাচক ফলাফল দেবে।

এই নীতিটির ভিত্তিতে প্রতিটি ব্যক্তি যে পদক্ষেপ গ্রহণ করছে তা আমরা এখন পর্যবেক্ষণ করছি। অন্য কথায়, ধরা যাক আমরা ক্লাসরুমের পিছনে বসে বসে কেবল ক্লাসটি দেখেছি এবং ব্যক্তি এ এর ​​জন্য নিম্নলিখিত ফলাফলগুলি পর্যবেক্ষণ করেছি:

ব্যক্তি এ এর ​​পর্যবেক্ষণ কর্ম

আমরা দেখতে পাই যে এক টুকরো কাগজ এই ব্যক্তির মাধ্যমে 20 বার গেছে; তারা এটি 6 বার ধরেছিল, এটিকে 8 বার ব্যক্তির কাছে দিয়েছিল এবং এটিকে আরও 6 বার আবর্জনায় ফেলে দিয়েছে। এর অর্থ হল যে আমাদের প্রাথমিক নির্দেশিকা অনুসারে, এই ব্যক্তিটি আবর্জনা রাখবে বা এটিকে আবর্জনায় ফেলে দেবে এমন সম্ভাবনা 6/20 = 0.3 এবং এটিকে ব্যক্তি বিতে দেওয়ার জন্য 8/20 = 0.4 হয় B. আমরা ক্লাসের বাকী অংশগুলি নিম্নলিখিত নমুনার ডেটা সংগ্রহ করতে দেখতে পারি:

বাস্তব জীবনে পর্যবেক্ষণ ফলাফল

তেমনি, আমরা তারপরে সম্ভাব্যতাগুলি নিম্নলিখিত ম্যাট্রিক্স হিসাবে গণনা করি এবং এটি অভিজ্ঞতা অনুকরণ করতে ব্যবহার করতে পারি। এই মডেলের যথার্থতা পুরোপুরি পরিবেশের সত্য উপস্থাপনা কিনা তার উপর নির্ভর করে। অন্য কথায়, আমাদের তা নিশ্চিত করা দরকার যে আমাদের কাছে একটি নমুনা রয়েছে যা বড় এবং ডেটা সমৃদ্ধ।

পর্যবেক্ষণের সম্ভাবনা ফাংশন পর্যবেক্ষণ

বহু-সশস্ত্র ডাকাত, পর্ব, পুরষ্কার, ফেরত এবং ছাড়ের হার

সুতরাং আমরা একটি POMDP এর অধীনে নমুনা ডেটা থেকে আমাদের স্থানান্তর সম্ভাবনাগুলি অনুমান করেছি। আমরা মডেলগুলি পরিচয় করানোর আগে পরবর্তী পদক্ষেপটি হল পুরষ্কারগুলি প্রবর্তন করা। এখন পর্যন্ত আমরা কেবলমাত্র শেষ ধাপের ফলাফল নিয়ে আলোচনা করেছি। হয় কাগজটি শিক্ষক দ্বারা আবর্জনায় ফেলে রাখা হয়েছে এবং ইতিবাচক প্রতিদান হিসাবে পুরস্কৃত করা হয়েছে, বা এটি এ বা এম দ্বারা নিক্ষেপ করা হয়েছে এবং নেতিবাচক পুরষ্কার দ্বারা পুরস্কৃত হয়েছে। এই চূড়ান্ত পুরষ্কার যা পর্বটি শেষ করে তাকে টার্মিনাল পুরষ্কার বলে।

তবে তৃতীয় ফলাফলও রয়েছে যা সর্বোত্তম নয়। কাগজটি অবিচ্ছিন্নভাবে অতিক্রম করা হচ্ছে এবং কখনই ট্র্যাশে পৌঁছায় না (বা আমরা যা চাই তার চেয়ে অনেক বেশি সময় নেয়)। সংক্ষেপে, আমাদের তিনটি চূড়ান্ত ফলাফল রয়েছে

  • শিক্ষক কাগজটি বর্জ্য বাক্সে রাখেন এবং ইতিবাচক চূড়ান্ত পুরষ্কার পান
  • কাগজ একটি ছাত্র দ্বারা আবর্জনায় ফেলে দেওয়া হয় এবং একটি নেতিবাচক চূড়ান্ত পুরষ্কার প্রাপ্ত হয়
  • কাগজটি ক্রমাগত ঘরের চারপাশে পাস করা হয় বা আমরা যা চাই তার চেয়ে বেশি সময় ধরে শিক্ষার্থীদের উপর আটকে থাকে

কাগজটি আবর্জনায় ফেলে দেওয়া থেকে বাঁচতে আমরা একটি বড় নেতিবাচক পুরষ্কার দিচ্ছি, যেমন: বি -১, এবং যেহেতু শিক্ষক খুশী যে এটি আবর্জনায় ফেলে দেওয়া হয়েছে, তাই তিনি একটি বড় ধনাত্মক পুরষ্কার পেয়েছেন, +1। এটি সর্বদা ঘরের আশেপাশে না কাটাতে, আমরা অন্যান্য সমস্ত ক্রিয়াকলাপের জন্য একটি সামান্য নেতিবাচক মান নির্ধারণ করি, যেমন। বি -0.04।

যদি আমরা এটিকে ধনাত্মক বা শূন্য নম্বর হিসাবে সেট করি, তবে মডেলটি কেবল কাগজটি ঘুরিয়ে দিতে পারে কারণ নেতিবাচক ফলাফলের কাছাকাছি যাওয়ার ঝুঁকি নেওয়ার চেয়ে ছোট ইতিবাচক ফলাফল পাওয়া ভাল। এই সংখ্যাটি খুব ছোট কারণ এটি কেবলমাত্র একটি একক চূড়ান্ত পুরষ্কার লাভ করে, তবে পর্বটি শেষ হতে এটি অনেক পদক্ষেপ নিতে পারে এবং কাগজ আবর্জনায় ফেলে দেওয়া অবস্থায় ইতিবাচক ফলাফল বাতিল না করা আমাদের তা নিশ্চিত করা দরকার।

দয়া করে নোট করুন: পুরষ্কারগুলি সর্বদা একে অপরের সাথে সম্পর্কিত এবং আমি স্বেচ্ছাসেবী সংখ্যা নির্বাচন করেছি তবে ফলাফলগুলি পছন্দসই হিসাবে না হলে এগুলি পরিবর্তন করা যেতে পারে।

যদিও আমরা ঘটনাক্রমে উদাহরণে পর্বগুলি নিয়ে আলোচনা করেছি, তবুও আমাদের সেগুলি আনুষ্ঠানিকভাবে সংজ্ঞায়িত করা দরকার to একটি পর্ব হ'ল ক্লাসরুমের প্রতিটি নিবন্ধটি আবর্জনায় পৌঁছানোর জন্য নেওয়া ক্রিয়াগুলি যা চূড়ান্ত অবস্থা এবং পর্বটি শেষ করে। টিক-টাক-টো-এর মতো অন্যান্য উদাহরণে এটি এমন একটি গেমের সমাপ্তি যেখানে আপনি জিতেন বা হেরে যান।

কাজটি তাত্ত্বিকভাবে যে কোনও শর্তে শুরু হতে পারে এবং এটি ব্যাখ্যা করে যে আমাদের প্রতিটি শর্ত এবং ক্রিয়া পর্যাপ্তভাবে পরীক্ষা করা হয়েছে যাতে আমাদের ফলাফলটি অবৈধ ফলাফল দ্বারা নির্ধারিত হয় না তা নিশ্চিত করার জন্য পর্যাপ্ত পর্বগুলির প্রয়োজন need অন্যদিকে, যাইহোক, আমরা যত বেশি পর্ব উপস্থাপন করব, তা গণনার সময় আরও দীর্ঘ হবে। পরিবেশের আকারের উপর নির্ভর করে এটি করার জন্য আমাদের কাছে সীমাহীন সংস্থান থাকতে পারে না।

এটি মাল্টি-সশস্ত্র ডাকাত সমস্যা হিসাবে পরিচিত। সীমিত সময় (বা অন্যান্য সংস্থানগুলি) সহ আমাদের প্রতিটি রাজ্য-অ্যাকশন জোড়কে পর্যাপ্ত পরিমাণে পরীক্ষা করতে হবে তা নিশ্চিত করতে হবে যাতে আমাদের নীতিতে নির্বাচিত ক্রিয়াগুলি আসলে সর্বোত্তম হয়। অন্য কথায়, আমাদের এটিকে নিশ্চিত করতে হবে যে অতীতে আমাদের যে ফলাফলগুলি ভাল ফলাফল এনেছে তা দুর্ঘটনাক্রমে নয়, তবে বাস্তবে খারাপ প্রদর্শিত হওয়া সত্ত্বেও সঠিকভাবে সঠিক পছন্দ করা উচিত। আমাদের উদাহরণস্বরূপ, আমাদের কতটা রাজ্য রয়েছে তা বিবেচনা করে এটি সহজ মনে হতে পারে তবে আমরা যদি ছোট করে দেখি এবং কীভাবে এটি আরও একটি সমস্যা হয়ে উঠছে তা কল্পনা করুন।

আমাদের আরএল মডেলের সামগ্রিক লক্ষ্যটি এমন ক্রিয়াগুলি নির্বাচন করা যা প্রত্যাশিত সংখ্যার পুরষ্কারগুলি সর্বাধিক করে তোলে, যা হারের হার হিসাবে পরিচিত। অন্য কথায়, আরওআই কেবল পর্বের সামগ্রিক পুরষ্কার। এটি গণনা করার একটি সহজ উপায় হ'ল প্রতিটি পর্বে চূড়ান্ত পুরষ্কার সহ সমস্ত পুরষ্কার যুক্ত করা।

আরও কঠোর পন্থাটি হ'ল নিম্নলিখিত সূত্রটিতে ছাড়ের ফ্যাক্টর (গামা) প্রয়োগ করে পর্বের পরবর্তীগুলির চেয়ে প্রথম কয়েকটি পদক্ষেপকে আরও গুরুত্বপূর্ণ করে তোলা:

অন্য কথায়, আমরা পুরষ্কারগুলি সমস্ত জুড়ে দিই, তবে পরবর্তী পর্যায়ে গামার একটি উপাদানকে অর্জন করতে এটি কত পদক্ষেপ নিয়েছিল তার উপর ভিত্তি করে বিবেচনা করি।

যখন আমরা আমাদের উদাহরণ বিবেচনা করি, তখন পর্বে অংশ নেওয়া প্রত্যেককে পুরষ্কার হিসাবে পুরষ্কার হিসাবে (বা সেই অনুসারে শাস্তি দেওয়া হয়) হিসাবে ছাড়ের হারের হারের ব্যবহারের কল্পনা করা আরও স্পষ্ট হয়ে ওঠে তবে তারা নীচের দিক থেকে কতটা দূরে তার ভিত্তিতে এটিকে স্কেল করে হয়

উদাহরণস্বরূপ, যদি কাগজটি এ থেকে বিতে এম কে ট্র্যাসে ফেলে দেওয়া হয়, তবে এমকে সবচেয়ে বেশি দণ্ডিত করা উচিত, তারপরে বি তার কাছে যাওয়ার জন্য, এবং শেষ পর্যন্ত এমন ব্যক্তি যিনি এখনও নীচের লাইনে জড়িত তবে তার চেয়ে কম এম বা বি এটিও বোঝায় যে কোনও রাজ্যে শুরু হয়ে পাত্রে পৌঁছাতে যত বেশি সময় লাগবে (পদক্ষেপের সংখ্যার ভিত্তিতে), তত কম পুরষ্কার বা শাস্তি পাবে, তবে এটি সম্পন্ন করার জন্য নেতিবাচক পুরষ্কার থাকবে আরও পদক্ষেপ জমে।

আমাদের উদাহরণে একটি মডেল প্রয়োগ করা

যেহেতু আমাদের নমুনা পরিবেশটি ছোট, আমরা এটি প্রয়োগ করতে পারি এবং আমরা হাতে গোনা কয়েকটি গণনা দেখতে পারি এবং পরিবর্তিত পরামিতিগুলির প্রভাব প্রদর্শন করতে পারি।

প্রতিটি অ্যালগরিদমের জন্য, আমাদের অবশ্যই প্রথমে স্থিতির মান ফাংশন ভি (গুলি) আরম্ভ করতে হবে এবং নীচে প্রদর্শিত হিসাবে এটি 0 তে সেট করার সিদ্ধান্ত নিয়েছে।

এরপরে, আমরা আমাদের পর্যবেক্ষণের সম্ভাবনা বন্টনের উপর ভিত্তি করে মডেলটিকে পরিবেশের সাথে অভিজ্ঞতাগুলি অনুকরণ করি। মডেলটি এলোমেলো রাজ্যে কাগজের শীট শুরু করে এবং আমাদের নির্দেশিকা অনুসারে যে কোনও পদক্ষেপের ফলাফল আমাদের পর্যবেক্ষণের সম্ভাবনার উপর নির্ভর করে। উদাহরণস্বরূপ, ধরা যাক আমাদের প্রথম তিনটি সিমুলেটেড সিকোয়েন্স রয়েছে:

এই পর্বগুলির সাহায্যে আমরা প্রদত্ত তিনটি মডেলের যেকোন ব্যবহার করে আমাদের রাষ্ট্রীয় মূল্য ফাংশনে প্রথম আপডেটগুলি গণনা করতে পারি। আমাদের ম্যানুয়াল গণনা সহজ করার জন্য, আমরা প্রাথমিকভাবে 0.5 এর কোনও আলফা এবং গামা মান নির্বাচন করি। এই পরিবর্তনশীল ফলাফলগুলিকে কীভাবে প্রভাবিত করে তা আমরা পরে দেখাব।

প্রথমে আমরা সময় পার্থক্য 0 প্রয়োগ করি। আমাদের মডেলগুলির মধ্যে সবচেয়ে সহজ এবং প্রথম তিনটি মান আপডেট নিম্নরূপ:

এগুলি কীভাবে গণনা করা হয়েছিল? ঠিক আছে, কারণ আমাদের উদাহরণটি ছোট, আমরা হাতে হাতে গণনাগুলি দেখাতে পারি।

সুতরাং এই প্রাথমিক পর্যায়ে আমরা কী পর্যবেক্ষণ করতে পারি? প্রথমত, টিডি (0) এর ব্যবহার কিছু স্টেটের কাছে যেমন অন্য ব্যক্তির পক্ষে অন্যায্য বলে মনে হচ্ছে, যিনি এই সময়ে কাগজটি তিনবারের মধ্যে দু'বারের মধ্যে আবর্জনায় ফেলেছিল তা থেকে কোনও লাভ হয়নি। তাদের আপডেটটি কেবলমাত্র পরবর্তী স্তরের মান দ্বারা প্রভাবিত হয়েছিল, তবে এটি কীভাবে ইতিবাচক এবং নেতিবাচক পুরষ্কারগুলি কোণার থেকে বাহ্যিকভাবে রাজ্যগুলির দিকে ছড়িয়ে পড়ে তা নির্দেশ করে।

আমরা যত বেশি পর্ব অন্তর্ভুক্ত করব, ইতিবাচক এবং নেতিবাচক পুরষ্কারগুলি সমস্ত রাজ্যে ছড়িয়ে পড়বে। এটি নিচের চিত্রে মোটামুটি চিত্রিত হয়েছে, যা দেখায় যে দুটি পর্বই একটি ইতিবাচক ফলাফলের দিকে নিয়ে যায় এবং শিক্ষক এবং জি রাজ্যের মানকে প্রভাবিত করে, যখন একক নেতিবাচক পর্বে শাস্তি দেওয়া ব্যক্তি এম।

এটি দেখানোর জন্য আমরা আরও পর্বগুলি চেষ্টা করতে পারি। যদি আমরা ইতিমধ্যে প্রদত্ত তিনটি পথ পুনরাবৃত্তি করি তবে আমরা নিম্নলিখিত রাষ্ট্রীয় মান ফাংশনটি পাই:

(দয়া করে নোট করুন যে আমরা সরলতার জন্য এই উদাহরণে এই তিনটি পর্ব পুনরাবৃত্তি করেছি, তবে প্রকৃত মডেলটিতে এমন একটি পর্ব থাকবে যেখানে ফলাফল পর্যবেক্ষণের স্থানান্তর সম্ভাবনা ফাংশনের উপর ভিত্তি করে ফলাফল রয়েছে।)

উপরের চিত্রটি টার্মিনালের পুরষ্কারগুলি ডান দিকের উপরের কোণ থেকে স্ট্যাটাসে ছড়িয়ে দেওয়া দেখায়। এ থেকে আমরা আমাদের নীতি আপডেট করার সিদ্ধান্ত নিতে পারি কারণ এটি স্পষ্ট যে চূড়ান্ত নেতিবাচক পুরষ্কার ব্যক্তি এম এর মাধ্যমে চলে যায় এবং তাই বি এবং সি নেতিবাচকভাবে প্রভাবিত হয়। সুতরাং V27 এর উপর ভিত্তি করে, প্রতিটি স্ট্যাটাসের জন্য আমরা প্রতিটি স্ট্যাটাসের জন্য পরবর্তী সেরা স্থিতির মানটি বেছে নিয়ে আমাদের নীতিটি আপডেট করার সিদ্ধান্ত নিতে পারি, যেমনটি নিম্নলিখিত চিত্রটিতে দেখানো হয়েছে

এই উদাহরণে উদ্বেগের জন্য দুটি কারণ রয়েছে: প্রথমটি হ'ল ব্যক্তি এ'র সেরা কর্মটি হ'ল তাদের ট্র্যাশে ফেলে দেওয়া এবং নেতিবাচক পুরষ্কার প্রাপ্ত। এটি কারণ, পর্বগুলির কোনওটিই এই ব্যক্তিকে পরিদর্শন করেনি, বহু-সশস্ত্র ডাকাত সমস্যাটি তুলে ধরে। এই সামান্য উদাহরণে খুব কম রাজ্য রয়েছে তাই সেগুলি দেখার জন্য অনেক এপিসোড লাগবে, তবে আমাদের তা নিশ্চিত করা দরকার।

এই ব্যক্তির পক্ষে এই ক্রিয়াটি ভাল হওয়ার কারণ হ'ল শেষের রাষ্ট্রগুলির কোনওটিরই মূল্য নেই, বরং ইতিবাচক এবং নেতিবাচক ফলাফলগুলি শেষ পুরষ্কারগুলিতে থাকে। আমরা তখন করতে পারতাম, যদি আমাদের পরিস্থিতির প্রয়োজন হয় তবে ফলাফলের ভিত্তিতে চূড়ান্ত রাজ্যের সংখ্যাগুলির সাথে ভি0 শুরু করুন।

দ্বিতীয়ত, পর্বের পরে ব্যক্তি এম এর রাষ্ট্রীয় মান -0.03 এবং -0.51 (প্রায়) এর মধ্যে পরিবর্তিত হয় এবং কেন এটি হচ্ছে তা আমাদের বিবেচনা করা উচিত। এটি আমাদের আলফা শেখার হারের কারণে ঘটে। এই মুহুর্তে আমরা কেবলমাত্র আমাদের প্যারামিটারগুলি চালু করেছি (শিখার হার আলফা এবং ছাড়ের হার গামা), তবে তারা কীভাবে ফলাফলকে প্রভাবিত করে সে সম্পর্কে বিস্তারিত ব্যাখ্যা করা হয়নি।

একটি বৃহত শিক্ষার হার ত্রুটিযুক্ত ফলাফল আনতে পারে তবে এটি এতটা ছোট হওয়া উচিত নয় যে রূপান্তরটি চিরকালের জন্য লাগে। চিত্রটিতে এটি আরও নীচে দেখানো হয়েছে যা প্রতিটি পর্বের জন্য মোট ভি (গুলি) এর সংখ্যা দেখায় এবং আমরা পরিষ্কারভাবে দেখতে পারি যে এপিসোডগুলির মধ্যে একটি সাধারণ ক্রমবর্ধমান প্রবণতা রয়েছে তবে এটি পিছনে পিছনে পরিবর্তিত হয়। শিক্ষার হারের জন্য আরও একটি ভাল ব্যাখ্যা নিম্নরূপ:

“গল্ফে, বলটি যখন গর্ত থেকে অনেক দূরে থাকে, খেলোয়াড়ের পক্ষে যতটা সম্ভব গর্তের কাছাকাছি যাওয়া খুব কঠিন। পরে, তিনি চিহ্নিত অঞ্চলে পৌঁছালে, একটি সঠিক শর্ট শট পেতে তিনি অন্য ক্লাবটি বেছে নেন।

সুতরাং এটি এমন নয় যে শর্ট শট স্টিকটি বেছে না নিয়ে তিনি বলটি গর্তে getুকতে পারবেন না, তিনি দুটি বা তিনবার লক্ষ্যের সামনে বল পাঠাতে পারতেন। তবে, যদি তিনি সর্বোত্তমভাবে খেলেন এবং গর্তে পৌঁছানোর জন্য সঠিক পরিমাণে শক্তি প্রয়োগ করেন তবে এটি সবচেয়ে ভাল। "

পর্ব

কোনও সমস্যার জন্য অনুকূল শিক্ষার হার নির্ধারণের জন্য কয়েকটি জটিল পদ্ধতি রয়েছে। যেকোন মেশিন লার্নিং অ্যালগরিদমের মতো, তবে, পরিবেশ যদি যথেষ্ট সহজ হয় তবে কনভার্সেশনটি অর্জন না হওয়া পর্যন্ত আপনাকে বিভিন্ন মানের মাধ্যমে পুনরাবৃত্তি করতে হবে। এটি স্টোকাস্টিক শালীন গ্রেডিয়েন্ট হিসাবেও পরিচিত। সাম্প্রতিক আরএল প্রকল্পে আমি অ্যানিমেটেড গ্রাফিক ব্যবহার করে আলফা হ্রাসের প্রভাবগুলি প্রদর্শন করেছি। এটি নীচে দেখানো হয়েছে। এটি আলফা যখন বড় হয় তখন কম্পন এবং আলফা যখন কমে যায় তখন কীভাবে তা কমিয়ে দেওয়া হয় তা দেখায়।

তেমনি, আমাদের 0 থেকে 1 এর মধ্যে একটি সংখ্যার উপর আমাদের ছাড়ের হার সেট করতে হবে। প্রায়শই এটি ধরে নেওয়া হয় যে এটি 0.9 এর কাছাকাছি। ছাড়ের উপাদানটি আমাদের জানায় যে ভবিষ্যতে কতটা গুরুত্বপূর্ণ পুরষ্কার রয়েছে; একটি বৃহত সংখ্যক ইঙ্গিত দেয় যে এগুলি গুরুত্বপূর্ণ হিসাবে বিবেচিত হয়, তবে 0 এর কাছাকাছি যাওয়ার কারণে মডেলটি ভবিষ্যতের পদক্ষেপগুলির কম এবং কম অ্যাকাউন্ট গ্রহণ করতে পারে।

এই দুটি কারণকে মনে রেখে আমরা উভয় আলফা ০.০ থেকে ০.২ থেকে গামা এবং ০.০ থেকে ০.৯ এ পরিবর্তন করতে পারি এবং নিম্নলিখিত ফলাফলগুলি পেতে পারি:

আমাদের শিক্ষার হার এখন অনেক কম হওয়ার কারণে, মডেলটি শিখতে আরও বেশি সময় নেয় এবং মানগুলি সাধারণত ছোট হয় smaller শিক্ষকের জন্য সর্বাধিক লক্ষণীয় স্পষ্টভাবে সেরা রাষ্ট্র the যাইহোক, দীর্ঘ গণনার সময়ের জন্য এই সমঝোতার অর্থ এম এর জন্য আমাদের মান আর আগের মতো ওঠানামা করে না। আমরা এখন আমাদের আপডেট হওয়া প্যারামিটার অনুযায়ী ভি (গুলি) এর যোগফলের জন্য নীচের চিত্রটিতে এটি দেখতে পাচ্ছি। পুরোপুরি মসৃণ না হলেও সামগ্রিক ভি (গুলি) আস্তে আস্তে আগের চেয়ে অনেক বেশি স্থিতিশীল হারে বৃদ্ধি পায় এবং মনে হয় যে আমরা এটি যেভাবে পছন্দ করি তা রূপান্তরিত করে, তবে এটি করতে প্রায় 75 টি পর্ব লাগে।

লক্ষ্য ফলাফল পরিবর্তন করুন

আরএল-এর আর একটি মূল সুবিধা, যা আমরা খুব বেশি বিশদে উল্লেখ করি নি, এটি পরিবেশের উপর কিছুটা নিয়ন্ত্রণ। বর্তমানে, পুরষ্কারগুলি যত তাড়াতাড়ি সম্ভব মডেলটিকে ইতিবাচক পেতে আমাদের সিদ্ধান্তের ভিত্তিতে তৈরি।

বলুন শিক্ষক বদলে গেছে এবং নতুন শিক্ষার্থীরা কাগজটি ট্র্যাশে ফেলে দেওয়ার সময় এটি পড়তে আপত্তি করে না। তারপরে আমরা আমাদের নেতিবাচক পুরষ্কারটি পরিবর্তন করতে পারি এবং সর্বোত্তম নীতি পরিবর্তন হবে।

এটি ব্যবসায়িক সমাধানের জন্য বিশেষভাবে কার্যকর। মনে করুন আপনি কোনও কৌশল পরিকল্পনা করছেন এবং আপনি জানেন যে নির্দিষ্ট স্থানান্তরগুলি অন্যের চেয়ে কম পছন্দসই। তারপরে এটি অ্যাকাউন্টে নেওয়া যেতে পারে এবং ইচ্ছামত পরিবর্তন করা যেতে পারে।

উপসংহার

আমরা এখন পর্যবেক্ষণ করা ডেটা থেকে একটি সাধারণ পুনর্বহাল শেখার মডেল তৈরি করেছি। আরও জটিল মডেল ব্যবহার করে উন্নত বা বিকাশযোগ্য এমন অনেকগুলি বিষয় রয়েছে। যাইহোক, যারা তাদের নিজস্ব বাস্তব-বিশ্বের সমস্যাগুলি সমাধান করার চেষ্টা করতে চান তাদের জন্য এটি একটি ভাল ভূমিকা হওয়া উচিত।

আশা করি আপনি এই নিবন্ধটি পড়ে উপভোগ করেছেন। আপনার যদি কোনও প্রশ্ন থাকে তবে দয়া করে নীচে মন্তব্য করতে দ্বিধা বোধ করবেন।

অনেক ধন্যবাদ

স্টার্লিং