অ্যাকশন-ভ্যালু পদ্ধতি

রি-ইনফোর্সমেন্ট লার্নিং এর সবচেয়ে বড় একটি সমস্যা হচ্ছে কখন কোন সিদ্ধান্তটি নিতে হবে এটা নির্ধারণ করা। কোন একটা রি-ওয়ার্ড ভ্যালুর জন্য কোন অ্যাকশন টা নিতে হবে এজন্য অনেকগুলো পদ্ধতি আছে। আর এই পদ্ধতিগুলোকেই অ্যাকশন -ভ্যালু পদ্ধতি (Action-value Method) বলে। এগুলো নিম্নে...

মাল্টি-আর্মড ব্যান্ডিট (Multi-armed Bandit)

মাল্টি-আর্মড ব্যান্ডিট (Multi-armed Bandit) ক্লাসিক্যাল রি-ইনফোর্সমেন্ট লার্নিং সমস্যাগুলোর মধ্যে অন্যতম। মূলত এটি একটি স্লট মেশিন (Slot Machine) যেটা ক্যাসিনোতে জুয়ার আসরে বসানো হয়। এই মেশিনের সাথে একটি হাতল থাকে, এই হাতল টানলে সম্ভাব্যতার সূত্রানুসারে দৈবচয়ন...

PSNR কি?

Peak Signal to Noise Ratio এর সংক্ষিপ্ত রুপই PSNR. PSNR এর মাধ্যমেই দুইটি ছবি বা সিগন্যালের সামঞ্জস্যতা বা বৈসাদৃশ্য নিরুপন করা হয়। এই লেখাটি এখনো অনুবাদ করা হয়নি। ইংরেজীতে দেখতে এখানে ক্লিক...

রি-ইনফোর্সমেন্ট লার্নিং এর উপাদান সমূহ

এজেন্ট (Agent) এবং পরিবেশ (Environment) ছাড়াও চারটি উপ-উপাদান (Sub-element) রয়েছে। সেগুলো হচ্ছে – পলিসি (Policy), রি-ওয়ার্ড (Reward), ভাল্যু ফাংশন (Value Function), এবং মডেল (Model)। পলিসি (Policy) পলিসি একটি নির্দিষ্ট পরিবেশে কোন এজেন্ট এর আচরণ কেমন হবে সেটা...