Press ESC to close

রি-ইনফোর্সমেন্ট লার্নিং

মাল্টি-আর্মড ব্যান্ডিট (Multi-armed Bandit)

SHAHINUR 0

মাল্টি-আর্মড ব্যান্ডিট (Multi-armed Bandit) ক্লাসিক্যাল রি-ইনফোর্সমেন্ট লার্নিং সমস্যাগুলোর মধ্যে অন্যতম। মূলত এটি একটি স্লট মেশিন (Slot Machine) যেটা ক্যাসিনোতে জুয়ার আসরে বসানো হয়। এই মেশিনের সাথে একটি হাতল থাকে, এই…

Continue reading

রি-ইনফোর্সমেন্ট লার্নিং এর উপাদান সমূহ

SHAHINUR 0

এজেন্ট (Agent) এবং পরিবেশ (Environment) ছাড়াও চারটি উপ-উপাদান (Sub-element) রয়েছে। সেগুলো হচ্ছে – পলিসি (Policy), রি-ওয়ার্ড (Reward), ভাল্যু ফাংশন (Value Function), এবং মডেল (Model)। পলিসি (Policy) পলিসি একটি নির্দিষ্ট পরিবেশে…

Continue reading

এক্সপ্লোরেশন (Exploration) এবং এক্সপ্লয়টেশন (Exploitation)

SHAHINUR 0

এক্সপ্লোরেশন (Exploration) এবং এক্সপ্লয়টেশন (Exploitation) পদ্ধতি দুইটি রি-ইনফোর্সমেন্ট লার্নিং এর অন্যতম মৌলিক প্রক্রিয়া। এক কথায় বলতে গেলে এক্সপ্লোরেশনের মাধ্যমে নতুন কিছু শেখে এবং এক্সপ্লয়টেশনের মাধ্যমে জ্ঞাত বিষয়গুলোর আলোকে সিদ্ধান্ত গ্রহণ…

Continue reading

রিইনফোর্সমেন্ট লার্নিং কি?

SHAHINUR 0

রি-ইনফোর্সমেন্ট লার্নিং এক ধরনের শেখার (Learning) প্রক্রিয়া যেটার উদ্দেশ্য হচ্ছে কোন একটা পরিবেশে এমন একটা সিদ্ধান্ত গ্রহণ করা যেখান থেকে সর্বোচ্চ পরিমাণ রি-ওয়ার্ড(reward) পাওয়া যাবে। এটা একটি ট্রায়াল-এন্ড-এরর (trial-and-error) পদ্ধতি।…

Continue reading