রি-ইনফোর্সমেন্ট লার্নিং (Reinforcement Learning) ধারাবাহিকে সবাইকে স্বাগতম। Reinforcement Learning কে বাংলায় প্রকাশ করতে গেলে খুব সম্ভবত এটি হবে “পুনঃপুনঃ শেখা”, যেটা একটু শ্রুতিকটু এবং উচ্চারণে কষ্টসাধ্য। একারণের এখানে Reinforcement Learning কে বাংলায় রি-ইনফোর্সমেন্ট লার্নিং বলেই উল্লেখ করা হবে। এখানে রি-ইনফোর্সমেন্ট লার্নিং নিয়ে বিস্তারিত আলোচনার করার চেষ্টা করব।
রি-ইনফোর্সমেন্ট লার্নিং কি?
বাংলায় একটি কথা প্রচলিত আছে, “কেউ দেখে শেখে,কেউ ঠেকে শেখে”। সোজা কথায় বলতে গেলে এই ঠেকে শেখাটাই রি-ইনফোর্সমেন্ট লার্নিং। অর্থাৎ কোন অজানা পরিবেশে বিভিন্ন পরিস্থিতির আঙ্গিকে সঠিক সিদ্ধান্ত নিতে পারাটাই রি-ইনফোর্সমেন্ট লার্নিং এর মূল উদ্দেশ্য। যেহেতু এটা বিশদ একটা বিষয় তাই এখানে আলোচনা না করে পরবর্তিতে বিস্তারিত আলোচনা করা হবে।
এই সম্পূর্ণ ধারাবাহিকে কি কি বিষয়ে আলোচনা করা হবে সেটার একটা তালিকা নিচে দেওয়া হল। যদি কোন বিষয় বাদ পড়ে যায়, বা কোন বিষয়ে আরো বেশি জানতে চান তাহলে অবশ্যই আপনার মূল্যবান মন্তব্যটি জানাতে ভূলবেন না।
- সাধারণ আলোচনা
- রি-ইনফোর্সমেন্ট লার্নিং কি?
- রি-ইনফোর্সমেন্ট লার্নিং এর শুরুর কথা
- রি-ইনফোর্সমেন্ট লার্নিং এর উদাহরণ
- এক্সপ্লোরেশন (Exploration) এবং এক্সপ্লয়টেশন (Exploitation)
- রি-ইনফোর্সমেন্ট লার্নিং এর উপাদানসমূহ
- সম্ভাব্যতা এবং সীমাবদ্ধতা
- টিক-ট্যাক-টো (Tic-Tac-Toe)
- মাল্টি-আর্মড ব্যান্ডিট
- মার্কভ ডিসিশন প্রসেস (Markav Decision Process)
- এজেন্ট-এনভায়রনমেন্ট ইন্টারফেস (The agent-environment Interaface)
- গোল এবং রি-ওয়ার্ড (Goals and Rewards)
- রিটার্ণ এবং এপিসোড (Retutns and Episodes)
- এপিসোডিক এবং কন্টিনিয়াস টাস্ক (Episodic and ContinuousTask)
ধন্যবাদ।
সাম্প্রতিক মন্তব্যসমূহ