রি-ইনফোর্সমেন্ট লার্নিং এক ধরনের শেখার (Learning) প্রক্রিয়া যেটার উদ্দেশ্য হচ্ছে কোন একটা পরিবেশে এমন একটা সিদ্ধান্ত গ্রহণ করা যেখান থেকে সর্বোচ্চ পরিমাণ রি-ওয়ার্ড(reward) পাওয়া যাবে। এটা একটি ট্রায়াল-এন্ড-এরর (trial-and-error) পদ্ধতি। ট্রায়াল-এন্ড-এরর এবং রি-ওয়ার্ড – এই দুটি রি-ইনফোর্সমেন্ট লার্নিং এর সবচেয়ে স্বাতন্ত্র্যসূচক বৈশিষ্ট।
সুপারভাইজড এবং আন-সুপারভাইজড লার্নিং এ কোন একটা এজেন্টকে সরাসরি শেখানো হয়, কিন্তু এখানে সেটা পরোক্ষভাবে করানো। আর এই পরোক্ষ কাজটা করানো হয় কিছু রি-ওয়ার্ডের মাধ্যমে। উদাহরণস্বরুপ সিংহের রিং খেলার কথা বলা যায়। সিংহ যদি রিং এর ভিতর দিয়ে এপাশ থেকে ওপাশে যায় তাহলে তাকে খাবার দেওয়া হয়। যদি বাইরে দিয়ে যায় তাহলে তাকে সেটা দেওয়া হয়না। এখানে তাকে সরাসরি শেখানো হচ্ছেনা তাকে কি করতে হবে কিন্তু তাকে পরোক্ষভাবে রি-ওয়ার্ড দেওয়ার মাধ্যমে এভাবেই সে শিখে নেয় আসলে তাকে কি করতে হবে। অর্থাৎ খাবারটাই এখানে রি-ওয়ার্ড হিসেবে কাজ করছে।
আমরা যদি কোন স্টেট মেশিন (state-machine) কল্পনা করি তাহলে এখানে দুইটা ঘটনা (event) বিদ্যমান। একটি হচ্ছে এজেন্ট (agent) এবং অন্যটি পরিবেশ (environment). এজেন্ট সবসময় পরিবেশ থেকে তথ্য নিয়ে শেখার কাজটি সম্পন্ন করে এবং তার সিদ্ধান্ত গ্রহণের ক্ষমতা ক্রমাগত বৃদ্ধি করে।
এখন প্রশ্ন আসতে পারে, রি-ইনফোর্সমেন্ট লার্নিং কি সুপারভাইজড (Supervised) নাকি আন-সুপারভাইজড (Unsupervised)? খুব সংক্ষিপ্তকারে বলতে গেলে – দুটোই। রি-ইনফোর্সমেন্ট লার্নিং এ সুপারভাইজড এবং আন-সুপারভাইজড দুইটাই ব্যবহৃত হয়।
সুপারভাইজড ও রি-ইনফোর্সমেন্ট লার্নিং
সুপারভাইজড লার্নিং এ ডেটা গুলো লেবেলড (Labeled) থাকে। অর্থাৎ কোন ডেটা কি অর্থ বহন করছে সেটা, এক কথায় ডেটার পরিচয় লিপিবদ্ধ থাকে। এই জ্ঞাত ডেটা থেকে তথ্য নিয়েই মডেল (Model) তৈরি করা হয়। সুপারভাইজড লার্নিং এ মডেল তৈরি করার পরে সেটা একই ধরনের বা ক্যাটাগরির (Category) অজানা কোন ডেটার জন্য সিদ্ধান্ত (Decision) নিতে পারে; কিন্তু নতুন কোন অবস্থায় (Situation/ Environment) সেটা পারেনা। এক্ষেত্রে রি-ইনফোর্সমেন্ট লার্নিং এক্সপ্লয়টেশন এবং এক্সপ্লোরেশন টেকনিক ব্যবহার করে সিদ্ধান্ত নিতে সক্ষম।
আন-সুপারভাইজড ও রি-ইনফোর্সমেন্ট লার্নিং
পূর্বের অনুচ্ছেদ পড়ে এতক্ষণে হয়তো ভাবা শুরু করেছেন যে এটা আন-সুপারভাইজড লার্নিং। আসলে এটাও না। আন-সুপারভাইজড লার্নিং এ ডেটাগুলো আন-লেবেলড থাকে। এই আন-লেবেলড ডেটা থেকে একই ধরণের ডেটাগুলোকে পৃথক করে বিভিন্ন ক্যাটাগরিতে বিভাজন করাই মূলত আন-লেবেলড ডেটার ক্ষেত্রে মূল উদ্দেশ্য থাকে। কিন্তু রি-ইনফোর্সমেন্ট লার্নিং এ কোন ক্যাটাগরি খুজে বের করা অথবা কোন লুকায়িত প্যাটার্ন খুজে বের করা না, বরং এটা রি-ওয়ার্ড টাকে সর্বোচ্চ করে।
এ কারণেই রি-ইনফোর্সমেন্ট লার্নিং কে তৃতীয় একটা শ্রেণীতে জায়গা দেওয়া হয়েছে। এটাকে সেমি-সুপারভাইজড লার্নিং ও বলে।