রি-ইনফোর্সমেন্ট লার্নিং এক ধরনের শেখার (Learning) প্রক্রিয়া যেটার উদ্দেশ্য হচ্ছে কোন একটা পরিবেশে এমন একটা সিদ্ধান্ত গ্রহণ করা যেখান থেকে সর্বোচ্চ পরিমাণ রি-ওয়ার্ড(reward) পাওয়া যাবে। এটা একটি ট্রায়াল-এন্ড-এরর (trial-and-error) পদ্ধতি। ট্রায়াল-এন্ড-এরর এবং রি-ওয়ার্ড – এই দুটি রি-ইনফোর্সমেন্ট লার্নিং এর সবচেয়ে স্বাতন্ত্র্যসূচক বৈশিষ্ট।

সুপারভাইজড এবং আন-সুপারভাইজড লার্নিং এ কোন একটা এজেন্টকে সরাসরি শেখানো হয়, কিন্তু এখানে সেটা পরোক্ষভাবে করানো। আর এই পরোক্ষ কাজটা করানো হয় কিছু রি-ওয়ার্ডের মাধ্যমে। উদাহরণস্বরুপ সিংহের রিং খেলার কথা বলা যায়। সিংহ যদি রিং এর ভিতর দিয়ে এপাশ থেকে ওপাশে যায় তাহলে তাকে খাবার দেওয়া হয়। যদি বাইরে দিয়ে যায় তাহলে তাকে সেটা দেওয়া হয়না। এখানে তাকে সরাসরি শেখানো হচ্ছেনা তাকে কি করতে হবে কিন্তু তাকে পরোক্ষভাবে রি-ওয়ার্ড দেওয়ার মাধ্যমে এভাবেই সে শিখে নেয় আসলে তাকে কি করতে হবে। অর্থাৎ খাবারটাই এখানে রি-ওয়ার্ড হিসেবে কাজ করছে।

আমরা যদি কোন স্টেট মেশিন (state-machine) কল্পনা করি তাহলে এখানে দুইটা ঘটনা (event) বিদ্যমান। একটি হচ্ছে এজেন্ট (agent) এবং অন্যটি পরিবেশ (environment). এজেন্ট সবসময় পরিবেশ থেকে তথ্য নিয়ে শেখার কাজটি সম্পন্ন করে এবং তার সিদ্ধান্ত গ্রহণের ক্ষমতা ক্রমাগত বৃদ্ধি করে।

এখন প্রশ্ন আসতে পারে, রি-ইনফোর্সমেন্ট লার্নিং কি সুপারভাইজড (Supervised) নাকি আন-সুপারভাইজড (Unsupervised)? খুব সংক্ষিপ্তকারে বলতে গেলে – দুটোই। রি-ইনফোর্সমেন্ট লার্নিং এ সুপারভাইজড এবং আন-সুপারভাইজড দুইটাই ব্যবহৃত হয়।

সুপারভাইজড ও রি-ইনফোর্সমেন্ট লার্নিং

সুপারভাইজড লার্নিং এ ডেটা গুলো লেবেলড (Labeled) থাকে। অর্থাৎ কোন ডেটা কি অর্থ বহন করছে সেটা, এক কথায় ডেটার পরিচয় লিপিবদ্ধ থাকে। এই জ্ঞাত ডেটা থেকে তথ্য নিয়েই মডেল (Model) তৈরি করা হয়। সুপারভাইজড লার্নিং এ মডেল তৈরি করার পরে সেটা একই ধরনের বা ক্যাটাগরির (Category) অজানা কোন ডেটার জন্য সিদ্ধান্ত (Decision) নিতে পারে; কিন্তু নতুন কোন অবস্থায় (Situation/ Environment) সেটা পারেনা। এক্ষেত্রে রি-ইনফোর্সমেন্ট লার্নিং এক্সপ্লয়টেশন এবং এক্সপ্লোরেশন টেকনিক ব্যবহার করে সিদ্ধান্ত নিতে সক্ষম।

আন-সুপারভাইজড ও রি-ইনফোর্সমেন্ট লার্নিং

পূর্বের অনুচ্ছেদ পড়ে এতক্ষণে হয়তো ভাবা শুরু করেছেন যে এটা আন-সুপারভাইজড লার্নিং। আসলে এটাও না। আন-সুপারভাইজড লার্নিং এ ডেটাগুলো আন-লেবেলড থাকে। এই আন-লেবেলড ডেটা থেকে একই ধরণের ডেটাগুলোকে পৃথক করে বিভিন্ন ক্যাটাগরিতে বিভাজন করাই মূলত আন-লেবেলড ডেটার ক্ষেত্রে মূল উদ্দেশ্য থাকে। কিন্তু রি-ইনফোর্সমেন্ট লার্নিং এ কোন ক্যাটাগরি খুজে বের করা অথবা কোন লুকায়িত প্যাটার্ন খুজে বের করা না, বরং এটা রি-ওয়ার্ড টাকে সর্বোচ্চ করে।

এ কারণেই রি-ইনফোর্সমেন্ট লার্নিং কে তৃতীয় একটা শ্রেণীতে জায়গা দেওয়া হয়েছে। এটাকে সেমি-সুপারভাইজড লার্নিং ও বলে।

0 0 votes
Article Rating
0
Would love your thoughts, please comment.x
()
x