রিইনফোর্সমেন্ট লার্নিং কি?

রি-ইনফোর্সমেন্ট লার্নিং এক ধরনের শেখার (Learning) প্রক্রিয়া যেটার উদ্দেশ্য হচ্ছে কোন একটা পরিবেশে এমন একটা সিদ্ধান্ত গ্রহণ করা যেখান থেকে সর্বোচ্চ পরিমাণ রি-ওয়ার্ড(reward) পাওয়া যাবে। এটা একটি ট্রায়াল-এন্ড-এরর (trial-and-error) পদ্ধতি। ট্রায়াল-এন্ড-এরর এবং রি-ওয়ার্ড – এই দুটি রি-ইনফোর্সমেন্ট লার্নিং এর সবচেয়ে স্বাতন্ত্র্যসূচক বৈশিষ্ট।

সুপারভাইজড এবং আন-সুপারভাইজড লার্নিং এ কোন একটা এজেন্টকে সরাসরি শেখানো হয়, কিন্তু এখানে সেটা পরোক্ষভাবে করানো। আর এই পরোক্ষ কাজটা করানো হয় কিছু রি-ওয়ার্ডের মাধ্যমে। উদাহরণস্বরুপ সিংহের রিং খেলার কথা বলা যায়। সিংহ যদি রিং এর ভিতর দিয়ে এপাশ থেকে ওপাশে যায় তাহলে তাকে খাবার দেওয়া হয়। যদি বাইরে দিয়ে যায় তাহলে তাকে সেটা দেওয়া হয়না। এখানে তাকে সরাসরি শেখানো হচ্ছেনা তাকে কি করতে হবে কিন্তু তাকে পরোক্ষভাবে রি-ওয়ার্ড দেওয়ার মাধ্যমে এভাবেই সে শিখে নেয় আসলে তাকে কি করতে হবে। অর্থাৎ খাবারটাই এখানে রি-ওয়ার্ড হিসেবে কাজ করছে।

আমরা যদি কোন স্টেট মেশিন (state-machine) কল্পনা করি তাহলে এখানে দুইটা ঘটনা (event) বিদ্যমান। একটি হচ্ছে এজেন্ট (agent) এবং অন্যটি পরিবেশ (environment). এজেন্ট সবসময় পরিবেশ থেকে তথ্য নিয়ে শেখার কাজটি সম্পন্ন করে এবং তার সিদ্ধান্ত গ্রহণের ক্ষমতা ক্রমাগত বৃদ্ধি করে।

এখন প্রশ্ন আসতে পারে, রি-ইনফোর্সমেন্ট লার্নিং কি সুপারভাইজড (Supervised) নাকি আন-সুপারভাইজড (Unsupervised)? খুব সংক্ষিপ্তকারে বলতে গেলে – দুটোই। রি-ইনফোর্সমেন্ট লার্নিং এ সুপারভাইজড এবং আন-সুপারভাইজড দুইটাই ব্যবহৃত হয়।

সুপারভাইজড ও রি-ইনফোর্সমেন্ট লার্নিং

সুপারভাইজড লার্নিং এ ডেটা গুলো লেবেলড (Labeled) থাকে। অর্থাৎ কোন ডেটা কি অর্থ বহন করছে সেটা, এক কথায় ডেটার পরিচয় লিপিবদ্ধ থাকে। এই জ্ঞাত ডেটা থেকে তথ্য নিয়েই মডেল (Model) তৈরি করা হয়। সুপারভাইজড লার্নিং এ মডেল তৈরি করার পরে সেটা একই ধরনের বা ক্যাটাগরির (Category) অজানা কোন ডেটার জন্য সিদ্ধান্ত (Decision) নিতে পারে; কিন্তু নতুন কোন অবস্থায় (Situation/ Environment) সেটা পারেনা। এক্ষেত্রে রি-ইনফোর্সমেন্ট লার্নিং এক্সপ্লয়টেশন এবং এক্সপ্লোরেশন টেকনিক ব্যবহার করে সিদ্ধান্ত নিতে সক্ষম।

আন-সুপারভাইজড ও রি-ইনফোর্সমেন্ট লার্নিং

পূর্বের অনুচ্ছেদ পড়ে এতক্ষণে হয়তো ভাবা শুরু করেছেন যে এটা আন-সুপারভাইজড লার্নিং। আসলে এটাও না। আন-সুপারভাইজড লার্নিং এ ডেটাগুলো আন-লেবেলড থাকে। এই আন-লেবেলড ডেটা থেকে একই ধরণের ডেটাগুলোকে পৃথক করে বিভিন্ন ক্যাটাগরিতে বিভাজন করাই মূলত আন-লেবেলড ডেটার ক্ষেত্রে মূল উদ্দেশ্য থাকে। কিন্তু রি-ইনফোর্সমেন্ট লার্নিং এ কোন ক্যাটাগরি খুজে বের করা অথবা কোন লুকায়িত প্যাটার্ন খুজে বের করা না, বরং এটা রি-ওয়ার্ড টাকে সর্বোচ্চ করে।

এ কারণেই রি-ইনফোর্সমেন্ট লার্নিং কে তৃতীয় একটা শ্রেণীতে জায়গা দেওয়া হয়েছে। এটাকে সেমি-সুপারভাইজড লার্নিং ও বলে।

0 0 votes

Article Rating

রিইনফোর্সমেন্ট লার্নিং কি?

সুপারভাইজড ও রি-ইনফোর্সমেন্ট লার্নিং

আন-সুপারভাইজড ও রি-ইনফোর্সমেন্ট লার্নিং

Related

Leave a ReplyCancel reply

সাম্প্রতিক মন্তব্যসমূহ

বিভাগসমূহ