রি-ইনফোর্সমেন্ট লার্নিং এর উপাদান সমূহ

এজেন্ট (Agent) এবং পরিবেশ (Environment) ছাড়াও চারটি উপ-উপাদান (Sub-element) রয়েছে। সেগুলো হচ্ছে – পলিসি (Policy), রি-ওয়ার্ড (Reward), ভাল্যু ফাংশন (Value Function), এবং মডেল (Model)।

পলিসি (Policy)

পলিসি একটি নির্দিষ্ট পরিবেশে কোন এজেন্ট এর আচরণ কেমন হবে সেটা নির্ধারণ করে। এটি এজেন্ট এর মৌলিক একটি উপাদান যেটা কিনা শুধু নিজেই কোন একটি পরিবেশের প্রেক্ষিতে কি সিদ্ধান্ত নিতে হবে সেটার সিদ্ধান্ত নিতে পারে।

রি-ওয়ার্ড সিগন্যাল (Reward Signal)

রি-ওয়ার্ড সম্পর্কে আগেই একটু হালকা-পাতলা আলোচনা করা হয়েছে। এটি কোন একটা নির্দিষ্ট সমস্যার লক্ষ্য (Goal) নির্ধারণ করে। প্রত্যেক ধাপ (Step) সম্পন্ন করার পর এটি এজেন্ট এর কাছে একটি সংখ্যা প্রেরণ করে যেটা রি-ওয়ার্ড নামে পরিচিত। আর এর মাধ্যমেই কোন ইভেন্টটি ভাল আর কোনটি খারাপ সেটা নির্ধারিত হয়।

ভাল্যু ফাংশন (Value Function)

ভ্যালু ফাংশন কোন একটা সম্পূর্ণ ধাপ সম্পন্ন করার পর রি-ওয়ার্ড কি হবে সেটা গণনা করে। রি-ওয়ার্ড কোন একটি ধাপের তাৎক্ষণিক ফলাফল কি হবে সেটা নির্ণয় করে, অন্যদিকে কোন ধাপটি ভবিষ্যতের জন্য ভাল হবে সেটা ভ্যালু ফাংশন নির্ধারণ করে। একই কাজের জন্য একাধিক ভ্যালু ফাংশন থাকতে পারে; কিন্তু একটি নির্দিষ্ট কাজের জন্য অপটিমাম (Optimum) ভ্যালু ফাংশন একটাই থাকবে।

মডেল (Model)

এটি কোন কিছু পরিকল্পনা করার জন্য ব্যবহৃত হয়, অর্থাৎ পূর্বে প্রাপ্ত কোন ফলাফলের ভিত্তিতে সিদ্ধান্ত নির্ধারণ করা। মডেল ছাড়াও রি-ইনফোর্সমেন্ট লার্নিং কাজ করতে পার, এটা আবশ্যক নয়। অর্থাৎ এজেন্ট এর ক্ষেত্রে দুই ধরণের লার্নিং হতে পারে –

মডেল বেজড লার্নিং (Model Based Learning) এবং
মডেল ফ্রি লার্নিং (Model Free Learning)

মডেল বেজড লার্নিং এ এজেন্ট মূলত এক্সপ্লয়টেশন এর মাধ্যমে কাজ করে, আর মডেল ফ্রি লার্নিং এ এক্সপ্লোরেশন।

0 0 votes

Article Rating

রি-ইনফোর্সমেন্ট লার্নিং এর উপাদান সমূহ

পলিসি (Policy)

রি-ওয়ার্ড সিগন্যাল (Reward Signal)

ভাল্যু ফাংশন (Value Function)

মডেল (Model)

Related

Leave a ReplyCancel reply

সাম্প্রতিক মন্তব্যসমূহ

বিভাগসমূহ