এজেন্ট (Agent) এবং পরিবেশ (Environment) ছাড়াও চারটি উপ-উপাদান (Sub-element) রয়েছে। সেগুলো হচ্ছে – পলিসি (Policy), রি-ওয়ার্ড (Reward), ভাল্যু ফাংশন (Value Function), এবং মডেল (Model)।
পলিসি (Policy)
পলিসি একটি নির্দিষ্ট পরিবেশে কোন এজেন্ট এর আচরণ কেমন হবে সেটা নির্ধারণ করে। এটি এজেন্ট এর মৌলিক একটি উপাদান যেটা কিনা শুধু নিজেই কোন একটি পরিবেশের প্রেক্ষিতে কি সিদ্ধান্ত নিতে হবে সেটার সিদ্ধান্ত নিতে পারে।
রি-ওয়ার্ড সিগন্যাল (Reward Signal)
রি-ওয়ার্ড সম্পর্কে আগেই একটু হালকা-পাতলা আলোচনা করা হয়েছে। এটি কোন একটা নির্দিষ্ট সমস্যার লক্ষ্য (Goal) নির্ধারণ করে। প্রত্যেক ধাপ (Step) সম্পন্ন করার পর এটি এজেন্ট এর কাছে একটি সংখ্যা প্রেরণ করে যেটা রি-ওয়ার্ড নামে পরিচিত। আর এর মাধ্যমেই কোন ইভেন্টটি ভাল আর কোনটি খারাপ সেটা নির্ধারিত হয়।
ভাল্যু ফাংশন (Value Function)
ভ্যালু ফাংশন কোন একটা সম্পূর্ণ ধাপ সম্পন্ন করার পর রি-ওয়ার্ড কি হবে সেটা গণনা করে। রি-ওয়ার্ড কোন একটি ধাপের তাৎক্ষণিক ফলাফল কি হবে সেটা নির্ণয় করে, অন্যদিকে কোন ধাপটি ভবিষ্যতের জন্য ভাল হবে সেটা ভ্যালু ফাংশন নির্ধারণ করে। একই কাজের জন্য একাধিক ভ্যালু ফাংশন থাকতে পারে; কিন্তু একটি নির্দিষ্ট কাজের জন্য অপটিমাম (Optimum) ভ্যালু ফাংশন একটাই থাকবে।
মডেল (Model)
এটি কোন কিছু পরিকল্পনা করার জন্য ব্যবহৃত হয়, অর্থাৎ পূর্বে প্রাপ্ত কোন ফলাফলের ভিত্তিতে সিদ্ধান্ত নির্ধারণ করা। মডেল ছাড়াও রি-ইনফোর্সমেন্ট লার্নিং কাজ করতে পার, এটা আবশ্যক নয়। অর্থাৎ এজেন্ট এর ক্ষেত্রে দুই ধরণের লার্নিং হতে পারে –
- মডেল বেজড লার্নিং (Model Based Learning) এবং
- মডেল ফ্রি লার্নিং (Model Free Learning)
মডেল বেজড লার্নিং এ এজেন্ট মূলত এক্সপ্লয়টেশন এর মাধ্যমে কাজ করে, আর মডেল ফ্রি লার্নিং এ এক্সপ্লোরেশন।