রি-ইনফোর্সমেন্ট লার্নিং এর সবচেয়ে বড় একটি সমস্যা হচ্ছে কখন কোন সিদ্ধান্তটি নিতে হবে এটা নির্ধারণ করা। কোন একটা রি-ওয়ার্ড ভ্যালুর জন্য কোন অ্যাকশন টা নিতে হবে এজন্য অনেকগুলো পদ্ধতি আছে। আর এই পদ্ধতিগুলোকেই অ্যাকশন -ভ্যালু পদ্ধতি (Action-value Method) বলে। এগুলো নিম্নে বিস্তারিত আলোচনা করা হল-
গ্রিডি পদ্ধতি (Greedy Method)
আমরা যদি কোন একটা সিস্টেম এর ভ্যালু ফাংশন গণনা করি তাহলে এবশ্যই এমন একটা অ্যাকশন পাওয়া যাবে সেটা ঐ মুহুর্তের জন্য সবচেয়ে ভাল। সবসময় এই সর্বোচ্চ রি-ওয়ার্ড ভ্যালুর অ্যাকশন কে বাছাই করাই গ্রিডি পদ্ধতি। অর্থাৎ এখানে শুধু এক্সপ্লয়টেশন হয়, এক্সপ্লোরেশনের কোন সুযোগ নেই।
গ্রিডি পদ্ধতির সমস্যা
- সর্বদা বর্তমান জ্ঞানকে কাজে লাগায়, কোনও এক্সপ্লোরেশন নেই।