রি-ইনফোর্সমেন্ট লার্নিং এর সবচেয়ে বড় একটি সমস্যা হচ্ছে কখন কোন সিদ্ধান্তটি নিতে হবে এটা নির্ধারণ করা। কোন একটা রি-ওয়ার্ড ভ্যালুর জন্য কোন অ্যাকশন টা নিতে হবে এজন্য অনেকগুলো পদ্ধতি আছে। আর এই পদ্ধতিগুলোকেই অ্যাকশন -ভ্যালু পদ্ধতি (Action-value Method) বলে। এগুলো নিম্নে বিস্তারিত আলোচনা করা হল-

গ্রিডি পদ্ধতি (Greedy Method)

আমরা যদি কোন একটা সিস্টেম এর ভ্যালু ফাংশন গণনা করি তাহলে এবশ্যই এমন একটা অ্যাকশন পাওয়া যাবে সেটা ঐ মুহুর্তের জন্য সবচেয়ে ভাল। সবসময় এই সর্বোচ্চ রি-ওয়ার্ড ভ্যালুর অ্যাকশন কে বাছাই করাই গ্রিডি পদ্ধতি। অর্থাৎ এখানে শুধু এক্সপ্লয়টেশন হয়, এক্সপ্লোরেশনের কোন সুযোগ নেই।

গ্রিডি পদ্ধতির সমস্যা

  • সর্বদা বর্তমান জ্ঞানকে কাজে লাগায়, কোনও এক্সপ্লোরেশন নেই।

ε-গ্রিডি পলিসি( ε-Greedy Policy)

10-আর্মড টেস্টবেড (10-armed Testbed)

Incremental Implementation

Optimistic Initial Values

The Softmax Exploration Algorithm

Upper Confidence Bound

Gradient Bandit Algorithm

The Thompson Sampling Algorithm