এক্সপ্লোরেশন (Exploration) এবং এক্সপ্লয়টেশন (Exploitation) পদ্ধতি দুইটি রি-ইনফোর্সমেন্ট লার্নিং এর অন্যতম মৌলিক প্রক্রিয়া। এক কথায় বলতে গেলে এক্সপ্লোরেশনের মাধ্যমে নতুন কিছু শেখে এবং এক্সপ্লয়টেশনের মাধ্যমে জ্ঞাত বিষয়গুলোর আলোকে সিদ্ধান্ত গ্রহণ করে। এই দুইটার মধ্যে ভারসাম্য রক্ষা করা জরুরি।
এক্সপ্লোরেশন (Exploration)
এই প্রক্রিয়ার মাধ্যমে রি-ইনফোর্সমেন্ট লার্নিং এ নতুন কিছু শেখার কাজ হয়ে থাকে। কোন মডেল যত বেশি এক্সপ্লোর করতে পারবে সেই মডেল ততবেশি ভাল ফলাফল দিতে পারবে।
এক্সপ্লয়টেশন (Exploitation)
এই প্রক্রিয়ার মাধ্যমে রি-ইনফোর্সমেন্ট লার্নিং এ নতুন কোন পরিবেশে শেখার কাজটা করে থাকে। এক্সপ্লয়টেশনের মাধ্যমেই মূলত ফলাফল নির্ধারিত হয়।
উভয়সঙ্কট (Dilemma)
এতক্ষণে আমরা বুঝে গিয়েছি যে রী-ওয়ার্ড পাবার জন্য এক্সপ্লয়টেশন জরুরি; কিন্তু একই সাথে ভাল ও সঠিক সিদ্ধান্তের জন্য এক্সপ্লোরেশনটাও জরুরি।
এখন প্রশ্ন হচ্ছে, এজেন্ট কোনটাকে বেশি প্রাধান্য দেবে, এক্সপ্লয়টেশন নাকি এক্সপ্লোরেশন? ধরা যাক কোন রোবট একটা কাজ সম্পন্ন করলে কিছু রি-ওয়ার্ড পাবে, একইসাথে ব্যাটারি চার্জ দিলে অন্য একটা রি-ওয়ার্ড পাবে। এখানে সে কোন রি-ওয়ার্ডটা গ্রহণ করবে? ব্যাটারি চার্জ না দিলে সে চলতে পারবে না, আর কাজ না করলে সে কোন রি-ওয়ার্ড পাবেনা।
এখানে আর একটা বড় সমস্যা আছে, সেটা হচ্ছে- কোন একটা অ্যাকশন (Action) গ্রহণ করার পরে যদি সেই এজেন্ট ব্যর্থ (Fail) না হয় তাহলে সে শিখতে পারবে না; আর এখানে উদ্দেশ্যই হচ্ছে নির্ভূল সিদ্ধান্ত গ্রহণ করা।
একারনেই এক্সপ্লোরেশন এবং এক্সপ্লয়টেশনের মাঝে সামঞ্জ্যস্য রাখা জরুরি। এজেন্টদের অবশ্যই বিভিন্ন পদক্ষেপের চেষ্টা করতে হবে এবং ক্রমবর্ধমানভাবে (Progressively) যেগুলি সবচেয়ে ভাল বলে মনে হচ্ছে তাদের পক্ষে যেতে হবে।
এক্সপ্লোরেশন এবং এক্সপ্লয়টেশন এর কিছু উদাহরণ
এখানে এক্সপ্লোরেশন এবং এক্সপ্লয়টেশন এর কিছু বাস্তব উদাহরণ দেওয়া হল-
রেস্তোরা নির্ধারণ
ধরা যাক আপনি একটি নির্দিষ্ট দোকানের খাবার খুবই পছন্দ করেন এবং প্রতিদিন ঐ রেস্তোরাতেই যান। তার অর্থ এটা না যে ঐ রেস্তোরার খাবারই সবচেয়ে ভাল হবে। এটার থেকে ভাল রেস্তোরাও থাকতে পারে। যেহেতু আপনি নতুন কোন রেস্তোরাতে যাচ্ছেন না, সেহেতু আপনি আরো ভাল রেস্তোরা আছে কিনা সেটা সম্পর্কে জানতেও পারছেন না।
এখানে আপনি যে একই দোকানে বার বার যাচ্ছেন – এটা এক্সপ্লয়টেশন।
আর আপনি যদি অন্য কোন রেস্তোরায় ভাল খাবারের উদ্দেশ্যে যান, সেটা হবে – এক্সপ্লোরেশন।
বিজ্ঞাপন
ধরা যাক, আপনি একটি বহুজাতিক কোম্পানির বিপনন বিভাগের কর্মকর্তা। আপনি টেলিভিশনে আপনার পণ্যের বিজ্ঞাপন দেন, এবং বর্তমানে আপনার ভোক্তাদের কাছ থেকে বেশ ভাল সাড়া আসছে। এ অবস্থায় আপনি কিন্তু জানেনে না যে অন্য কোন পন্থায় ভোক্তাদের কাছ থেকে আরো বেশি সাড়া পাওয়া যাবে কিনা। হঠাৎ আপনি অনলাইনে একটি বিজ্ঞাপন দিলেন এবং ব্যপক সাড়া পেলেন। অর্থাৎ টেলিভিশনের চেয়ে অনলাইনে আপনার বাজার ভাল।
এখানে নিয়মিত টেলিভিশনে বিজ্ঞাপন দেওয়াটাই এক্সপ্লয়টেশন।
আর এখানে অনলাইনে কোন বিকল্প খোজাটাই এক্সপ্লোরেশন।
এমন আরো অনেক উদাহরণ দেওয়া যাবে।