এক্সপ্লোরেশন (Exploration) এবং এক্সপ্লয়টেশন (Exploitation) পদ্ধতি দুইটি রি-ইনফোর্সমেন্ট লার্নিং এর অন্যতম মৌলিক প্রক্রিয়া। এক কথায় বলতে গেলে এক্সপ্লোরেশনের মাধ্যমে নতুন কিছু শেখে এবং এক্সপ্লয়টেশনের মাধ্যমে জ্ঞাত বিষয়গুলোর আলোকে সিদ্ধান্ত গ্রহণ করে। এই দুইটার মধ্যে ভারসাম্য রক্ষা করা জরুরি।

এক্সপ্লোরেশন (Exploration)

এই প্রক্রিয়ার মাধ্যমে রি-ইনফোর্সমেন্ট লার্নিং এ নতুন কিছু শেখার কাজ হয়ে থাকে। কোন মডেল যত বেশি এক্সপ্লোর করতে পারবে সেই মডেল ততবেশি ভাল ফলাফল দিতে পারবে।

এক্সপ্লয়টেশন (Exploitation)

এই প্রক্রিয়ার মাধ্যমে রি-ইনফোর্সমেন্ট লার্নিং এ নতুন কোন পরিবেশে শেখার কাজটা করে থাকে। এক্সপ্লয়টেশনের মাধ্যমেই মূলত ফলাফল নির্ধারিত হয়।

উভয়সঙ্কট (Dilemma)

এতক্ষণে আমরা বুঝে গিয়েছি যে রী-ওয়ার্ড পাবার জন্য এক্সপ্লয়টেশন জরুরি; কিন্তু একই সাথে ভাল ও সঠিক সিদ্ধান্তের জন্য এক্সপ্লোরেশনটাও জরুরি।

এখন প্রশ্ন হচ্ছে, এজেন্ট কোনটাকে বেশি প্রাধান্য দেবে, এক্সপ্লয়টেশন নাকি এক্সপ্লোরেশন? ধরা যাক কোন রোবট একটা কাজ সম্পন্ন করলে কিছু রি-ওয়ার্ড পাবে, একইসাথে ব্যাটারি চার্জ দিলে অন্য একটা রি-ওয়ার্ড পাবে। এখানে সে কোন রি-ওয়ার্ডটা গ্রহণ করবে? ব্যাটারি চার্জ না দিলে সে চলতে পারবে না, আর কাজ না করলে সে কোন রি-ওয়ার্ড পাবেনা।

এখানে আর একটা বড় সমস্যা আছে, সেটা হচ্ছে- কোন একটা অ্যাকশন (Action) গ্রহণ করার পরে যদি সেই এজেন্ট ব্যর্থ (Fail) না হয় তাহলে সে শিখতে পারবে না; আর এখানে উদ্দেশ্যই হচ্ছে নির্ভূল সিদ্ধান্ত গ্রহণ করা।

একারনেই এক্সপ্লোরেশন এবং এক্সপ্লয়টেশনের মাঝে সামঞ্জ্যস্য রাখা জরুরি। এজেন্টদের অবশ্যই বিভিন্ন পদক্ষেপের চেষ্টা করতে হবে এবং ক্রমবর্ধমানভাবে (Progressively) যেগুলি সবচেয়ে ভাল বলে মনে হচ্ছে তাদের পক্ষে যেতে হবে।

এক্সপ্লোরেশন এবং এক্সপ্লয়টেশন এর কিছু উদাহরণ

এখানে এক্সপ্লোরেশন এবং এক্সপ্লয়টেশন এর কিছু বাস্তব উদাহরণ দেওয়া হল-

রেস্তোরা নির্ধারণ

ধরা যাক আপনি একটি নির্দিষ্ট দোকানের খাবার খুবই পছন্দ করেন এবং প্রতিদিন ঐ রেস্তোরাতেই যান। তার অর্থ এটা না যে ঐ রেস্তোরার খাবারই সবচেয়ে ভাল হবে। এটার থেকে ভাল রেস্তোরাও থাকতে পারে। যেহেতু আপনি নতুন কোন রেস্তোরাতে যাচ্ছেন না, সেহেতু আপনি আরো ভাল রেস্তোরা আছে কিনা সেটা সম্পর্কে জানতেও পারছেন না।

এখানে আপনি যে একই দোকানে বার বার যাচ্ছেন – এটা এক্সপ্লয়টেশন

আর আপনি যদি অন্য কোন রেস্তোরায় ভাল খাবারের উদ্দেশ্যে যান, সেটা হবে – এক্সপ্লোরেশন

বিজ্ঞাপন

ধরা যাক, আপনি একটি বহুজাতিক কোম্পানির বিপনন বিভাগের কর্মকর্তা। আপনি টেলিভিশনে আপনার পণ্যের বিজ্ঞাপন দেন, এবং বর্তমানে আপনার ভোক্তাদের কাছ থেকে বেশ ভাল সাড়া আসছে। এ অবস্থায় আপনি কিন্তু জানেনে না যে অন্য কোন পন্থায় ভোক্তাদের কাছ থেকে আরো বেশি সাড়া পাওয়া যাবে কিনা। হঠাৎ আপনি অনলাইনে একটি বিজ্ঞাপন দিলেন এবং ব্যপক সাড়া পেলেন। অর্থাৎ টেলিভিশনের চেয়ে অনলাইনে আপনার বাজার ভাল।

এখানে নিয়মিত টেলিভিশনে বিজ্ঞাপন দেওয়াটাই এক্সপ্লয়টেশন

আর এখানে অনলাইনে কোন বিকল্প খোজাটাই এক্সপ্লোরেশন

এমন আরো অনেক উদাহরণ দেওয়া যাবে।

0 0 votes
Article Rating
0
Would love your thoughts, please comment.x
()
x