ব্যাঙ্ক এর কাস্টমার ব্যাঙ্ক ছেড়ে যাবে কি না - ৭

আপনি আপনার বাসার বিড়ালটিকে বসতে শিখাচ্ছেন । আপনি বিড়ালটিকে বসতে বললে বিড়ালটিকে যখনই বসে তাকে কথা শোনার কারণে রিওয়ার্ড হিসেবে কিছু খাবার দেন- সুতরাং বিড়ালটি শিখে যাচ্ছে যে - সে বসলেই খাবার পায় । তাই একদিন, দুইদিন, তিনদিন করে একমাস শিখানোর পরে একটা সময় আপনার বিড়ালটি বসা শিখে যাবে।

ঠিক তেমনি, একটি মেশিন কে প্রশিক্ষণের জন্য ট্রেনিং ডাটা হল সেই তথ্য যা মডেলকে শেখানোর জন্য ব্যবহৃত হয়। এই তথ্য- টেক্সট, সংখ্যা, ছবি, শব্দ -যে কোন কিছুই হতে পারে। প্রশিক্ষণের তথ্য বিশ্লেষণ করে, মেশিন মডেল থেকে শিখে যায় এবং অদেখা ডেটাতে কিরকম সম্ভাবনা কাজ করে সেটিও আপনাকে জানাতে পারে। আপনি যত বেশি এবং ভালো মানের Training Data দিতে পারবেন, মডেলটি তত ভালো পারফর্ম করবে ।

লেখার শিরোনাম দেখে বুঝতে পেরেছেন এবারের মেশিন লার্নিং মডেল কি নিয়ে।

ডাটাসেটের একটি সংক্ষিপ্ত সামারি দিয়ে লেখা শুরু করবো। ভয় পাওয়ার কারণ নাই, কোনো টেকনিক্যাল টার্ম ইউজ করবো না। একটু কমন সেন্স এপ্লাই করলেই বুঝতে পারবেন কিভাবে ডাটা ভবিষ্যৎ কে দেখার সম্ভাবনা কিভাবে বলে দেয়।

এবার চলে আসি আজকের কম্পিটিশন এর ডাটাসেট নিয়ে ।

আপনি ব্যাঙ্ক এর ডাটা এনালিস্ট হিসেবে আছেন । ধরা যাক- আপনার ব্যাঙ্ক এর কাস্টমার এর সংখ্যা ১০ হাজার। এই সব কাস্টমারদের ডিটেল প্রোফাইলিং যেমন - ক্রেডিট স্কোর , বয়স , কত বছর ধরে একাউন্ট মেন্টেন করছেন , বর্তমানে ব্যালেন্স কত , ব্যাঙ্ক এর কতগুলো প্রোডাক্ট বা সার্ভিস সে বর্তমানে নিচ্ছে, ক্রেডিট কার্ড ইউজ করছে কি না , একাউন্ট একটিভ কি না , তার মান্থলি ইনকাম কত, কোন শাখায় তার একাউন্ট, এবং কাস্টমার কি বর্তমানে ব্যাঙ্ক এর সাথে আছে নাকি একাউন্ট বন্ধ করে অন্য কোথাও চলে গেছে (একে বলে Customer churn Rate) - এই তথ্যগুলো আপনার কাছে আছে। যদি এই তথ্যগুলো আপনার কাছে থেকে থাকে, ধরে নিচ্ছি সেটি একটি এক্সেল ফাইলে আছে। এই যে এক্সেল ফাইলটি এটির নাম - ট্রেনিং ডাটা।

আচ্ছা কমন সেন্স এপ্লাই করে বলুনতো - এই ডাটা কে আপনি মেশিন কে কেন দিচ্ছেন ? আপনার টার্গেট কি ? কান নিয়েছে চিলে - শুনেই চিলের পিছনে দৌড়াবেন নাকি দেখবেন কানটা জায়গামতো আছে কি না ?

একটু চিন্তা করুন - এই ডাটাসেট দিয়ে আপনি মেশিনকে কি শিখাতে চাচ্ছেন ? আগেই পরের প্যরাগ্রাফে যাবেন না , আরেকবার কাস্টমার এর ডিটেল প্রোফাইলিং এর ডাটাগুলো পড়ুন। উত্তর চোখের সামনেই আছে। যদি একেবারেই না পেরে থাকেন, চলে যান পরের প্যারায়।

উত্তর বলে দিচ্ছি- এই ডাটা দিয়ে আপনি এমন একটা মডেল তৈরী করবেন যেই মডেল আপনাকে বলে দিবে ১০০০১ (দশহাজার এক নম্বর ) কাস্টমার ব্যাঙ্ক ছেড়ে চলে যাবার সম্ভাবনা কতটুকু। তার মানে আপনার টার্গেট Customer churn Rate বের করা - যেটি আপনার এই মডেলের টার্গেট। একটু টেকনিক্যাল টার্ম দিয়ে বলি -এর নাম টার্গেট ভ্যারিয়েবল। বুঝে ফেলেছেন ডাটাসেটের ডিটেল ? দারুন, আপনার কাজ ৫০% শেষ।

এতক্ষন যা বললাম তাই ইংলিশে লেখা আছে এখানে -

https://www.kaggle.com/competitions/playground-series-s4e1/data

জুলিয়াস দিয়ে এই মডেল তৈরী করাটা একটু চ্যালেঞ্জিং ছিল কারণ সাবমিশন করতে বলা হয়েছিল predicted probability জানিয়ে । সহজ ভাবে বললে অন্নান্য কম্পিটিশন এ বাইনারি সাবমিশন থাকে - ০ মানে না ১ মানে হা। কিন্তু এই ডাটাসেটের ক্ষেত্রে- ০ হবার সম্ভাবনা কতটুকু বা ১ হবার সম্ভাবনা কতটুকু সেটি সাবমিট করতে হবে। জুলিয়াস দিয়ে মডেলিং এর ক্ষেত্রে সেটি করতে পেরেছি, মাশাল্লাহ এবং আলহামদুলিল্লাহ।

এটি আমার ক্যাগলের ৭ নম্বর কম্পিটিশন। আমার মডেলের accuracy scoring 88% লিডার বোর্ডের হাইয়েস্ট মডেলিং accuracy স্কোর 90%

Last updated