স্পেসশিপ টাইটানিক ডাটাসেট-২
Last updated
Last updated
২৯১২ সালের কোনো এক সময়। স্পেসশিপ টাইটানিক মহাকাশযান যাত্রী পরিবহনকারী একটি মাদার শিপ । সেই স্পেস শিপ থেকে পৃথিবীর স্টেশনে একটি সংকেত পাঠানো হলো যার অর্থ - স্পেসশিপ টাইটানিক বিপদগ্রস্ত। ১৩০০০ যাত্রী নিয়ে স্পেসশিপের এই অবস্থায় খুব দ্রুত সিদ্ধান্ত নিতে হলো। পৃথিবীর তাবৎ ডাটা সাইন্টিস্টদের স্পেসশিপের ডাটাবেজ থেকে যাত্রীদের ডিটেল সরবরাহ করা হলো। কাজ খুব সামান্য : যাত্রিদের প্রোফাইলিং করে প্রেডিক্ট করতে হবে কারা কারা, স্পেসশিপ থেকে ট্রাস্নপোর্ট হবে এবং কারা কারা হবে না। যেহেতু আগের এরকম একটি মহাজাগতিক ঘটনা থেকে Trained ডাটাসেট রেডি ছিল তাই এবার কাজটি মোটামুটি সহজ।
আগ্রহীরা কম্পিটিশন এ অংশগ্রহণ করতে পারেন এখান থেকে:
ক্যাগলে এটি আমার দ্বিতীয়বার অংশগ্রহণ। আগেই বলে রাখি ক্যাগল কখনোই আপনার কোড দেখতে চায় না, জানতে চায় শুধু আপনার উত্তর। সেই অনুযায়ী আপনাকে ranking করে। প্রথমবার জুলিয়াস এর সাহায্যে মডেল তৈরী করে অংশগ্রহণ করে সাহস বেড়ে যায়। তাই চোখের সামনে এরকম একটি মজার প্রব্লেম পেয়ে আবার অংশগ্রহণ করে ফেললাম।
২৭৩৪ জনের মধ্যে আমার অবস্থান ছিল ১৭৫৪। তার মানে আমার আগে আরো ১৭৫৩ জনের মডেলের একুরেসি আমার থেকে ভালো আছে। কথা সত্যি, হাইয়েস্ট স্কোরিং এখানে ৯৬, যেখানে আমার স্কোরিং ৭৮। মাত্র ১৮ নম্বরের ব্যাবধানেই ১৭৫৩ জনের পিছনে পরে গেলাম। ভাবা যায় ? তার মানে হচ্ছে পয়েন্ট ওয়ান পার্সেন্ট একুরেসি যদি মডেলের ডেভলপ করা যায়, আমার অবস্থান লাফিয়ে ভালো জায়গায় চলে যাবে বেশ অনেক খানি। কিন্তু এই পয়েন্ট ওয়ান পার্সেন্ট একুরেসি ডেভেলপ করতে করতে গেলেও, জান পানি হয়ে যাবার মতো অবস্থা। সুতরাং এক নম্বরে পৌঁছানোর জন্য (মডেল একুরেসি যার ৯৬) মোটামুটি একটি দীর্ঘ সময় পার করে দেওয়া যায় চোখ বন্ধ করেই।
এই কম্পিটিশন এর পুরো মডেলিং করেছি জুলিয়াস দিয়েই। আগ্রহীরা চাইলে দেখে নিতে পারেন এখন থেকে 👍
এবার আসি একটা মজার ঘটনায়। স্ক্রিনশটে দেখতে পাচ্ছেন আমি গুনে গুনে ৫ বার আমার answer sheet ক্যাগলে সাবমিট করেছি। এর কারণ প্রথম ৩ বার যখন সাবমিট করে স্কোর এসেছে ০। আমার মাথায় হাত, ঘটনা কি ? পাইথন ওস্তাদ কে পাশ কাটিয়ে অনেক তো জ্ঞান দিলাম এইবার মনে হয় ওস্তাদের মাইর শেষ রাতে খাওয়ার সময় এসেছে। চলে গেলাম এই কম্পিটিশন এর ডিসকাশন বোর্ডে। গিয়ে দেখি শুধু আমার স্কোরিং ০ এরকম না, এরকম অনেকের স্কোরিং ০ এসেছে। আলোচনা থেকে যা বুঝলাম, সাবমিশন করার সময় ফাইল ফরম্যাটের ঝামেলার কারণে এরকম ঘটেছে। জানে পানি আসলো। কিন্তু তখনো মনে ভয়।
সেই ভয় থেকেই ২ রকমের মডেল ডেভলপ করলাম - একটাতে মিসিং ভ্যালু গুলোকে ধামাধাম বাদ দিয়ে এবং আরেকটাতে মিসিং ভ্যালু গুলোকে imputation করে। লাভ কি হলো জানেন - ৭৭ স্কোরিং থেকে ১ নম্বর বেড়ে ৭৮ হয়ে গেলো , আর আমিও লিডারবোর্ডে লাফিয়ে উপরে উঠে গেলাম।
ভয় থেকে দারুন কিছু হলে ভয়-ই ভালো কি বলেন ?