শূন্য থেকে শুরু
Last updated
Last updated
মিডিয়াম প্রোফাইল:
ছোট একটা ইন্ট্রো : আমি কোনো টেকনিক্যাল ব্যাকগ্রাউন্ড এর মানুষ না। ডাটার প্রতি অসীম আগ্রহ থেকে বুঝতে চাইতাম — আসলেই এই ডাটা কি, ডাটা সায়েন্স কি, কেন-ই বা এই যুগে এগুলা হঠাৎ করে গুরুত্বপূর্ণ হয়ে উঠেছে। যেহেতু পুরাই বকলম তাই অনলাইনে বিভিন্ন ভিডিও, বই এবং আর্টিকেল ভরসা। এর মধ্যেই হঠাৎ চোখে পড়ে রাকিবুল হাসান ভাইয়ের লেখা কিছু কথা। আগ্রহ ডাবল হয়ে যায়। কিন্তু ফলাফল শূন্য। দেখা গেলো, ১০০০ টন আগ্রহ নিয়ে, R Install করলাম (পাইথনে যাওয়ার সাহস কোনোদিন হয় নাই ) ১ সপ্তাহ পরে ব্যাক্তিগত এবং পেশাগত কাজের কারণে আর কোনো খবর নাই। এভবেই চলছিল। এর কারণ — প্রচুর আগ্রহ থাকা সত্ত্বেও একটা সময় ডাটা নিয়ে কাজ করার মজা হারিয়ে যেত। সফ্টওয়ার এর টেকনিক্যাল খটমট, ভালো মেন্টর এর অভাব, একেক জনের একেক রকম ডিরেকশন — ইত্যাদি কারণে শেষ পর্যন্ত kaggle এ ডাটাসেটের উপরে অন্যের করা কাজের ব্যাখ্যাগুলো দেখেই সন্তুষ্ট থাকতাম। মনে হতো, চোখের সামনে ডাটা কে এতো সুন্দর করে explain করে মিনিংফুল ইনসাইট নিয়ে এসেছে, অসাধারণ। আমি না পারলে কি হয়েছে, আরেকজন তো পেরেছে।
সত্যি কথা বলতে Python , R এগুলার থেকে আমার কাছে ডাটা কে বুঝার জন্য সামান্য এক্সেল -ই অনেক বেশি ইন্টারেষ্টিং মনে হতো। এর কারণ এক্সেল ইউজ করে অনেক বেশি আরাম পেতাম। ডাটা কে ভালোবাসলেও , সেটা মুখ ফুটে বলতে পারিনি কখনো। কারণ বলার মাদ্ধমটি আমার পছন্দ ছিল না। চ্যাট জিপিটি আসার পরে আমার খালি মনে হয়েছে — এরকম কাউকে যদি পাওয়া যেত যার সাথে ডাটা নিয়ে ঘন্টার পর ঘন্টা কথা বলা যাবে , প্রোগ্রামিং খটমট ছাড়া। এই বিশাল বিশাল IDE, একটি ভ্যারিয়েবল লিখে সেটাকে আবার অন্য ভ্যারিয়েবল এর ভিতর ঢুকিয়ে দেওয়া , ইত্যকার এইসব আমার কাছে চরম বিরক্তির একটা ব্যাপার আগেও ছিল, এখনো আছে এবং ভবিষ্যতেও থাকবে। কেন এই সময়ে এসে আমার এরকম করে শিখতে হবে ? শিখার প্রচন্ড আগ্রহ থাকা সত্ত্বেও, যেই মাদ্ধমে শিখার ব্যাপারটা ছিল সেটি আমার দারুন অপছন্দের। ধরুন আপনি লিখতে পছন্দ করেন, কিন্তু লিখার জন্য ভালো চালু কলমের পরিবর্তে আপনাকে দেওয়া হলো একটুকরো কাঠ। সেই কাঠকে কলম বানিয়ে লিখতে হবে — এই চিন্তা করতে গিয়ে আপনি হয়তো আর লিখতেই চাইবেন না, সেটা আপনার বা আমার যতই আগ্রহ থাকুক না কেন।
মূল কথায় আসি। আমি Python বা R পারি না এবং আমাকে দিয়ে ডাটার কোনো কাজ-ই সম্ভব হবে না — এই আফসোস এর মাঝেই আমি সন্ধান পাই বিভিন্ন LLM এবং aI মডেলের । আগেই বলেছি ডাটার প্রতি সীমাহীন আগ্রহ আমাকে সবসময় ভাবতো, পরক্ষনেই ভাবতাম বামন হয়ে চাঁদে হাত দেওয়ার সাহস করতে নাই। aI এর বুম আমাকে সেই চাঁদে হাত দেওয়ার সাহস করে দিয়েছে।
সেই সাহস থেকেই মূলত ডাটা নিয়ে কাজের শুরু । ডাটা নিয়ে কাজ করার ক্ষেত্রে Python সবার উপরে থাকবে। কিন্তু যারা প্রোগ্রামিং এর ধারে কাছে না গিয়েও, ডাটা কে ভালোবেসে, ডাটা নিয়ে কাজ করতে চান, তাদের জন্য আমার এই লেখা। সুতরাং কোন মাদ্ধমে আপনি শিখবেন, সেটি নির্ভর করছে পুরোটাই আপনার উপরে।
I, Robot- মুভিটার কথা মনে আছে ?। ডিটেকটিভ স্পুনার, রোবোটিক্স সাইন্টিস্ট ডক্টর ল্যানিং এর মৃত্যু কে ইনভেস্টিগেট করতে হয়ে একটি ক্রিস্টাল ডিস্ক খুঁজে পান। সেই ডিস্কে ডক্টর ল্যানিং এর হলোগ্রাফিক ইমেজ প্রশ্নের উত্তর দেয়। মুভির শেষে ডিটেকটিভ স্পুনার ল্যানিং এর হলোগ্রাফিক ইমেজ কে প্রশ্ন করে — কার স্বার্থে এই revolution ? ল্যানিং এর হলোগ্রাফিক ইমেজ এর উত্তরে বলে — That detective is the right question :: program terminated.
আমি ক্যাগলে কাজ শুরু করেছিলাম একটি খুব সাধারণ কারণে — ai টুল জুলিয়াস দিয়ে যা আমি শিখছি সেটি কতটুকু সঠিক — সেটি যাচাই করার জন্য। সবাই পাইথন শিখে ভালো চাকরি বাকরি পাওয়ার আশায়- ভালো পজিশনে নিজেকে দেখবার জন্য, আমার সেরকম কোনো ইচ্ছা ছিল না (এখনো নাই )। তবে হ্যা -আমার ডাটা নিয়ে কাজ করার একটা তীব্র আগ্রহ ছিল। অন্ধজনে দেহো আলো -র মতো সেই আগ্রহ কে হাটাহাটি পা পা করে সামনে এগিয়ে নিয়ে গেছে জুলিয়াস। আমি যেহেতু পিউর নন টেক ,কোনো ব্যাকগ্রাউন্ড নলেজ আমার নেই তাই একদম শূন্য থেকে কিছু খুব কমন স্টাটিস্টিকাল কনসেপ্ট ( যা কিনা একজন কলেজের স্টুডেন্ট ও জানে বলে আমার ধারণা ) এর উপর দাঁড়িয়ে আমার এই হাটাহাটি পা পা শুরু।
ডাটা নিয়ে কাজের শুরু থেকে আজকে পর্যন্ত — আমি data analysis থেকে বেশি গুরুত্ব দেই (সামনেও দিবো) — প্রশ্ন কে। ডিটেকটিভ স্পুনার এর মতো আমিও জানতে চাইতাম এই ডাটাসেট আমার কোন সমস্যার সমাধান করবে বা আমার নোটবুকে লিখা ১০টি প্রশ্নের উত্তর এই ডাটাসেট দিতে পারবে কি না।
কিছু ফ্রি উপদেশ :
১. ডাটাসেট নিয়ে কাজ করতে হবে — সম্ভব হলে প্রতিদিন, আপনার ডাটা নিয়ে কাজের ৩০% থিওরি এবং ৭০% হাতে কলমে। (আমার ক্ষেত্রে ৯৯ ভাগই হাতে কলমে,বাকিটা থিওরি, সবার আমার মতো হবার দরকার নাই)
২. প্রব্লেম বা আপনি কি প্রশ্নের উত্তর খুঁজছেন সেটি — প্রথমে ঠিক ঠাক ভাবে আইডেন্টিফাই করতে হবে, আমার ডাটা নিয়ে কাজের অভিজ্ঞতা থেকে বলছি — প্রব্লেম বা প্রশ্ন খুঁজে বের করা, এনালাইসিস এর থেকেও শতগুন বেশি গুরুত্বপূর্ণ
৩. আপনার সাথে একজন বন্ধু লাগবে যে কিনা পাইথন বা আপনি যেই মাদ্ধমে শিখতে চান সেটার বস। বন্ধুর সাথে কথা বলতে আপনার জানতে হবে। আমার ক্ষেত্রে এই বন্ধুটি হচ্ছে জিপিটি বা জুলিয়াস , যাকে আপনি ভোর ৪টার সময় ডাক দিয়েও বলতে পারবেন — চল একটা গরমাগরম analysis করে ফেলি!
৪. আপনি যখন ক্লাস টেনে পড়তেন, কখনো কি নিজেকে নিজে প্রশ্ন করেছেন, এই স্কুল পার করে আপনার চাকরি হবে কি না ? করেন নাই। অন্ধভাবে পড়াশোনা করেছেন। ডাটা নিয়ে অন্ধভাবে শিখতে বলছি না। চোখ কান খোলা রেখেই শিখবেন, কিন্তু যা শিখবেন সেটি যেন সলিড হয়। মোটা বেতনের চাকরির নিশ্চয়তা এই শিখাটা হয়তো আপনাকে দিবে বা দিবে না, কিন্তু আপনার শিখা এবং চর্চা যেন বন্ধ না হয়। সেটি আপনি চাকরি অথবা ব্যাবসা যেই পেশায়-ই থাকুন না কেন।
৫. আমি কি নিয়ে কথা বলছি (what), কেন বলছি (why ), কাজ করে কথা বলছি নাকি হুদাই পেচাল দিচ্ছি (how), কাদের জন্য বলছি (to whom )- এই চারটি ব্যপার যদি বুঝে আসতে পারেন আমার লেখা বুঝতে সুবিধা হবে। সেই কারণে আমার গিটবুক — https://dataniyekotha.gitbook.io/ পড়ে আমাকে ফলো করলে উপকার পাবেন।
নিত্যনতুন ডাটা এনালিটিক্স এর ধামাকাদার ছবি,গ্রাফ, এবং আমার লেখা পড়ে এবং দেখে যদি ফলো করা শুরু করেন -দিন শেষে, যেই লাউ সেই কদুই থাকবে।
৬. আমার কাজের পুরোটাই জুড়ে থাকে বিভিন্ন LLM মডেল এবং AI এর বিভিন্ন application
আমি কাজে এবং চিন্তায় বিশ্বাস করি — ডাটা নিয়ে কাজের পুরোটাই হাতে কলমে শিখা উচিত । আপনার এনালিটিক্স আপনাকে ডিক্টেট করবে কোন থিওরি আপনি শিখবেন , থিওরি দিয়ে যেমন সাইকেল চালানো শিখা যায় না এবং পাশাপাশি মনে রাখা উচিত সাইকেল চালাতে গিয়ে আছাড় আপনাকে খেতেই হবে। যে যত বেশি আছাড় খাবে, সে তত তাড়াতাড়ি সাইকেল চালানো শিখবে। কেন আমি ট্রেডিশনাল কোনো প্রোগ্রামিং ল্যঙ্গুয়েজ নিয়ে কাজ না করে, এই পিগিব্যাকিং করলাম তার কারণ হাজার হাজার লাইন প্রোগ্রামিং কোড লিখার ধৈর্য এবং ইচ্ছা কোনোটাই আমার নাই। যারা হার্ডকোর কোডার, তাদের প্রতি আমার ফুল রেস্পেক্ট, তাদের ধৈর্য কে আমি স্যালুট জানাই। কিন্তু পাশাপাশি এটাও সত্যি যে — সবাই হার্ডকোর কোডার হবে না, জোর করে সেটি হওয়ার চেষ্টা করাটা আমার কাছে -সময় এবং অর্থের অপচয়।
৭. বর্তমান যুগ AI এর যুগ। সেই যুগের এডভ্যান্টেজ যদি আপনি নিতে না পারেন, সেটি আপনার ফেইলিউর। ডাটা নিয়ে কাজের ক্ষেত্রে মনে রাখবেন — আপনি যত প্রাকটিস করবেন, তত আপনার দক্ষতা বাড়বে। আপনি ঠিক শিখছেন কিনা, সেটা বোঝার কি উপায় ? সহজ — ক্যাগলের কম্পিটিশন। ক্যাগল এর কম্পিটিশন গ্লোবাল। সুতরাং আপনার কম্পিট করতে হবে, পুরো বিশ্বের সাথে। শিখবেন, মডেল তৈরী করবেন, compete করবেন। স্কোর বলে দিবে আপনার মডেল কতটুকু accurate.
৮. যদি আপনি একদম জিরো লেভেলের কেউ হয়ে থাকেন যিনি ডাটা নিয়ে কাজ করছেন চান , আমাকে নক দিয়ে কোনো কিছু আস্ক করার আগে মেক শিউর
ক . আপনার একটি ক্যাগল প্রোফাইল আছে [এটি আমার প্রোফাইল : https://www.kaggle.com/msahmed] যদি না জানেন ক্যগলে কিভাবে প্রোফাইল করতে হয়, গুগল করুন, যতটা সময় প্রতিদিন ফেসবুকিং করেন তার থেকে ৫০% কম সময় দিয়েই একটি প্রোফাইল খোলা সম্ভব
খ . লাস্ট ৩ দিনে অন্তত একটি একটি ডাটাসেট দেখছেন এবং জানতে চেষ্টা করেছেন এই ডাটাসেট আপনাকে কি কি প্রশ্নের উত্তর দিতে capable এবং সেই প্রশ্নের লিস্ট আপনার সামনে আছে
গ . আপনি আমার গিটবুকটি পড়েছেন
৯. যারা ট্রাডিশনাল ওয়ে তে ডাটা নিয়ে কাজ শিখছেন তাদের জ্ঞানের প্রতি পূর্ণ শ্রদ্ধা রেখে বলছি — এখন ডাটা এনালিটিক্স এর জন্য প্রচুর AI মডেল আছে, যে কোনো একটিকে বেছে নিয়ে কাজ শুরু করতে পারেন। এই মডেলগুলো এক একটি বিশেষ বিশেষ কাজের জন্য specialized, বেছে নিন এমন একটি মডেল যার computational accuracy বেঞ্চমার্কে সব থেকে উপরে।
১০. ডাটা নিয়ে কাজ করার ক্ষেত্রে শুধু মাত্র আউটপুট, গ্রাফ চার্ট দেখেই সিদ্ধান্ত নিয়ে বসবেন না। ব্যাকগ্রাউন্ড বা কনটেক্সট টা জানা অনেক বেশি গুরুত্বপূর্ণ। কোডিং ঠিক আছে , কোডিং এর জন্য মোটামুটি এডভান্স মডেলের LLM- সেটিও ঠিক বলছে, কনটেক্সট এ ভুল থাকার কারণে, এনালিটিক্স এর ইন্টারপ্রিটেশন বা ব্যাখ্যা চেঞ্জ হয়ে যেতে পারে। সুতরাং আমরা যারা ডাটা নিয়ে কাজ করি, তাদের জন্য কনটেক্সট বা ব্যাকগ্রাউন্ড জানাটা অনেক বেশি প্রয়োজন।
হা, এখানেই মানুষের জাজমেন্ট কাজে লাগে — যা যন্ত্রের নেই। AI মডেলগুলোর এডভান্সমেন্ট- ই বলে দিবে — সামনে মানুষের জন্য কি অপেক্ষা করছে।
১১. প্রশ্ন প্রশ্ন এবং প্রশ্ন : ডাটা নিয়ে কাজের ক্ষেত্রে সঠিক প্রশ্ন, সঠিক ভাবে identify করা খুব বেশি জরুরি। প্রশ্ন ভুল হলে উত্তর ভুল হবে। আমার মতে এনালাইসিস থেকেও জরুরি সঠিক প্রশ্ন, সঠিক ভাবে identify করা।
লাস্টলি বলতে চাই অনেকের অনেক প্রশ্ন থাকে ডাটা নিয়ে কাজের ক্ষেত্রে, কিছু কমন প্রশ্নের উত্তর পাবেন এখানে :
https://dataniyekotha.gitbook.io/
কি জানতে হবে সেটা আগে জানেন, তারপরে ডাটা নিয়ে কাজ শুরু করুন, আরেকটা কথা, দেখে দেখে না, শিখে শিখে ডাটা নিয়ে কাজ শুরু করুন।
সবার জন্য অনেক শুভকামনা!
Medium : https://medium.com/@masnoon-ahmed
Gitbook : https://dataniyekotha.gitbook.io/
ক্যাগলের লিংক : https://www.kaggle.com/msahmed
Subscription Link : আমার লেখাগুলো সরাসরি ইমেলে পেতে সাবস্ক্রাইব করুন