লিংকডইনের USA এর AI /ML জব এর ডাটাসেট :: ক্যাগলে আমার তৃতীয় নোটবুক
"জুলিয়াস R এবং Python এই দুটোর মধ্যে USA এর চাকরির বাজারে, ২০২২-২০২৪ সালের ভিতরে কোনটার ডিমান্ড ভালো ছিল আমাকে বোলো"
"সম্ভব না, টেকনিক্যাল প্রব্লেম, পরে আবার চেষ্টা করো"
"মানে কি"?
"বললাম তো টেকনিক্যাল প্রব্লেম, পরে আবার চেষ্টা করো"
"তাহলে?"
"GPT 4.o লেটেস্ট রিলিজ হয়েছে। কিছু সময় ফ্রিতে ইউজ করতে পারবে, একটু চেষ্টা করে দেখবে তোমার কাজ হয় কি না ?"
"কিন্তু আমি তো প্রায় অর্ধেক কাজ তোমাকে দিয়ে করে ফেলেছি, এখন আবার প্রথম থেকে শুরু করতে হবে"
"কিছু করার নেই, আমার সিস্টেম ওভারলোডেড"
প্রচন্ড বিরক্তি নিয়ে উঠে চলে গেলাম। মাথা থাকলে, মাথা ব্যাথাও থাকবে। কিছু করার নাই। কিন্তু কাজের মাঝে এরকম ? তাও আবার মেশিনের কাছে পরাজিত হতে হবে ? নাহ, মানতে পারলাম না।
রাত অনেক। ভাবলাম একটা চেষ্টা করে দেখি - GPT 4.o যেই মডেলের কথা জুলিয়াস বলেছে সেটি দিয়ে কাজ হয় কি না। ডেমো তে দেখেছি GPT 4.o অনেক এডভান্স মডেল। কিছু না করতে পারলেও, গুতাগুতি করে তো শিখতে পারবো। এক গ্লাস পানি ঢোক ঢোক করে খেয়ে বসে গেলাম GPT 4.o নিয়ে। আজকে সরাসরি ক্যগলের নোটবুকে কাজ করবো। বলতে পারেন জুলিয়াসের উপর অনেকটা জিদ করেই এই সিদ্ধান্ত নেওয়া। সাথে থাকবে জিপিটির ৪.০ মডেল।
নিজের কথা বলা বাদ দেই- ডাটাসেটের একটা ওভারভিউ আগে বলি- ডাটাসেটটি টি USA বেসড - AI এবং ML এর লিংকডইনের জব এর ডাটাসেট । এই ডেটাসেটে 2022 থেকে 2024 সাল পর্যন্ত AI এবং ML based চাকরির তালিকার উপর ভিত্তি করে করা হয়েছে। বিশেষ করে আপনি যদি USA বেসড কোনো কোম্পানির AI এবং ML based চাকরির খবরাখবর জানতে চান-এই ডাটাসেটটি তার খবরাখবর দিতে পারবে
দেরি না করে কাজ শুরু করে দিলাম।
"এতো বড়ো ডাটাসেট, ভিজুয়ালাইজ করলে হিজিবিজি হয়ে যাবে, তুমি plotly লাইব্রেরি ইউজ করো। সুন্দর আউটপুট পাবে।"
"আমাকে একটু শিখাবে কিভাবে plotly ইউজ করতে হয়, আমি এর আগে কখনো করিনি"
"সহজ। তোমাকে একটা সহজ উদহারণ দেই। সব ছবিকেই যদি পেন্সিল দিয়ে আঁকো,দেখতে খারাপ লাগবে, তাই মাঝে মাঝে ছবি আকার জন্য মাদ্ধমে পরিবর্তন করতে হয়। এতদিন তো matplotlib, আজকে plotly লাইব্রেরি ইউজ করে দেখো"
এইভাবেই আমার শুরু হলো GPT 4.o অমনি মডেলের সাথে ডাটাসেট নিয়ে কাজ। বাকিটা ছবি কথা বলবে। গত ৪৮ ঘন্টার পুরোটাই আমি কাটিয়েছি এই মডেলের সাথে এবং ক্যাগলের নোটবুকে ডাটাকে ভিজুয়ালাইজ করার যেই লাইব্রেরি গুলো আমি শিখেছি - এক কথায় অসাধারণ। প্রত্যেকটা লাইব্রেরি একটার থেকে আরেকটা দারুন।
কাজটি শেষ করার পরে যিনি ডাটাসেট তৈরী করেছেন তিনি বলেছেন একটা conclusion দিয়ে দিতে। চার্টগুলো দেখে সেটি দেওয়ার কথা মনে ছিল না। পরে অ্যাড করে দিলাম।
নোটবুকের লিংক
আমি নন টেক এবং আমি পাইথন এর কিছুই জানতাম না। আমার সব মডেলিং গুলাও ai tul জুলিয়াসের তৈরী। ক্যাগলের নোটবুকে data visualziation এর অনন্য অভিজ্ঞতা হলো।
তাই যারা আমার মতো এখনো শুরু করছি করবো বলে সময় চলে যাচ্ছে তাদের জন্য বলছি ডাটা নিয়ে কাজ করার জন্য দরকার ৪টি এক্স ফ্যাক্টর
১. ডাটাসেট নিয়ে কাজ করতে হবে - সম্ভব হলে প্রতিদিন, আপনার ডাটা নিয়ে কাজের ৩০% থিওরি এবং ৭০% হাতে কলমে। (আমার ক্ষেত্রে ৯৯ ভাগই হাতে কলমে,বাকিটা থিওরি, সবার আমার মতো হবার দরকার নাই)
২. প্রব্লেম বা আপনি কি প্রশ্নের উত্তর খুঁজছেন সেটি - প্রথমে ঠিক ঠাক ভাবে আইডেন্টিফাই করতে হবে, আমার ডাটা নিয়ে কাজের অভিজ্ঞতা থেকে বলছি - প্রব্লেম বা প্রশ্ন খুঁজে বের করা, এনালাইসিস এর থেকেও শতগুন বেশি গুরুত্বপূর্ণ
৩. আপনার সাথে একজন বন্ধু লাগবে যে কিনা পাইথন বা আপনি যেই মাদ্ধমে শিখতে চান সেটার বস। বন্ধুর সাথে কথা বলতে আপনার জানতে হবে। আমার ক্ষেত্রে এই বন্ধুটি হচ্ছে জিপিটি বা জুলিয়াস , যাকে আপনি ভোর ৪টার সময় ডাক দিয়েও বলতে পারবেন - চল একটা গরমাগরম analysis করে ফেলি!
৪. আপনি যখন ক্লাস টেনে পড়তেন, কখনো কি নিজেকে নিজে প্রশ্ন করেছেন, এই স্কুল পার করে আপনার চাকরি হবে কি না ? করেন নাই। অন্ধভাবে পড়াশোনা করেছেন। ডাটা নিয়ে অন্ধভাবে শিখতে বলছি না। চোখ কান খোলা রেখেই শিখবেন, কিন্তু যা শিখবেন সেটি যেন সলিড হয়। মোটা বেতনের চাকরির নিশ্চয়তা এই শিখাটা হয়তো আপনাকে দিবে বা দিবে না, কিন্তু আপনার শিখা এবং চর্চা যেন বন্ধ না হয়। সেটি আপনি চাকরি অথবা ব্যাবসা যেই পেশায়-ই থাকুন না কেন।
এর মাদ্ধমেই শেষ হয়ে গেলো ক্যাগলে আমার তৃতীয় নোটবুক যা ইতিমধ্যে ২টি আপভোট পেয়ে গেছে।
Last updated