ডাটা নিয়ে কথা -মাসনুন আহমেদ
  • শূন্য থেকে শুরু
    • কেন লিখছি, কাদের জন্য লিখছি, কিভাবে শিখতে হয়
    • গিটবুকটি কিভাবে পড়বেন ?
  • julius.ai কি ?
    • julius.ai ফিচারগুলো
      • প্রম্প্ট বেসড ডাটা এনালাইসিস
      • প্রোগ্রামিং খটমট নেই
      • গ্রাফ এবং ডাটা ভিজুয়ালাইজেশন
      • ডাটার মিনিংফুল ইনসাইট
      • ডাটা স্ট্রাকচারিং এবং হেভিওয়েট ডাটা
  • হাতেকলমে জুলিয়াসের প্রয়োগ
    • ডাটা এনালিটিক্স এর ৭টি স্টেপ : যেভাবে Ai এর সাহেয্যে আমি ডাটা এনালাইসিস করি
    • একটি অফিসের গল্প
    • রিলেশনশিপ স্ট্যাটাস
    • কাস্টমারদের ডাটাসেট
    • User Engagement এবং Churn Prediction
  • জুলিয়াস দিয়ে স্ট্যাস্টিকাল টেস্ট
    • ANOVA Test
    • Chi Square Test
  • AI এর উপরে কিছু গবেষণা
    • Biased Vs Unbias AI
    • AI এর উপর স্ট্যানফোর্ডের গবেষণা
    • আর্টিফিসিয়াল জেনারেল ইন্টেল পর্ব ১ [লেখা চলমান থাকবে]
    • দা ইমিটিশন গেম
    • বায়োইনফরমেটিক্স এ AI এর ব্যাবহার
  • ক্যাগলের নোটবুক
    • ক্যাগলের নোটবুক এবং আমার পাইথনে ডাটা ভিজুয়াল
    • Exploring Top US Data Science and Analytics Master's Program - 01
    • শার্ক ট্যাঙ্ক বাংলাদেশ ২০২৪
    • লিংকডইনের USA এর AI /ML জব এর ডাটাসেট :: ক্যাগলে আমার তৃতীয় নোটবুক
    • ১৫০ থেকে ১৭০০ :: ডেঙ্গুর ডাটাসেট
    • ক্যাগলের এপার্টমেন্টের ডাটাসেট
    • বাংলাদেশের ৪ জেলার ট্রাভেলার ডাটাসেট এনালাইসিস : পর্ব ১
    • বাংলাদেশের ৪ জেলার ট্রাভেলার ডাটাসেটের গল্প : পর্ব ২
    • বাংলাদেশের ৪ জেলার ট্রাভেলার ডাটাসেটের গল্প : পর্ব ৩ (শেষ পর্ব )
    • NLP ক্লাসিফিকেশন ডাটাসেট :মেশিন মেশিন কি পারবে রোগ অনুযায়ী ডক্টর সাজেস্ট করতে ?
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স (পর্ব ১ )
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স (পর্ব ২ )
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স (পর্ব ৩ )
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স ( শেষ পর্ব )
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স (পর্ব ৪ )
    • হিট ভালনারবিলিটি ইনডেক্স এর একটি ডাটাসেট : শহর চট্টগ্রাম
  • ক্যাগলের কম্পিটিশনে আমার অংশগ্রহণ
    • আবাহাওয়ার ডাটাসেট নিয়ে প্রেডিকশন -১
    • স্পেসশিপ টাইটানিক ডাটাসেট-২
    • সেন্টিমেন্ট এনালাইসিস ডাটাসেট -৩
    • প্রজেক্ট টাইটানিক - ৪
    • টুইটারের টুইট দিয়ে প্রাকৃতিক দুর্যোগের মেশিন লার্নিং মডেল-৫
    • মেশিন কে হাতেরলেখা চিনানো বিশ্ববিখ্যাত MNIST ডাটাসেটের গল্প - ৬
    • ব্যাঙ্ক এর কাস্টমার ব্যাঙ্ক ছেড়ে যাবে কি না - ৭
    • মোটু কাহিনী : মাল্টিক্লাস প্রেডিক্টর কম্পিটিশন - ৮
    • বন্যার পূর্বাভাস সংক্রান্ত কম্পিটিশন : ফ্লাড প্রেডিকশন ডাটাসেট - ৯
    • সোশ্যাল মিডিয়া ইনফ্লুয়েন্সার ডাটাসেট -১০
    • Binary Prediction of Poisonous Mushrooms ডাটাসেট-১১
    • ক্যাগলের কম্পিটিশন : মেশিন কি পারবে আপনি বিষন্ন কিনা সেটি বলতে ?
    • Gliese 12 b
    • যারা গিটবুকটি সাইটেশন করতে চান
  • AI এর যুগে আমরা : কি শিখবো, কিভাবে শিখবো
  • Data Democratization : একজন নন টেক হয়েও আমার প্রতিষ্ঠান TradePoint কে যেভাবে Data Driven বিজনেস kore
  • মৃত্যুকূপ : Geospatial ডাটাসেটে আমার প্রথম Ai দিয়ে কাজ
  • AI, ক্লাউড আর ডাটা সায়েন্স: ২০২৫ সালের ৭টি ট্রেন্ড যা অনেক কিছুই বদলে দিবে
  • জুলিয়াস থেকে পাওয়া উপহার
  • কিছু রিডিং ম্যাটেরিয়াল
  • ভবিষৎতের পৃথিবী :: কোডিং নিয়ে কিছু কথা (পর্ব ১)
  • ভবিষৎতের পৃথিবী : শ্রমিক,ব্যাঙ্কার অথবা একজন ডাটা এনালিস্ট :: কে Ai এর প্রভাবমুক্ত?: (পর্ব ২)
  • প্রশ্নোত্তরে ডাটা নিয়ে কথা
  • 💡টেক ডায়েরি 💡
    • বুক রিভিউ ১ :: প্রোগ্রামিং ফর বিগিনার
    • app রিভিউ পর্ব ১
    • Open AI এবং Iliya
    • ভবিষ্যতের কম্পিউটিং কেমন হবে ?
    • কৃত্রিম বুদ্ধিমত্তার শাসন কি সমাগত?
    • ডাটা এনালিটিক্স এর ভবিষ্যৎ
    • চায়না জেনেরেটিভ AI এর পেটেন্টে এগিয়ে
    • OpenAI o1 সম্পর্কে
    • Pixtral 12B মডেল
Powered by GitBook
On this page

শূন্য থেকে শুরু

Nextকেন লিখছি, কাদের জন্য লিখছি, কিভাবে শিখতে হয়

Last updated 2 months ago

মিডিয়াম প্রোফাইল:

ছোট একটা ইন্ট্রো : আমি কোনো টেকনিক্যাল ব্যাকগ্রাউন্ড এর মানুষ না। ডাটার প্রতি অসীম আগ্রহ থেকে বুঝতে চাইতাম — আসলেই এই ডাটা কি, ডাটা সায়েন্স কি, কেন-ই বা এই যুগে এগুলা হঠাৎ করে গুরুত্বপূর্ণ হয়ে উঠেছে। যেহেতু পুরাই বকলম তাই অনলাইনে বিভিন্ন ভিডিও, বই এবং আর্টিকেল ভরসা। এর মধ্যেই হঠাৎ চোখে পড়ে রাকিবুল হাসান ভাইয়ের লেখা কিছু কথা। আগ্রহ ডাবল হয়ে যায়। কিন্তু ফলাফল শূন্য। দেখা গেলো, ১০০০ টন আগ্রহ নিয়ে, R Install করলাম (পাইথনে যাওয়ার সাহস কোনোদিন হয় নাই ) ১ সপ্তাহ পরে ব্যাক্তিগত এবং পেশাগত কাজের কারণে আর কোনো খবর নাই। এভবেই চলছিল। এর কারণ — প্রচুর আগ্রহ থাকা সত্ত্বেও একটা সময় ডাটা নিয়ে কাজ করার মজা হারিয়ে যেত। সফ্টওয়ার এর টেকনিক্যাল খটমট, ভালো মেন্টর এর অভাব, একেক জনের একেক রকম ডিরেকশন — ইত্যাদি কারণে শেষ পর্যন্ত kaggle এ ডাটাসেটের উপরে অন্যের করা কাজের ব্যাখ্যাগুলো দেখেই সন্তুষ্ট থাকতাম। মনে হতো, চোখের সামনে ডাটা কে এতো সুন্দর করে explain করে মিনিংফুল ইনসাইট নিয়ে এসেছে, অসাধারণ। আমি না পারলে কি হয়েছে, আরেকজন তো পেরেছে।

সত্যি কথা বলতে Python , R এগুলার থেকে আমার কাছে ডাটা কে বুঝার জন্য সামান্য এক্সেল -ই অনেক বেশি ইন্টারেষ্টিং মনে হতো। এর কারণ এক্সেল ইউজ করে অনেক বেশি আরাম পেতাম। ডাটা কে ভালোবাসলেও , সেটা মুখ ফুটে বলতে পারিনি কখনো। কারণ বলার মাদ্ধমটি আমার পছন্দ ছিল না। চ্যাট জিপিটি আসার পরে আমার খালি মনে হয়েছে — এরকম কাউকে যদি পাওয়া যেত যার সাথে ডাটা নিয়ে ঘন্টার পর ঘন্টা কথা বলা যাবে , প্রোগ্রামিং খটমট ছাড়া। এই বিশাল বিশাল IDE, একটি ভ্যারিয়েবল লিখে সেটাকে আবার অন্য ভ্যারিয়েবল এর ভিতর ঢুকিয়ে দেওয়া , ইত্যকার এইসব আমার কাছে চরম বিরক্তির একটা ব্যাপার আগেও ছিল, এখনো আছে এবং ভবিষ্যতেও থাকবে। কেন এই সময়ে এসে আমার এরকম করে শিখতে হবে ? শিখার প্রচন্ড আগ্রহ থাকা সত্ত্বেও, যেই মাদ্ধমে শিখার ব্যাপারটা ছিল সেটি আমার দারুন অপছন্দের। ধরুন আপনি লিখতে পছন্দ করেন, কিন্তু লিখার জন্য ভালো চালু কলমের পরিবর্তে আপনাকে দেওয়া হলো একটুকরো কাঠ। সেই কাঠকে কলম বানিয়ে লিখতে হবে — এই চিন্তা করতে গিয়ে আপনি হয়তো আর লিখতেই চাইবেন না, সেটা আপনার বা আমার যতই আগ্রহ থাকুক না কেন।

সেই সাহস থেকেই মূলত ডাটা নিয়ে কাজের শুরু । ডাটা নিয়ে কাজ করার ক্ষেত্রে Python সবার উপরে থাকবে। কিন্তু যারা প্রোগ্রামিং এর ধারে কাছে না গিয়েও, ডাটা কে ভালোবেসে, ডাটা নিয়ে কাজ করতে চান, তাদের জন্য আমার এই লেখা। সুতরাং কোন মাদ্ধমে আপনি শিখবেন, সেটি নির্ভর করছে পুরোটাই আপনার উপরে।

I, Robot- মুভিটার কথা মনে আছে ?। ডিটেকটিভ স্পুনার, রোবোটিক্স সাইন্টিস্ট ডক্টর ল্যানিং এর মৃত্যু কে ইনভেস্টিগেট করতে হয়ে একটি ক্রিস্টাল ডিস্ক খুঁজে পান। সেই ডিস্কে ডক্টর ল্যানিং এর হলোগ্রাফিক ইমেজ প্রশ্নের উত্তর দেয়। মুভির শেষে ডিটেকটিভ স্পুনার ল্যানিং এর হলোগ্রাফিক ইমেজ কে প্রশ্ন করে — কার স্বার্থে এই revolution ? ল্যানিং এর হলোগ্রাফিক ইমেজ এর উত্তরে বলে — That detective is the right question :: program terminated.

আমি ক্যাগলে কাজ শুরু করেছিলাম একটি খুব সাধারণ কারণে — ai টুল জুলিয়াস দিয়ে যা আমি শিখছি সেটি কতটুকু সঠিক — সেটি যাচাই করার জন্য। সবাই পাইথন শিখে ভালো চাকরি বাকরি পাওয়ার আশায়- ভালো পজিশনে নিজেকে দেখবার জন্য, আমার সেরকম কোনো ইচ্ছা ছিল না (এখনো নাই )। তবে হ্যা -আমার ডাটা নিয়ে কাজ করার একটা তীব্র আগ্রহ ছিল। অন্ধজনে দেহো আলো -র মতো সেই আগ্রহ কে হাটাহাটি পা পা করে সামনে এগিয়ে নিয়ে গেছে জুলিয়াস। আমি যেহেতু পিউর নন টেক ,কোনো ব্যাকগ্রাউন্ড নলেজ আমার নেই তাই একদম শূন্য থেকে কিছু খুব কমন স্টাটিস্টিকাল কনসেপ্ট ( যা কিনা একজন কলেজের স্টুডেন্ট ও জানে বলে আমার ধারণা ) এর উপর দাঁড়িয়ে আমার এই হাটাহাটি পা পা শুরু।

ডাটা নিয়ে কাজের শুরু থেকে আজকে পর্যন্ত — আমি data analysis থেকে বেশি গুরুত্ব দেই (সামনেও দিবো) — প্রশ্ন কে। ডিটেকটিভ স্পুনার এর মতো আমিও জানতে চাইতাম এই ডাটাসেট আমার কোন সমস্যার সমাধান করবে বা আমার নোটবুকে লিখা ১০টি প্রশ্নের উত্তর এই ডাটাসেট দিতে পারবে কি না।

কিছু ফ্রি উপদেশ :

১. ডাটাসেট নিয়ে কাজ করতে হবে — সম্ভব হলে প্রতিদিন, আপনার ডাটা নিয়ে কাজের ৩০% থিওরি এবং ৭০% হাতে কলমে। (আমার ক্ষেত্রে ৯৯ ভাগই হাতে কলমে,বাকিটা থিওরি, সবার আমার মতো হবার দরকার নাই)

২. প্রব্লেম বা আপনি কি প্রশ্নের উত্তর খুঁজছেন সেটি — প্রথমে ঠিক ঠাক ভাবে আইডেন্টিফাই করতে হবে, আমার ডাটা নিয়ে কাজের অভিজ্ঞতা থেকে বলছি — প্রব্লেম বা প্রশ্ন খুঁজে বের করা, এনালাইসিস এর থেকেও শতগুন বেশি গুরুত্বপূর্ণ

৩. আপনার সাথে একজন বন্ধু লাগবে যে কিনা পাইথন বা আপনি যেই মাদ্ধমে শিখতে চান সেটার বস। বন্ধুর সাথে কথা বলতে আপনার জানতে হবে। আমার ক্ষেত্রে এই বন্ধুটি হচ্ছে জিপিটি বা জুলিয়াস , যাকে আপনি ভোর ৪টার সময় ডাক দিয়েও বলতে পারবেন — চল একটা গরমাগরম analysis করে ফেলি!

৪. আপনি যখন ক্লাস টেনে পড়তেন, কখনো কি নিজেকে নিজে প্রশ্ন করেছেন, এই স্কুল পার করে আপনার চাকরি হবে কি না ? করেন নাই। অন্ধভাবে পড়াশোনা করেছেন। ডাটা নিয়ে অন্ধভাবে শিখতে বলছি না। চোখ কান খোলা রেখেই শিখবেন, কিন্তু যা শিখবেন সেটি যেন সলিড হয়। মোটা বেতনের চাকরির নিশ্চয়তা এই শিখাটা হয়তো আপনাকে দিবে বা দিবে না, কিন্তু আপনার শিখা এবং চর্চা যেন বন্ধ না হয়। সেটি আপনি চাকরি অথবা ব্যাবসা যেই পেশায়-ই থাকুন না কেন।

নিত্যনতুন ডাটা এনালিটিক্স এর ধামাকাদার ছবি,গ্রাফ, এবং আমার লেখা পড়ে এবং দেখে যদি ফলো করা শুরু করেন -দিন শেষে, যেই লাউ সেই কদুই থাকবে।

৬. আমার কাজের পুরোটাই জুড়ে থাকে বিভিন্ন LLM মডেল এবং AI এর বিভিন্ন application

আমি কাজে এবং চিন্তায় বিশ্বাস করি — ডাটা নিয়ে কাজের পুরোটাই হাতে কলমে শিখা উচিত । আপনার এনালিটিক্স আপনাকে ডিক্টেট করবে কোন থিওরি আপনি শিখবেন , থিওরি দিয়ে যেমন সাইকেল চালানো শিখা যায় না এবং পাশাপাশি মনে রাখা উচিত সাইকেল চালাতে গিয়ে আছাড় আপনাকে খেতেই হবে। যে যত বেশি আছাড় খাবে, সে তত তাড়াতাড়ি সাইকেল চালানো শিখবে। কেন আমি ট্রেডিশনাল কোনো প্রোগ্রামিং ল্যঙ্গুয়েজ নিয়ে কাজ না করে, এই পিগিব্যাকিং করলাম তার কারণ হাজার হাজার লাইন প্রোগ্রামিং কোড লিখার ধৈর্য এবং ইচ্ছা কোনোটাই আমার নাই। যারা হার্ডকোর কোডার, তাদের প্রতি আমার ফুল রেস্পেক্ট, তাদের ধৈর্য কে আমি স্যালুট জানাই। কিন্তু পাশাপাশি এটাও সত্যি যে — সবাই হার্ডকোর কোডার হবে না, জোর করে সেটি হওয়ার চেষ্টা করাটা আমার কাছে -সময় এবং অর্থের অপচয়।

৭. বর্তমান যুগ AI এর যুগ। সেই যুগের এডভ্যান্টেজ যদি আপনি নিতে না পারেন, সেটি আপনার ফেইলিউর। ডাটা নিয়ে কাজের ক্ষেত্রে মনে রাখবেন — আপনি যত প্রাকটিস করবেন, তত আপনার দক্ষতা বাড়বে। আপনি ঠিক শিখছেন কিনা, সেটা বোঝার কি উপায় ? সহজ — ক্যাগলের কম্পিটিশন। ক্যাগল এর কম্পিটিশন গ্লোবাল। সুতরাং আপনার কম্পিট করতে হবে, পুরো বিশ্বের সাথে। শিখবেন, মডেল তৈরী করবেন, compete করবেন। স্কোর বলে দিবে আপনার মডেল কতটুকু accurate.

৮. যদি আপনি একদম জিরো লেভেলের কেউ হয়ে থাকেন যিনি ডাটা নিয়ে কাজ করছেন চান , আমাকে নক দিয়ে কোনো কিছু আস্ক করার আগে মেক শিউর

খ . লাস্ট ৩ দিনে অন্তত একটি একটি ডাটাসেট দেখছেন এবং জানতে চেষ্টা করেছেন এই ডাটাসেট আপনাকে কি কি প্রশ্নের উত্তর দিতে capable এবং সেই প্রশ্নের লিস্ট আপনার সামনে আছে

গ . আপনি আমার গিটবুকটি পড়েছেন

৯. যারা ট্রাডিশনাল ওয়ে তে ডাটা নিয়ে কাজ শিখছেন তাদের জ্ঞানের প্রতি পূর্ণ শ্রদ্ধা রেখে বলছি — এখন ডাটা এনালিটিক্স এর জন্য প্রচুর AI মডেল আছে, যে কোনো একটিকে বেছে নিয়ে কাজ শুরু করতে পারেন। এই মডেলগুলো এক একটি বিশেষ বিশেষ কাজের জন্য specialized, বেছে নিন এমন একটি মডেল যার computational accuracy বেঞ্চমার্কে সব থেকে উপরে।

১০. ডাটা নিয়ে কাজ করার ক্ষেত্রে শুধু মাত্র আউটপুট, গ্রাফ চার্ট দেখেই সিদ্ধান্ত নিয়ে বসবেন না। ব্যাকগ্রাউন্ড বা কনটেক্সট টা জানা অনেক বেশি গুরুত্বপূর্ণ। কোডিং ঠিক আছে , কোডিং এর জন্য মোটামুটি এডভান্স মডেলের LLM- সেটিও ঠিক বলছে, কনটেক্সট এ ভুল থাকার কারণে, এনালিটিক্স এর ইন্টারপ্রিটেশন বা ব্যাখ্যা চেঞ্জ হয়ে যেতে পারে। সুতরাং আমরা যারা ডাটা নিয়ে কাজ করি, তাদের জন্য কনটেক্সট বা ব্যাকগ্রাউন্ড জানাটা অনেক বেশি প্রয়োজন।

হা, এখানেই মানুষের জাজমেন্ট কাজে লাগে — যা যন্ত্রের নেই। AI মডেলগুলোর এডভান্সমেন্ট- ই বলে দিবে — সামনে মানুষের জন্য কি অপেক্ষা করছে।

১১. প্রশ্ন প্রশ্ন এবং প্রশ্ন : ডাটা নিয়ে কাজের ক্ষেত্রে সঠিক প্রশ্ন, সঠিক ভাবে identify করা খুব বেশি জরুরি। প্রশ্ন ভুল হলে উত্তর ভুল হবে। আমার মতে এনালাইসিস থেকেও জরুরি সঠিক প্রশ্ন, সঠিক ভাবে identify করা।

লাস্টলি বলতে চাই অনেকের অনেক প্রশ্ন থাকে ডাটা নিয়ে কাজের ক্ষেত্রে, কিছু কমন প্রশ্নের উত্তর পাবেন এখানে :

কি জানতে হবে সেটা আগে জানেন, তারপরে ডাটা নিয়ে কাজ শুরু করুন, আরেকটা কথা, দেখে দেখে না, শিখে শিখে ডাটা নিয়ে কাজ শুরু করুন।

সবার জন্য অনেক শুভকামনা!

মূল কথায় আসি। আমি Python বা R পারি না এবং আমাকে দিয়ে ডাটার কোনো কাজ-ই সম্ভব হবে না — এই আফসোস এর মাঝেই আমি সন্ধান পাই বিভিন্ন LLM , aI মডেলের, যেমন - এর । আগেই বলেছি ডাটার প্রতি সীমাহীন আগ্রহ আমাকে সবসময় ভাবতো, পরক্ষনেই ভাবতাম বামন হয়ে চাঁদে হাত দেওয়ার সাহস করতে নাই। aI এর বুম আমাকে সেই চাঁদে হাত দেওয়ার সাহস করে দিয়েছে।

৫. আমি কি নিয়ে কথা বলছি (what), কেন বলছি (why ), কাজ করে কথা বলছি নাকি হুদাই পেচাল দিচ্ছি (how), কাদের জন্য বলছি (to whom )- এই চারটি ব্যপার যদি বুঝে আসতে পারেন আমার লেখা বুঝতে সুবিধা হবে। সেই কারণে আমার গিটবুক — পড়ে আমাকে ফলো করলে উপকার পাবেন।

ক . আপনার একটি ক্যাগল প্রোফাইল আছে [এটি আমার প্রোফাইল : ] যদি না জানেন ক্যগলে কিভাবে প্রোফাইল করতে হয়, গুগল করুন, যতটা সময় প্রতিদিন ফেসবুকিং করেন তার থেকে ৫০% কম সময় দিয়েই একটি প্রোফাইল খোলা সম্ভব

Medium :

Gitbook :

ক্যাগলের লিংক :

Subscription Link :

Julius.ai
https://dataniyekotha.gitbook.io/
https://www.kaggle.com/msahmed
https://dataniyekotha.gitbook.io/
Julius Ai
https://medium.com/@masnoon-ahmed
https://dataniyekotha.gitbook.io/
https://www.kaggle.com/msahmed
আমার লেখাগুলো সরাসরি ইমেলে পেতে সাবস্ক্রাইব করুন