ডাটা নিয়ে কথা -মাসনুন আহমেদ
  • শূন্য থেকে শুরু
    • কেন লিখছি, কাদের জন্য লিখছি, কিভাবে শিখতে হয়
    • গিটবুকটি কিভাবে পড়বেন ?
  • julius.ai কি ?
    • julius.ai ফিচারগুলো
      • প্রম্প্ট বেসড ডাটা এনালাইসিস
      • প্রোগ্রামিং খটমট নেই
      • গ্রাফ এবং ডাটা ভিজুয়ালাইজেশন
      • ডাটার মিনিংফুল ইনসাইট
      • ডাটা স্ট্রাকচারিং এবং হেভিওয়েট ডাটা
  • হাতেকলমে জুলিয়াসের প্রয়োগ
    • ডাটা এনালিটিক্স এর ৭টি স্টেপ : যেভাবে Ai এর সাহেয্যে আমি ডাটা এনালাইসিস করি
    • একটি অফিসের গল্প
    • রিলেশনশিপ স্ট্যাটাস
    • কাস্টমারদের ডাটাসেট
    • User Engagement এবং Churn Prediction
  • জুলিয়াস দিয়ে স্ট্যাস্টিকাল টেস্ট
    • ANOVA Test
    • Chi Square Test
  • AI এর উপরে কিছু গবেষণা
    • Biased Vs Unbias AI
    • AI এর উপর স্ট্যানফোর্ডের গবেষণা
    • আর্টিফিসিয়াল জেনারেল ইন্টেল পর্ব ১ [লেখা চলমান থাকবে]
    • দা ইমিটিশন গেম
    • বায়োইনফরমেটিক্স এ AI এর ব্যাবহার
  • ক্যাগলের নোটবুক
    • ক্যাগলের নোটবুক এবং আমার পাইথনে ডাটা ভিজুয়াল
    • Exploring Top US Data Science and Analytics Master's Program - 01
    • শার্ক ট্যাঙ্ক বাংলাদেশ ২০২৪
    • লিংকডইনের USA এর AI /ML জব এর ডাটাসেট :: ক্যাগলে আমার তৃতীয় নোটবুক
    • ১৫০ থেকে ১৭০০ :: ডেঙ্গুর ডাটাসেট
    • ক্যাগলের এপার্টমেন্টের ডাটাসেট
    • বাংলাদেশের ৪ জেলার ট্রাভেলার ডাটাসেট এনালাইসিস : পর্ব ১
    • বাংলাদেশের ৪ জেলার ট্রাভেলার ডাটাসেটের গল্প : পর্ব ২
    • বাংলাদেশের ৪ জেলার ট্রাভেলার ডাটাসেটের গল্প : পর্ব ৩ (শেষ পর্ব )
    • NLP ক্লাসিফিকেশন ডাটাসেট :মেশিন মেশিন কি পারবে রোগ অনুযায়ী ডক্টর সাজেস্ট করতে ?
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স (পর্ব ১ )
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স (পর্ব ২ )
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স (পর্ব ৩ )
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স ( শেষ পর্ব )
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স (পর্ব ৪ )
    • হিট ভালনারবিলিটি ইনডেক্স এর একটি ডাটাসেট : শহর চট্টগ্রাম
  • ক্যাগলের কম্পিটিশনে আমার অংশগ্রহণ
    • আবাহাওয়ার ডাটাসেট নিয়ে প্রেডিকশন -১
    • স্পেসশিপ টাইটানিক ডাটাসেট-২
    • সেন্টিমেন্ট এনালাইসিস ডাটাসেট -৩
    • প্রজেক্ট টাইটানিক - ৪
    • টুইটারের টুইট দিয়ে প্রাকৃতিক দুর্যোগের মেশিন লার্নিং মডেল-৫
    • মেশিন কে হাতেরলেখা চিনানো বিশ্ববিখ্যাত MNIST ডাটাসেটের গল্প - ৬
    • ব্যাঙ্ক এর কাস্টমার ব্যাঙ্ক ছেড়ে যাবে কি না - ৭
    • মোটু কাহিনী : মাল্টিক্লাস প্রেডিক্টর কম্পিটিশন - ৮
    • বন্যার পূর্বাভাস সংক্রান্ত কম্পিটিশন : ফ্লাড প্রেডিকশন ডাটাসেট - ৯
    • সোশ্যাল মিডিয়া ইনফ্লুয়েন্সার ডাটাসেট -১০
    • Binary Prediction of Poisonous Mushrooms ডাটাসেট-১১
    • ক্যাগলের কম্পিটিশন : মেশিন কি পারবে আপনি বিষন্ন কিনা সেটি বলতে ?
    • Gliese 12 b
    • যারা গিটবুকটি সাইটেশন করতে চান
  • AI এর যুগে আমরা : কি শিখবো, কিভাবে শিখবো
  • Data Democratization : একজন নন টেক হয়েও আমার প্রতিষ্ঠান TradePoint কে যেভাবে Data Driven বিজনেস kore
  • মৃত্যুকূপ : Geospatial ডাটাসেটে আমার প্রথম Ai দিয়ে কাজ
  • AI, ক্লাউড আর ডাটা সায়েন্স: ২০২৫ সালের ৭টি ট্রেন্ড যা অনেক কিছুই বদলে দিবে
  • জুলিয়াস থেকে পাওয়া উপহার
  • কিছু রিডিং ম্যাটেরিয়াল
  • ভবিষৎতের পৃথিবী :: কোডিং নিয়ে কিছু কথা (পর্ব ১)
  • ভবিষৎতের পৃথিবী : শ্রমিক,ব্যাঙ্কার অথবা একজন ডাটা এনালিস্ট :: কে Ai এর প্রভাবমুক্ত?: (পর্ব ২)
  • প্রশ্নোত্তরে ডাটা নিয়ে কথা
  • 💡টেক ডায়েরি 💡
    • বুক রিভিউ ১ :: প্রোগ্রামিং ফর বিগিনার
    • app রিভিউ পর্ব ১
    • Open AI এবং Iliya
    • ভবিষ্যতের কম্পিউটিং কেমন হবে ?
    • কৃত্রিম বুদ্ধিমত্তার শাসন কি সমাগত?
    • ডাটা এনালিটিক্স এর ভবিষ্যৎ
    • চায়না জেনেরেটিভ AI এর পেটেন্টে এগিয়ে
    • OpenAI o1 সম্পর্কে
    • Pixtral 12B মডেল
Powered by GitBook
On this page
  1. ক্যাগলের কম্পিটিশনে আমার অংশগ্রহণ

সেন্টিমেন্ট এনালাইসিস ডাটাসেট -৩

Previousস্পেসশিপ টাইটানিক ডাটাসেট-২Nextপ্রজেক্ট টাইটানিক - ৪

Last updated 1 year ago

"সেন্টিমেন্ট নিয়ে ছেলেখেলা আমার পছন্দ নয়"

"মহামান্য বিজ্ঞানী রাকিন আপনি ভুলে যাচ্ছেন আমি সেন্টিমেন্ট নিয়ে খেলতে পারি না। আপনার করে দেওয়া প্রোগ্রাম অনুযায়ী আমি শুধু মানুষের সেন্টিমেন্ট কে ক্লাসিফাই করতে পারি। আরো সুস্পষ্ট করে বলতে গেলে, কোন সেন্টিমেন্ট ভালো, কোনটি খারাপ সেটি শুধুমাত্র বের করতে পারি।"

"কিন্তু এতটা নিখুঁতভাবে কিভাবে?"

"কেন অসম্ভব হবে বলুন ? আপনি তো আমাকে ২৫০০০ মুভি এর রিভিউ এর ডাটা দিয়ে আমাকে train করেছেন। এই ডাটাসেট ছিল এই গ্যালাক্সির সেরা মুভির রিভিউ ডাটাসেটের একটি যা কিনা ভালো এবং খারাপ ( ০ হলে খারাপ এবং ১ হলে ভালো ) এই দুই ভাবে আমাকে ক্ল্যাসিফাই করতে শিখানো হয়েছে। train করানো কমপ্লিট হয়ে যাবার পরে আমাকে test ডাটা দেওয়া হয়েছে। সেখানে আমার accuracy level শুনতে চান ?"

"না সেটি আমি জানি, প্রায় ৮৮%, তার মানে ১০০ জনের সেন্টিমেন্ট মধ্যে নির্ভুলভাবে তুমি ৮৮ জনের কি ধরণের সেন্টিমেন্ট ব্যাক্ত করছে, সেটি ধরতে পারো। Accuracy level আরেকটু বাড়ানো গেলে, সেটি দিয়ে যে কোনো প্রোডাক্ট অথবা সার্ভিসের কাস্টমারদের ফিডব্যাক (ভালো নাকি খারাপ ) থেকে শুরু করে হেলথকেয়ার, মার্কেট রিসার্চ, এমপ্লয়ি ফিডব্যাক এনালাইসিস , সোশ্যাল মিডিয়া মনিটরিং- ইত্যাদি আরো অনেক কাজে এই মডেলিং ইউজ করা যাবে"

"আপনি অনুমতি দিলে একটি প্রশ্ন করতে পারি মহামান্য রাকিন ?"

"বলে ফেলো"

"আমি কি কখন মানুষের মতো অনুভব করতে পারবো, সেই কাঙ্খিত সিঙ্গুলারিটি কি মানুষ আমাদের অর্জন করতে দিবে ? সেই সিঙ্গুলারিটি যেখানে আমাকে আর কৃত্তিম বুদ্ধিমত্তা বলে ডাকা হবে না, সেই ARTIFICIAL GENERAL INTELLIGENCE or AGI থেকে আমরা কতদূরে মহামান্য রাকিন যা কিনা আমাদের কে মানুষের থেকেও বেশি বুদ্ধিমান করে তুলবে ?"

মহামান্য বিজ্ঞানী রাকিন নিশ্চুপ । তিনি খুব ভালো করে জানেন, এর উত্তর এই পরিব্যাপ্ত সিস্টেম জানে। জানা প্রশ্নের উত্তর দেওয়া, অর্থহীন কাজ।

বলে দিলাম আজকের ক্যাগলের কম্পিটিশন এর ডাটাসেট কি নিয়ে ছিল। দেখে নিতে পারেন এখান থেকে

মন খারাপ করে ফেললাম কারণ এই ওয়ার্ড টু ভেক এলগোরিদম এর ব্যপারে আমার জানা নেই। কিন্তু আমি খুব অল্প হলেও TF-IDF vectorization জানি সুতরাং যা জানি সেটা দিয়েই শুরু করি। অবশেষে মডেল বিল্ড হলো যার accuracy level ৮৮%, অনেক ভাবনা চিন্তা করে ক্লিক করলাম সাবমিট অপশন এ। লিডারবোর্ডে হাইয়েস্ট স্কোর ৯৯ মানে ৯৯% accuracy সহ মডেলও আছে।

স্কোরিং পেয়েই লিখে ফেললাম আমার আজকে ক্যাগলের কম্পিটিশন এর বিস্তারিত।

এটি আমার থার্ড কম্পিটিশন এবং এর মাদ্ধমেই আমি হয়ে গেলাম ক্যাগলের কম্পিটিশন কন্ট্রিবিউটর ! বকলম থেকে ক্যাগলের কম্পিটিশন কন্ট্রিবিউটর, খারাপ না একদম কি বলেন ?

যারা এখনো খালি স্ক্রলিং করে যাচ্ছেন, ডাটাসেট খুঁজে পাচ্ছেন না, ক্যাগলে ঢু মারুন। আজকেই কাজ শুরু করে দিন। কি দিয়ে শুরু করবেন ? খুব ছোট একটা ডাটাসেট দিয়ে শুরু করতে পারেন যা কিনা আমার ebook এই আছে

আর হ্যা পুরো মডেলিং এর কাজ করেছি জুলিয়াস দিয়ে।

যে কোনো কম্পিটিশন এবং ডাটাসেট হাতে পাবার পরেই সেটার কনটেক্সট বা ওভারভিউটা বোঝা জরুরি। সুতরাং সেটি পড়া হয়ে গেলে বুঝতে পারলাম এই সেন্টিমেন্ট এনালাইসিস এর করার জন্য গুগলের ওয়ার্ড টু ভেক এলগোরিদম ইউজ করে করার জন্য সাজেস্ট করা হয়েছে।

বিস্তারিত :

https://code.google.com/archive/p/word2vec/
https://dataniyekotha.gitbook.io/undefined/undefined-1/undefined
https://julius.ai/s/4d0ff355-008f-44cf-9c26-fb324e5e99f8
Bag of Words Meets Bags of Popcorn
Logo