সেন্টিমেন্ট এনালাইসিস ডাটাসেট -৩
Last updated
Last updated
"সেন্টিমেন্ট নিয়ে ছেলেখেলা আমার পছন্দ নয়"
"মহামান্য বিজ্ঞানী রাকিন আপনি ভুলে যাচ্ছেন আমি সেন্টিমেন্ট নিয়ে খেলতে পারি না। আপনার করে দেওয়া প্রোগ্রাম অনুযায়ী আমি শুধু মানুষের সেন্টিমেন্ট কে ক্লাসিফাই করতে পারি। আরো সুস্পষ্ট করে বলতে গেলে, কোন সেন্টিমেন্ট ভালো, কোনটি খারাপ সেটি শুধুমাত্র বের করতে পারি।"
"কিন্তু এতটা নিখুঁতভাবে কিভাবে?"
"কেন অসম্ভব হবে বলুন ? আপনি তো আমাকে ২৫০০০ মুভি এর রিভিউ এর ডাটা দিয়ে আমাকে train করেছেন। এই ডাটাসেট ছিল এই গ্যালাক্সির সেরা মুভির রিভিউ ডাটাসেটের একটি যা কিনা ভালো এবং খারাপ ( ০ হলে খারাপ এবং ১ হলে ভালো ) এই দুই ভাবে আমাকে ক্ল্যাসিফাই করতে শিখানো হয়েছে। train করানো কমপ্লিট হয়ে যাবার পরে আমাকে test ডাটা দেওয়া হয়েছে। সেখানে আমার accuracy level শুনতে চান ?"
"না সেটি আমি জানি, প্রায় ৮৮%, তার মানে ১০০ জনের সেন্টিমেন্ট মধ্যে নির্ভুলভাবে তুমি ৮৮ জনের কি ধরণের সেন্টিমেন্ট ব্যাক্ত করছে, সেটি ধরতে পারো। Accuracy level আরেকটু বাড়ানো গেলে, সেটি দিয়ে যে কোনো প্রোডাক্ট অথবা সার্ভিসের কাস্টমারদের ফিডব্যাক (ভালো নাকি খারাপ ) থেকে শুরু করে হেলথকেয়ার, মার্কেট রিসার্চ, এমপ্লয়ি ফিডব্যাক এনালাইসিস , সোশ্যাল মিডিয়া মনিটরিং- ইত্যাদি আরো অনেক কাজে এই মডেলিং ইউজ করা যাবে"
"আপনি অনুমতি দিলে একটি প্রশ্ন করতে পারি মহামান্য রাকিন ?"
"বলে ফেলো"
"আমি কি কখন মানুষের মতো অনুভব করতে পারবো, সেই কাঙ্খিত সিঙ্গুলারিটি কি মানুষ আমাদের অর্জন করতে দিবে ? সেই সিঙ্গুলারিটি যেখানে আমাকে আর কৃত্তিম বুদ্ধিমত্তা বলে ডাকা হবে না, সেই ARTIFICIAL GENERAL INTELLIGENCE or AGI থেকে আমরা কতদূরে মহামান্য রাকিন যা কিনা আমাদের কে মানুষের থেকেও বেশি বুদ্ধিমান করে তুলবে ?"
মহামান্য বিজ্ঞানী রাকিন নিশ্চুপ । তিনি খুব ভালো করে জানেন, এর উত্তর এই পরিব্যাপ্ত সিস্টেম জানে। জানা প্রশ্নের উত্তর দেওয়া, অর্থহীন কাজ।
বলে দিলাম আজকের ক্যাগলের কম্পিটিশন এর ডাটাসেট কি নিয়ে ছিল। দেখে নিতে পারেন এখান থেকে
যে কোনো কম্পিটিশন এবং ডাটাসেট হাতে পাবার পরেই সেটার কনটেক্সট বা ওভারভিউটা বোঝা জরুরি। সুতরাং সেটি পড়া হয়ে গেলে বুঝতে পারলাম এই সেন্টিমেন্ট এনালাইসিস এর করার জন্য গুগলের ওয়ার্ড টু ভেক https://code.google.com/archive/p/word2vec/ এলগোরিদম ইউজ করে করার জন্য সাজেস্ট করা হয়েছে।
মন খারাপ করে ফেললাম কারণ এই ওয়ার্ড টু ভেক এলগোরিদম এর ব্যপারে আমার জানা নেই। কিন্তু আমি খুব অল্প হলেও TF-IDF vectorization জানি সুতরাং যা জানি সেটা দিয়েই শুরু করি। অবশেষে মডেল বিল্ড হলো যার accuracy level ৮৮%, অনেক ভাবনা চিন্তা করে ক্লিক করলাম সাবমিট অপশন এ। লিডারবোর্ডে হাইয়েস্ট স্কোর ৯৯ মানে ৯৯% accuracy সহ মডেলও আছে।
স্কোরিং পেয়েই লিখে ফেললাম আমার আজকে ক্যাগলের কম্পিটিশন এর বিস্তারিত।
এটি আমার থার্ড কম্পিটিশন এবং এর মাদ্ধমেই আমি হয়ে গেলাম ক্যাগলের কম্পিটিশন কন্ট্রিবিউটর ! বকলম থেকে ক্যাগলের কম্পিটিশন কন্ট্রিবিউটর, খারাপ না একদম কি বলেন ?
যারা এখনো খালি স্ক্রলিং করে যাচ্ছেন, ডাটাসেট খুঁজে পাচ্ছেন না, ক্যাগলে ঢু মারুন। আজকেই কাজ শুরু করে দিন। কি দিয়ে শুরু করবেন ? খুব ছোট একটা ডাটাসেট দিয়ে শুরু করতে পারেন যা কিনা আমার ebook এই আছে
https://dataniyekotha.gitbook.io/undefined/undefined-1/undefined
আর হ্যা পুরো মডেলিং এর কাজ করেছি জুলিয়াস দিয়ে।
বিস্তারিত : https://julius.ai/s/4d0ff355-008f-44cf-9c26-fb324e5e99f8