ডাটা নিয়ে কথা -মাসনুন আহমেদ
  • শূন্য থেকে শুরু
    • কেন লিখছি, কাদের জন্য লিখছি, কিভাবে শিখতে হয়
    • গিটবুকটি কিভাবে পড়বেন ?
  • julius.ai কি ?
    • julius.ai ফিচারগুলো
      • প্রম্প্ট বেসড ডাটা এনালাইসিস
      • প্রোগ্রামিং খটমট নেই
      • গ্রাফ এবং ডাটা ভিজুয়ালাইজেশন
      • ডাটার মিনিংফুল ইনসাইট
      • ডাটা স্ট্রাকচারিং এবং হেভিওয়েট ডাটা
  • হাতেকলমে জুলিয়াসের প্রয়োগ
    • ডাটা এনালিটিক্স এর ৭টি স্টেপ : যেভাবে Ai এর সাহেয্যে আমি ডাটা এনালাইসিস করি
    • একটি অফিসের গল্প
    • রিলেশনশিপ স্ট্যাটাস
    • কাস্টমারদের ডাটাসেট
    • User Engagement এবং Churn Prediction
  • জুলিয়াস দিয়ে স্ট্যাস্টিকাল টেস্ট
    • ANOVA Test
    • Chi Square Test
  • AI এর উপরে কিছু গবেষণা
    • Biased Vs Unbias AI
    • AI এর উপর স্ট্যানফোর্ডের গবেষণা
    • আর্টিফিসিয়াল জেনারেল ইন্টেল পর্ব ১ [লেখা চলমান থাকবে]
    • দা ইমিটিশন গেম
    • বায়োইনফরমেটিক্স এ AI এর ব্যাবহার
  • ক্যাগলের নোটবুক
    • ক্যাগলের নোটবুক এবং আমার পাইথনে ডাটা ভিজুয়াল
    • Exploring Top US Data Science and Analytics Master's Program - 01
    • শার্ক ট্যাঙ্ক বাংলাদেশ ২০২৪
    • লিংকডইনের USA এর AI /ML জব এর ডাটাসেট :: ক্যাগলে আমার তৃতীয় নোটবুক
    • ১৫০ থেকে ১৭০০ :: ডেঙ্গুর ডাটাসেট
    • ক্যাগলের এপার্টমেন্টের ডাটাসেট
    • বাংলাদেশের ৪ জেলার ট্রাভেলার ডাটাসেট এনালাইসিস : পর্ব ১
    • বাংলাদেশের ৪ জেলার ট্রাভেলার ডাটাসেটের গল্প : পর্ব ২
    • বাংলাদেশের ৪ জেলার ট্রাভেলার ডাটাসেটের গল্প : পর্ব ৩ (শেষ পর্ব )
    • NLP ক্লাসিফিকেশন ডাটাসেট :মেশিন মেশিন কি পারবে রোগ অনুযায়ী ডক্টর সাজেস্ট করতে ?
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স (পর্ব ১ )
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স (পর্ব ২ )
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স (পর্ব ৩ )
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স ( শেষ পর্ব )
    • সোশ্যাল মিডিয়ায় কেনাকাটার উপর ডাটা এনালিটিক্স (পর্ব ৪ )
    • হিট ভালনারবিলিটি ইনডেক্স এর একটি ডাটাসেট : শহর চট্টগ্রাম
  • ক্যাগলের কম্পিটিশনে আমার অংশগ্রহণ
    • আবাহাওয়ার ডাটাসেট নিয়ে প্রেডিকশন -১
    • স্পেসশিপ টাইটানিক ডাটাসেট-২
    • সেন্টিমেন্ট এনালাইসিস ডাটাসেট -৩
    • প্রজেক্ট টাইটানিক - ৪
    • টুইটারের টুইট দিয়ে প্রাকৃতিক দুর্যোগের মেশিন লার্নিং মডেল-৫
    • মেশিন কে হাতেরলেখা চিনানো বিশ্ববিখ্যাত MNIST ডাটাসেটের গল্প - ৬
    • ব্যাঙ্ক এর কাস্টমার ব্যাঙ্ক ছেড়ে যাবে কি না - ৭
    • মোটু কাহিনী : মাল্টিক্লাস প্রেডিক্টর কম্পিটিশন - ৮
    • বন্যার পূর্বাভাস সংক্রান্ত কম্পিটিশন : ফ্লাড প্রেডিকশন ডাটাসেট - ৯
    • সোশ্যাল মিডিয়া ইনফ্লুয়েন্সার ডাটাসেট -১০
    • Binary Prediction of Poisonous Mushrooms ডাটাসেট-১১
    • ক্যাগলের কম্পিটিশন : মেশিন কি পারবে আপনি বিষন্ন কিনা সেটি বলতে ?
    • Gliese 12 b
    • যারা গিটবুকটি সাইটেশন করতে চান
  • AI এর যুগে আমরা : কি শিখবো, কিভাবে শিখবো
  • Data Democratization : একজন নন টেক হয়েও আমার প্রতিষ্ঠান TradePoint কে যেভাবে Data Driven বিজনেস kore
  • মৃত্যুকূপ : Geospatial ডাটাসেটে আমার প্রথম Ai দিয়ে কাজ
  • AI, ক্লাউড আর ডাটা সায়েন্স: ২০২৫ সালের ৭টি ট্রেন্ড যা অনেক কিছুই বদলে দিবে
  • জুলিয়াস থেকে পাওয়া উপহার
  • কিছু রিডিং ম্যাটেরিয়াল
  • ভবিষৎতের পৃথিবী :: কোডিং নিয়ে কিছু কথা (পর্ব ১)
  • ভবিষৎতের পৃথিবী : শ্রমিক,ব্যাঙ্কার অথবা একজন ডাটা এনালিস্ট :: কে Ai এর প্রভাবমুক্ত?: (পর্ব ২)
  • প্রশ্নোত্তরে ডাটা নিয়ে কথা
  • 💡টেক ডায়েরি 💡
    • বুক রিভিউ ১ :: প্রোগ্রামিং ফর বিগিনার
    • app রিভিউ পর্ব ১
    • Open AI এবং Iliya
    • ভবিষ্যতের কম্পিউটিং কেমন হবে ?
    • কৃত্রিম বুদ্ধিমত্তার শাসন কি সমাগত?
    • ডাটা এনালিটিক্স এর ভবিষ্যৎ
    • চায়না জেনেরেটিভ AI এর পেটেন্টে এগিয়ে
    • OpenAI o1 সম্পর্কে
    • Pixtral 12B মডেল
Powered by GitBook
On this page
  1. হাতেকলমে জুলিয়াসের প্রয়োগ

User Engagement এবং Churn Prediction

Previousকাস্টমারদের ডাটাসেটNextজুলিয়াস দিয়ে স্ট্যাস্টিকাল টেস্ট

Last updated 2 months ago

ডাটাসেটটি ডাউনলোড করে নিতে পারেন এখান থেকে :

আপনি কি কোনো ফেসবুক গ্রূপের সদস্য ? অথবা আপনি কি কোনো ফেসবুক গ্রূপের অ্যাডমিন ? না হলেও সমস্যা নেই। সমস্যাটি বুঝতে পারলেই হলো। আমরা প্রায়ই দেখি ফেসবুক তার গ্রূপের ইউজারদের বিভিন্ন ভাবে মার্ক করে। আপনি যেই গ্রূপটিতে সবচেয়ে বেশি সময় দেন বা মেসেজ পোস্ট করেন, সেই গরূপে আপনি Top Contributor হয়ে যান। ঠিক এই একই রকমভাবে যেই ব্যাঙ্কের সাথে আপনার লেনদেন বেশি বা যেই সুপারশপে আপনি বেশি কেনাকাটা করেন বা যেই এয়ারলাইন্স আপনি বেশি ইউজ করেন - তারা সবাই কিন্তু আপনাকে একটু এক্সট্রা খাতির করে। এতো লক্ষ লক্ষ ইউজারদের ভিতর থেকে তারা আপনাকে কিভাবে চিনে রাখে ? কিভাবে আপনার প্রিয়জন আপনার জন্মদিন ভুলে গেলেও, এই সব প্রতিষ্ঠান ভুলে না, ঠিক ১২:০১ মিনিটে পেয়ে যান একটি কল বা ইমেল ? এই সব কিছুর জন্য দায়ী একটি মেশিন লার্নিং এলগোরিদম যার মাদ্ধমে আপনার ডাটা কে এনালাইসিস করে,আপনাকে Ranking করা হয়। Ranking বলে দেয় আপনি সেই কোম্পানিটির কত কাছের একজন।

গত ১ বছর আপনি যেই সুপারশপ থেকে বাজার করেছেন, আপনি জানেন কিনা জানি না , কিন্তু সেই সুপারশপের ডাটা এনালিস্ট ঠিক জানে - আগামী ১ বছর তাদের থেকে আপনি কেনাকাটা করবেন কি না ? জেনে কি হবে ? যেই পরোটার প্যাকেট, না পেয়ে, আজকে আপনি রাগ করে অন্য সুপারশপ থেকে কিনে নিলেন, ভাবতে পারেন যদি এরকম বাজে ইনভেন্টরি ম্যানেজমেন্ট কন্টিনিউ হতে থাকে, সেই সুপারশপের কত লোকসান হবে ? সুতরাং আপনার মতো আরো ১০০০ জনের Purchase Behavior যদি ঠিক মতো প্রেডিক্ট করার মতো একটি মেশিন লার্নিং এলগোরিদম তৈরী করা যায় লাভ দুটো - ১. আপনাকে আর খালি হাতে xyz ব্র্যান্ড এর পরোটার প্যাকেট না পেয়ে খালি হাতে ফিরে যেতে হবে না ২. কোম্পানিও বুঝতে পারবে কোন সময় কোন ব্র্যান্ড এর ৫০০ প্যাকেট পরোটার স্টক রাখতে হবে যাতে করে সবাইকে সার্ভিস দেওয়া যায়। কি মজা পাচ্ছেন ?

আজকে দেখাবো কিভাবে সেই মেশিন লার্নিং মডেল কাজ করে, তাও শুধুমাত্র প্রম্পটিং করে। হা জুলিয়াস এর সাহায্যেই।

সেটি দেখানোর জন্য আমি নিয়েছি এর অনলাইন ফোরামের টপ ৪২ জনের ইউজার দের রিয়েল লাইফ ডাটা। চলুন একটি দেখে নেই ডাটাসেটটি

এই মেশিন লার্নিং মডেলটি যেই প্রব্লেমটি সমাধান করবে সেটি হচ্ছে :

১. কারা এই ফোরামের রিটার্নিং ইউজার (টানা ৫ দিন ধরে যারা ইউজ করেছেন তাদেরকে রিটার্নিং ইউজার হিসেবে ধরা হয়েছে )

২. কোন কোন ইউজার এর activity এখানে কিরকম। যেখানে xyz ইউজার এর টোটাল activity বলতে বুঝানো হয়েছে = ইউজার কতগুলো পোস্ট পড়েছে , কতগুলোর রিপ্লাই দিয়েছে , কতগুলো নতুন টপিক পোস্ট করেছে, কতগুলো টপিক সে দেখেছে (Total activity = No_of_Posts_Read + Replies_Posted + Topics_Created (assuming higher values indicate higher activity) + topics_viewed ) এই ফ্যাক্টরগুলোর উপর ভিত্তি করে ইউজারদের কে মার্কিং করা হয়েছে (high -medium -low ) ঠিক যেমনটা ফেসবুক করে

৩. সব শেষে একজন ইউজার এই ফোরামের সাথে থাকবেন কি না ,সেটিও বলে দিয়েছে মডেল

এবার দেখি আসি ডাটা হেডগুলো :

Username: Unique identifier for the user.

Love_react_received: Number of “love” reactions the user has received on their posts or comments.

Love_react_given: Number of “love” reactions the user has given to other users’ posts or comments.

Topics_Created: Number of topics (discussions, threads) the user has created.

Replies_Posted: Number of replies the user has posted to existing topics.

Topics_Viewed: Number of topics the user has viewed (regardless of participation).

No_of_Posts_Read: Number of posts the user has read (might include topics viewed and replies read).

No_of_Days_Visited: Number of days the user has visited the website.

এইবার শুরু আমাদের এনালাইসিস

স্টেপ ১:

প্রথমেই একটি লজিস্টিক রিগ্রেশন মডেল তৈরী করে নিয়েছি জুলিয়াস এর সাহায্যে। একুরেসি লেভেল প্রায় ৮৯%, খারাপ না। কাজ চলে যাবে

মডেল যেহেতু তৈরী তাই মডেল এর সাহায্যে তৈরী করে নিলাম দুটো নতুন কলাম।

১. 1 = ইউজার থাকবে ২. ০ = ইউজার থাকবে না

সেটা উপরে ভিত্তি করে মডেল বলেও দিলো YES এবং no এর মাদ্ধমে, একটু দেখে নেই (হাইলাইট করা অংশ)

স্টেপ ২ :

এই স্টেপে আমি জুলিয়াস কে বললাম একটি এক্টিভিটি Table তৈরী করতে যা কি না আমাকে একজন ইউজার এই Activity Scoring তৈরী করে দেখাবে, পাশাপাশি সেই স্কোরিং এর উপর ভিত্তি করে তার ইউজার স্ট্যাটাস high, medium নাকি low সেটিও বলে দিবে। যেই ফিচারগুলোর উপরে এই টেবিলটি তৈরী করে হয়েছে সেটি হচ্ছে : Total activity: No_of_Posts_Read and Replies_Posted and Topics_Created (assuming higher values indicate higher activity) and topics_viewed

বোঝাই যাচ্ছে জুলিয়াস আমাকে একটি weighted score তৈরী করে দিয়েছি এবং সেটির উপরে ভিত্তি করে ইউজার স্ট্যাটাস প্রোফাইলিং ও তৈরী করে ফেলেছে।

সামারিটা একটু দেখে নেই :

Distribution of the ‘Activity_Level’:

  • Low: 14 users

  • Medium: 13 users

  • High: 14 users This categorization helps in understanding the activity patterns of users based on their interactions on the platform.

স্টেপ ৩ :

খুব সঙ্গত ভাবেই এখন আমি ইউজারদের high to low অর্ডার এ সাজিয়ে নিবো। যাতে করে আমি দেখলেই বুঝতে পারি ফোরামের অবস্থা কোথায় দাঁড়িয়ে আছে ?

স্টেপ ৪ :

এবার ফাইনালি করে ফেলবো churn prediction (একজন ইউজার এর ফোরামে থাকা বা না থাকার একটি সম্ভাব্যতা )

এখানে Yes” indicates that the model predicts this user is likely to churn, meaning they are at a higher risk of stopping their use of the forum based on the features analyzed (such as ‘Activity_Score’ and ‘No_of_Days_Visited’)

“No” suggests that the model predicts this user is unlikely to churn, meaning they are expected to continue using the forum.

*** Red points represent users predicted to churn.**

*** Green points represent users predicted not to churn.**

দেখা যাচ্ছে একটিভিটি স্কোর যাদের বেশি এবং যারা বেশি সময় ফোরামে দিয়েছে তাদের মধ্যে ১৭৫ এর স্কোরিং এর আসে পাশে যারা আছেন তাদের এই ফোরাম দীর্ঘমেয়াদে ইউজ করার সম্ভাবনা বেশি।

আবার একজন ইউজার এখানে ৫০-৬০ এর মাঝে স্ক্রিন করেও higher number of days visited এ এগিয়ে থাকার কারণে মডেল তাকে একজন ভালো ইউজার হিসেবে identify করেছে। এর প্রমান হচ্ছে নিচের গ্রাফটি।

পোস্ট টি পুরাটা পাবেন :

যারা আমার লেখা পড়ে একটু হলেও আগ্রহ পেয়েছেন তারা ক্যাগল থেকে থেকে churn prediction এর ডাটাসেট নামিয়ে প্রাকটিস শুরু করে দিতে পারেন। মজা পাবেন !

https://www.kaggle.com/msahmed/datasets
জুলিয়াস
User engagement and predicting churn of Julius ForumJulius Community Forum
Logo