Chi Square Test
Last updated
Last updated
Chi Square Test দুটি ভ্যারিয়েবলের মধ্যে একটি শক্তিশালী সংযোগ আছে কিনা তা বের করার জন্য ব্যাবহৃত হয়।
দুই ধরনের Chi Square Test রয়েছে।
Chi-Square Goodness of Fit Test: সংজ্ঞার থেকে উদাহরণ আমার সবসময়ই পছন্দ। আর উদাহরণের কথা বললেই চলে আসে ডাটাসেটের কথা। তাহলে শুরুতেই দেখে নেই একটি ডাটাসেট কে
Example - 01
আপনার বাসার পাশে যেই মুদি দোকানটা আছে, ধরে নিন আগামী এক সপ্তাহের জন্য এই দোকানের মালিক আপনি। আপনি দোকানের মালিক হিসেবে মনে করেন যে সপ্তাহের প্রতিটি দিনে সমান সংখ্যক লোক আপনার দোকানে আসে । আপনার এই ধারণা কতটা শক্তিশালী সেটা টেস্ট করার জন্য -এলোমেলোভাবে বা Randomly একটি সপ্তাহের কিছু নির্দিষ্ট দিনে কতজন লোক আসে তা রেকর্ড করে ফেললেন। আপনার এক্সপেক্টেড লোক সংখ্যা ৫০ এর মতো প্রতিদিন, এবং আপনার রেকর্ডকৃত লোকসংখ্যা উপরের ডাটাসেট টি তে দেখতে পাচ্ছেন।
এবার চলে আসি সংজ্ঞায় : Chi-Square Goodness of Fit Test: In this one, the aim is to find out whether a sample distribution matches a population distribution or not.
দেখে নেই জুলিয়াস কি বললো : The Chi-Square Goodness of Fit test has been successfully performed on your dataset. Here are the results:
Chi-Square Statistic: 4.36 P-value: 0.359
The p-value of 0.359 indicates that there is no significant difference between the observed and expected frequencies at the common significance level (e.g., 0.05). This means we fail to reject the null hypothesis, suggesting that the observed counts are not significantly different from what was expected based on the given data.
এনালাইসিস থেকে বুঝা যাচ্ছে এখানে দুটো হাইপোথিসিস ছিল
Ho= There is no significant difference between the observed and expected frequencies
H1= There is a significant difference between the observed and expected frequencies
সুতরাং আমরা h০ কে এনাফ এভিডেন্স থাকার কারণে রিজেক্ট করতে পারিনি। তার মানে মুদি দোকানের মালিক হিসেবে আপনি যেই ধারণাটি করেছিলেন - যে সপ্তাহের প্রতিটি দিনে সমান সংখ্যক লোক আপনার দোকানে আসে- ধারণাটি মোটামুটি সত্যি বলে চালিয়ে দেওয়া যায়।
Example - 02
ছোটবেলায় আমরা সবাই স্মার্টিস অথবা জেমস খেয়েছি ? সেই যে লাল, নীল, সবুজ ,হলুদ ,বাদামি কালার গোল গোল স্পেশিপের মতো চকলেটগুলো।
কোনো একবার আমার মনে হয়েছিল, এক প্যাকেট চকলেটের ভিতরে হয়তো সব গুলো কালার একই রকম সংখ্যায় থাকে। মানে আমি ভাবছি লাল, নীল, সবুজ ,হলুদ ,বাদামি কালার এর চকলেটগুলো সবগুলাই হয়তো ১০টি করে প্যাকেটের ভিতর থাকে। আসলেই কি ? যদি সত্যি এই ধারণাটি সত্যি না মিথ্যা টেস্ট করতে চান তাহলে নিচের ডাটাসেটটি নামিয়ে টেস্ট করে ফেলুন !
কি বুঝা গেছে ব্যপারটা ?
Chi-Square Test of Independence : ধরুন আপনি দুটি জিনিস মধ্যে সম্পর্ক দেখতে চাচ্ছেন, যেমন আপনি কিরকম গান পছন্দ করেন এবং আপনি কি রকম ফোন ব্যাবহার করেন। Chi-Square Test of Independence আপনাকে বলে দিবে এই দুটি জিনিস একে অপরের প্রভাবিত করে কিনা।
আরেকটু স্পষ্ট করতে চাইলে দেখে আসি একটা ছোট ডাটাসেট :
আমরা দেখতে চাই, দুটি ভ্যারিয়েবল বয়স এবং মিউজিক - এই দুটোর মধ্যে কোনো উল্লেখজনক সম্পর্ক আছে কি না যা স্টাটিস্টিক্যালি সিগনিফিকেন্ট। দেরি না করে জুলিয়াস এর মাদ্ধমে কাজ শুরু করে দেই।
প্রথমেই বুঝার সুবিধার জন্য হাইপোথেসিস সেট করে নিলাম
Null Hypothesis (H0): There is no association between age groups and music genre preferences. This means that the preferences for music genres are independent of the age groups.
Alternative Hypothesis (H1): There is an association between age groups and music genre preferences. This means that the preferences for music genres depend on the age groups.
সরাসরি চলে গেলাম জুলিয়াস এর এনালাইসিস এ
The Chi-Square Test of Independence was performed on the dataset, and here are the results:
Chi-square statistic: 24.59
p-value: 0.0000607
Degrees of freedom: 4
Expected frequencies:
Young: [11.2, 16.0, 12.8]
Adult: [14.0, 20.0, 16.0]
Senior: [9.8, 14.0, 11.2]
The p-value obtained from the test is significantly small (0.0000607), which is less than the typical threshold of 0.05. This indicates that we have enough evidence to reject the null hypothesis.
Based on the Chi-Square Test of Independence, we reject the null hypothesis and conclude that there is a statistically significant association between age groups and their preferences for different music genres. This suggests that different age groups have different preferences for music genres.
বুঝা যাচ্ছে মিউজিক এবং বয়স এর ভিতরে একটি সম্পর্ক আছে এবং একটি আরেকটিকে প্রভাবিত করে।
আরেকটু স্পষ্ট করে বুঝতে চাইলে চাইলে একটু ঢু মেরে আসতে পারেন এখানে :
https://medium.com/nerd-for-tech/understanding-the-chi-square-test-applications-and-real-world-examples-956e005a7104