Road to Data Science

২ মিনিটের জন্য নিজেকে বিড়াল চিন্তা করুন। যার আলুর চিপ্স ভীষণ পছন্দ। ডাটা সায়েন্সের আপনি কী বুঝবেন?

তবে, আপনার একজন বন্ধু আছে, সে আবার মানুষ। তার কাছে অনেক অনেক ডাটা আছে। থাকলেই বা কী? সে এগুলা মোটেও ইউজ করে না, ভীষণ অলস সে।

আলুর চিপ্স তো আপনার সে-ই মজা লাগে, একদিন ঠিক করলেন- আলুর চিপ্সের একটা ব্র‍্যান্ড খুলবেন আপনি, চিপ্সটা হবে টুনা স্বাদের। ডিসিশন ফাইনাল।

মানুষ আপনার চিপ্স পছন্দ করবে কি করবে না, দাম কত হবে, বা আদৌ সামনে এই জিনিসের চাহিদা আছে কিনা, এসব বিষয়ে আপনার বিন্দুমাত্র কোন ধারণা নাই। তবে এইটুকু আপনি জানেন যে, আপনার মানুষ বন্ধুর কাছে প্রচুর ডাটা আছে। আর ডাটা যে জাদুর মতো কাজ করে, এটা তো আল্লাহর দুনিয়ায় সবাই-ই জানে। গেলেন তার কাছে, যদি মানুষ বন্ধুটা আলুর চিপ্সের ব্র‍্যাণ্ড খোলার ব্যাপারে আপনাকে কোন সাহায্য করতে পারেন।

ডাটা সায়েন্স অন-লাইভ কোর্সে এনরোল করতে চাইলে ক্লিক করুন নীচের লিংকেঃ https://ostad.app/batch/data-science

আপনার মানুষ বন্ধুটা আপনাকে ডেটা দিতে রাজি হলো। শুধু তা-ই না, ডেটা তো খালি নিলেই হয় না, ডেটা কীভাবে ব্যবহার করতে হয়-সেটাও আপনাকে শিখাবে বলে সম্মত হলো। হ্যাঁ, এখন আপনার কাছে ডাটা আছে। ডাটা কে কী কী প্রশ্ন আপনি করবেন, আর তার থেকে কী কী উত্তর আপনি বের করবেন-টোটাল প্ল্যান রেডি।

প্রথমত, আপনি জানতে চেয়েছিলেন যে মানুষরা আপনার চিপ্সের টুনা গন্ধ পছন্দ করবে কিনা। আপনার মানুষ বন্ধু আপনাকে জানিয়ে দিয়েছেন, আপনি যদি একটি রেন্ডম মানুষকে বাছাই করেন, যিনি তার জীবনে কমপক্ষে একবার চিপস খেয়েছিলেন এবং তাকে জিজ্ঞাসা করেন তিনি এটি পছন্দ করেন কিনা, তবে কেবল দুটি উত্তর থাকতে পারে, হ্যাঁ বা না।

একইভাবে, আপনি যদি তাদের জিজ্ঞাসা করেন যে Sour Cream, Tomato এবং BBQ-এর মধ্যে তারা কোন স্বাদ পছন্দ করে তবে উত্তরটি অবশ্যই জলপাই স্বাদযুক্ত কিছু নয়। Sour Cream, tomato বা BBQ-এর মধ্যেই থাকবে উত্তর। অতএব, আপনি এই ধরণের প্রশ্নের বিকল্পগুলির একটি নির্দিষ্ট সেট থেকে একটি উত্তর বেছে নিতে পারেন। আপনার মানুষ বন্ধু আপনাকে এখন জানিয়েছে যে আপনি যে সমস্যাটি সফলভাবে আবিষ্কার করেছেন-তার নাম Classification.

এখন আসা যাক বাকী কোয়েশ্চনগুলোর ক্ষেত্রে। দাম সম্পর্কে কি আপনার বেসিক কোন আইডিয়া আছে?নেই, তো আর কী করা? হাতের কাছে ডাটা ছাড়া তো কিছুই নেই। ডাটা আপনাকে বললো, ১৬ আউন্সের Hay’s Chips এর দাম ৩.৬৬ ডলার। এই চিপ্সের ফ্লেভার হচ্ছে পেঁয়াজ এবং Sour Cream-এর. অন্যদিকে একটা ৮ আউন্সের Tingles চিপ্সের প্যাকেটের দাম ২ ডলার। এই চিপ্সটা টমেটো সালসা ফ্লেভারের। আপনি অবাক হয়ে খেয়াল করলেন, ডাটা থেকে আপনি অনেক কিছুই জানেন। যেমনঃ প্যাকেট সাইজ, ফ্লেভার, কী কী জিনিস ব্যাবহার করা হয়েছে একেক রকম চিপ্সে। আর সবগুলোর দামও নিশ্চয়ই ৩.৬৬ বা ২ ডলার হয় না। দাম অবশ্যই হেরফের করে একেক বিষয়ের উপর ডিপেন্ড করে।

উদাহরণস্বরূপ, চিপসের প্রথম 5 টি স্যাম্পলের দাম এরকম $ 2.19, $ 4.10, $ 3.50, $ 2.20 এবং $ 2.50, স্যাম্পলের দাম কেবল এই রেঞ্জের মধ্যে থাকতে হবে এমন কোনও নিয়ম নেই। $ 1.99 বা 50 4.50 হতে পারে, ডিপেন্ড করছে কতটা জটিল ফ্লেভার ইউজ করা হচ্ছে এবং প্যাকেটের সাইজ কেমন। আরেকটু খেয়াল করুন যে, আপনার মানুষ বন্ধু এটিকে একটি “Regression” হিসাবে অভিহিত করছে।

এই টাইপের Regression-কে বলে “Time Series Regression”. এই টাইপের Regression-এ আপনাকে অতীতের দামগুলোকে ব্যবহার করে একটা পার্টিকুলার জিনিসের দাম ফিউচারে কেমন হবে সেটা predict করতে হয়, আর পুরো প্রেডিকশনটা করতে হবে সময়ের সাথে। আপনার তিন নাম্বার প্রবলেমটা টাইম সিরিজ প্রবলেম। এ মাসের ডিমান্ডের উপর নির্ভর করে সামনের মাসে কেমন ডিমান্ড হবে-সেটা প্রেডিক্ট করা। আর একইভাবে, এই মাসের সেলসের উপর ডিপেন্ড করে সামনের মাসের সেলস প্রেডিক্ট করা। হয়তো বুঝতে পারছেন না, সমস্যা নেই। মানুষ বন্ধু তো আছেই, আপনাকে বুঝিয়ে দেয়ার জন্য।

এখন আপনি কিছু রিয়েল লাইফ কাজ করার জন্য একদম রেডি। কীভাবে ডাটা থেকে কোয়েশ্চন আইডেন্টফাই করতে হয়, এবং কীভাবে এপ্রোচ করতে হয়- সবকিছুই আপনি জানেন।

জয়েন করুন "Data Science On-live Course"-এঃ https://ostad.app/batch/data-science

Writer: Marjan Ferdousi, CTO at Insight Labs-Metsys, Fujitsu Research Institute, BUET CSE