ডাটা এনালাইসিসের হলো শুরু ( পর্ব ২ )

ডাটা এনালাইসিসের হলো শুরু ( পর্ব ১ )

প্রতি মুহূর্তে দুনিয়াতে যা ঘটছে সবই ডাটা বা তথ্য। সহজ না? ফেসবুক স্ট্যাটাস দিচ্ছেন, ইউটিউবে ভিডিও আপলোড করছেন, কোথাও রেজিস্ট্রেশন করছেন, কোন জরিপ করছেন, দৈনিক ঘটে যাওয়া কিছু ঘটনা রেকর্ড করে রাখছেন এসবই ডাটা। আবার গবেষকগণ তাদের গবেষণার বিভিন্ন ধাপে নানা রকম তথ্য পাচ্ছেন এবং সেগুলোর লগ রাখছেন, আবহাওয়া অধিদপ্তর প্রতিদিনকার তথ্য কোথাও জমা করছে, দুর্গম কোন এলাকায় ডেপলয় করা কোন সেন্সর বা রোবট ডাটা সেন্স করে রেকর্ড করে যাচ্ছে এসবও ডাটা। কোন সুপার শপে ঘটে যাওয়া সব ট্র্যাঞ্জেকশন, ব্যাংকে ঘটমান বিভিন্ন ক্রেতা বিক্রেতার ট্র্যাঞ্জেকশন, অনলাইনে ক্রেডিট কার্ড ইউজ করে কেনা কাটা এসবও ডাটা। আরও উদাহরণ লাগবে?

সিরিয়াস কথা হচ্ছে – datum ল্যাটিন শব্দ থেকেই Data শব্দের উৎপত্তি। datum কিন্তু সিঙ্গুলার ফর্ম। data হচ্ছে এর প্লুরাল ফর্ম। তো, datum মানে হচ্ছে সিঙ্গেল কোন এন্টিটি বা সিঙ্গেল কোন একটা ঘটনার অবস্থান(বিন্দু)। এজন্য datum কে data points বলা হয়। তার মানে, data দিয়ে আসলে অনেক গুলো data points কেই বোঝানো হয়। টেকনিক্যালি Data কে Dataset হিসেবেও লেখা হয়। তাই Dataset মানেও হচ্ছে কিছু Data Point এর কালেকশন। যাই হোক খুশির খবর হচ্ছে, বর্তমানে Data শব্দকে একবচন বা বহুবচন দুভাবেই প্রকাশ করা হয়। ঝামেলা কম।

আবার বলি, ডাটা হচ্ছে কালেকশন অফ ফ্যাক্টস যেমন নাম্বার, শব্দ, পরিমাণ, পর্যবেক্ষণ এমনকি কোন কিছুর বর্ণনা। দুরকম ডাটা আছে – কোয়ালিটেটিভ ও কোয়ান্টিটেটিভ। আমার অনেক টাকা আছে, ওর চুল অনেক লম্বা; এসব কোয়ালিটেটিভ ডাটার উদাহরণ। দ্বিতীয় প্রকারের ডাটা আবার দু রকম হয় – ডিসক্রিট এবং কন্টিনিউয়াস। আমার দুটো পা, তার কাছে ১০০ টাকা আছে এগুলো ডিসক্রিট এবং সে ৫৬৫ মিলিমিটার লম্বা, আজ ২৩ মিমি বৃষ্টি হয়েছে এসব কন্টিনিউয়াস ডাটার উদাহরণ।

ডাটার ধরন
ডাটার কিছু বৈশিষ্ট্য আছে যেগুলো নিচের মত –

১) অনেক বিশাল পরিমাণে হতে পারে – আর তাই এসব অ্যানালাইসিসের জন্য ঠিক করা অ্যাল্গরিদমকে স্কেল্যাবল হতে হবে। নাহলে দেখা যাবে আপনার অ্যালগরিদম কম ডাটার উপর ঠিকি দ্রুত কাজ করতে পারে কিন্তু বেশি ডাটা নিয়ে হিসাব করতে গেলেই হ্যাং হয়ে বসে থাকে। (কমপ্লেক্সিটি অফ অ্যালগরিদম এর দরকার মনে পরে যাবে)

২) হাই ডাইমেনশনালিটি – ডাটা হতে পারে হাজার হাজার ডাইমেনশন সম্পন্ন। হুম হাজার হাজার।

৩) খুবি জটিল প্রকৃতির – যেমন সেন্সর ডাটা, বিভিন্ন ডাটা স্ট্রিম (সাউন্ড), টাইম সিরিজ ডাটা, টেম্পরাল ডাটা, সিকোয়েন্স ডাটা ইত্যাদি। মাল্টিমিডিয়া ডাটা, টেক্সট বা ওয়েব ডাটা। গ্রাফ ডাটা বা সোশাল নেটওয়ার্ক ডাটা ইত্যাদি ইত্যাদি।

এতদিন শুনেছেন খনি খুরে শুধু দামি দামি জিনিসপত্র তুলে আনা হয়। তাই মাইনিং মানেই মনে হয় যে – অনেক মূল্যবান সম্পদ আহরণের কথা বলা হচ্ছে। বাস্তবে যেমন সাধারণ দেখতে একটা মরুভূমির অতল গহিনে জমে থাকতে পারে তেল, কয়লা, সোনা সহ আরও নানা রকম মহা মূল্যবান জিনিষ পত্র। তেমনি অগোছালো ডাটার মধ্যেও লুকিয়ে থাকতে পারে খুবি মূল্যবান কোন তথ্য। তাই এই বিজ্ঞানে এটাকেও মাইনিং বলা হয়।

ডাটা সায়েন্স এর সাথে ডাটা মাইনিং ওতপ্রোতভাবে জড়িত এবং একটা আরেকটার পরিপূরক। তাই এই অবস্থায় ডাটা মাইনিং এর প্রসঙ্গ নিয়ে আসা।

যাই হোক, ডাটা মাইনিং এর পুঁথিগত সংজ্ঞা হচ্ছে এরকম – “Extraction of interesting (non‐trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data.”

বুঝতে পারছি 🙂

এর অনেক বিকল্প নামও থাকতে পারে যেগুলো শুনে ঘাবড়ানোর কিছু নাই। যেমন – Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence ইত্যাদি। এখন বুঝলেন তো? সব হচ্ছে নামের বাহার। ঘটনা তেমন কিছু না।

KDD বা নলেজ ডিসকভারি প্রসেস

এই প্রসেসের কিছু গুরুত্ব পূর্ণ ধাপের বর্ণনা নিচে দেয়া হল –

প্রথমেই কোন ডাটাবেইজ থেকে ডাটা উদ্ধার করা হবে ->
অতঃপর সেই ডাটা গুলোকে ক্লিন করা হবে অর্থাৎ ডাটার মধ্যেকার ভুল, মিসিং ডাটা ইত্যাদি ঠিক ঠাক করা হবে ->
এরপর সেই পরিষ্কার ডাটা কে ডাটা অয়্যারহাউজে জমা করা হবে অর্থাৎ যেখান থেকে পরবর্তী ধাপে ব্যবহার করা যাবে ->
এরপর ওই ডাটা স্টোর থেকে শুধুমাত্র আমাদের উদ্দেশ্য সাধনের প্রেক্ষিতে যে ডাটা গুলো লাগবে সেগুলোকে বেছে নেয়া হবে যাকে বলে টাস্ক রেলিভেন্ট ডাটা বেছে নেয়া ->
এরপর বস্তুত ডাটা মাইনিং ঘটে বিভিন্ন অ্যালগরিদম বা টেকনিকের মাধ্যমে ->
শেষে যে প্যাটার্ন বা মূল্যবান তথ্য পাওয়া যাবে সেটাকে এভালুয়েট বা বিচার/পর্যবেক্ষণ করা হবে

কি করছি
ডাটার ভিউ মানে হচ্ছে – কি ডাটা নিয়ে কাজ করছি তা ঠিক থাকতে হবে, কি নলেজ (সম্পদ) উদ্ধার করার জন্য কাজে নামলাম সেটা ঠিক থাকতে হবে, কি টেকনিক আপ্লাই করে এই কর্ম সম্পাদন করা হবে তাও ঠিক রাখতে হবে এবং কোন সেক্টরে এই উদ্ধারকৃত সম্পদ কাজে লাগানো হবে সেটাও পরিষ্কার থাকতে হবে।

ডাটা মাইনিং ফাংশন
১) জেনারেলাইজেশন – ডাটা ক্লিনিং, ট্রান্সফরমেশন, ইন্টিগ্রেশন বা ডাটা অয়্যারহাউজ তৈরি ইত্যাদি কাজ ২) প্যাটার্ন ডিসকভারি ৩) ক্লাসিফিকেশন ৪) ক্লাস্টার অ্যানালাইসিস ৫) আউটলায়ার এনালাইসিস ৬) টাইম ও অর্ডারিং ৭) স্ট্রাকচার এনালাইসিস

Youth Carnival: