আমরা আগের পর্বগুলোতে বিগ ডাটার এপ্লিকেশন ও কিছু টিপিক্যাল এক্সাম্পল দেখেছি। আজকে আমরা বিগ ডাটার কোর থিংস নিয়ে কথা বলবো পুরো পর্ব জুড়ে। যদি আগের দুইটি পর্ব আপনারা মিস করে থাকেন তবে এক নজরে দেখে নিতে পারবেন , তাহলে আজকের লেখাটা বুজতে অনেক সহজ হবে।
পর্ব ১ : বিগ ডাটার শুরুর গল্প -১
পর্ব ২: বিগ ডাটার শুরুর গল্প – ২
ইকোনোমিস্ট বিগ ডাটা নিয়ে তাদের একটা বিশ্লেষণ খুবই জনপ্রিয় , বিশ্লেষণটি ছিল এমন, এখনকার সময়ে বিজনেস এর কাঁচামাল হল ডেটা ।
বিগ ডাটা নিয়ে এত কথা বলি আসলে কি এটা? এই প্রশ্নের উত্তর পাবার আগে আমরা ছোট একটা বিশ্লেষণ করে আসি ,
আমরা ডাটা কে দুইভাগে ভাগ করি। ১) ছোট ডাটা অথবা স্মল ডাটা , ২) বড় ডাটা অথবা বিগ ডাটা। আমরা যে নরমাল কম্পিউটার ব্যবহার করে থাকি তাতে র্যামের সাইজ খুব একটা বেশি থাকে না যেমন ৪ গিগা অথবা ৮ গিগা থেকে থাকে। এখন আমাদের ডাটাগুলো যদি এই পরিমান র্যামের সাথে ফিট থাকে তবে আমরা তাকে স্মল ডাটা বলতে পারি আর যদি ওভারফ্লো হয়ে যাই তখন আমরা বিগ ডাটা বলতে পারি। হয়তো ভাবতে পারেন এটা কি ধরণের মজা ! না আমি মজা করিনি, যে ডেটা গুলো সহজে Receive, acquire,manage and process করা যায় না তাই বিগ ডাটা । আচ্ছা, আমরা একটু পরেই বিষয়টা নিয়ে বিস্তারিত জানবো।
এখন আসি বিগ ডাটা নিয়ে কেন আমরা মাতামাতি করছি ? যেহেতু এত আলোচিত একটা বিষয় অবশ্যই ব্যাকগ্রাউন্ড কিছু থাকবেই ! চলুন দেখে আসি কি সেই ব্যাকগ্রাউন্ড ,
- Hidden Rich Information
- Uncovering the valuable Information
- Envisioned potential for E-Commerce, Business, and Research
এবার আসি আমাদের সেই আলোচিত বিগ ডাটার আত্মকথন নিয়ে , আমরা পুরো আত্মকথনটা জানব ৭ টি V এর মাধ্যমে। আমি আশা রাখি ৭ টি V এর মাধ্যমে বিগ ডাটার থিমটা পুরোপুরি বুজতে পারবো।
১) ভলিউম : আমরা ভলিউম বলতে বুজি হিউজ পরিমাণ ডাটা। যা সাধারণত পরিমাপ করা হয়ে থাকে Zettabytes(ZB) , Yottabytes (YB), Exabyte ইত্যাদি এককে। সুবিধার জন্য এককের চার্টটা সংযুক্ত করে দিলাম,
Source: Wikipedia
এই হিউজ পরিমান ডাটা আসলে আমরা পাচ্ছি মূলত IoT(আমাদের পরবর্তী পর্বে কথা বলবো IoT নিয়ে) ডিভাইসগুলোর ব্যাপক বৃদ্ধির জন্য। একটা ইনফোগ্রাফি দেখলেই বুজতে পারবো আমাদের কামিং ইয়ারগুলোতে ডাটার ভলিউম কেমন হবে ?
Source: CSC
২) Velocity (rapid procreation) : বিগ ডাটাই আগত সবগুলো ডাটাই গতিময়। সাধারণত কোম্পানিগুলো ডাটা এনালাইসিস করে থাকে batch প্রসেসসিং প্রক্রিয়ায়। যা কিনা খুব ধীর গতিময়। কিনতু বিগ ডাটা ফ্লো টা হচ্ছে কন্টিনিয়াস। কোম্পানিগুলো রিয়েল টাইম ডাটা এনালাইসিস এখন করে তাদের বিসনেস ডিসিশন নিতে পারছে।
৩) Variety: বিগ ডাটা প্রসেসিংয়ে চ্যালেঞ্জগুলোর মধ্যে এটা একটা। কারণ ডাটা গুলো ডিফারেন্ট টাইপ এর হয়ে থাকে। সেমি-স্ট্রাকচার ,আন-স্ট্রাকচার ,অডিও ,ভিডিও , টেক্সট, লগ, ওয়েব ডাটা , XML, JSON ইত্যাদি ধরণের ডাটা নিয়েই বিগ ডাটা। আর এই ডাটাগুলো অর্গানাইজ করা ডিফিকাল্ট কেননা, ডাটাগুলো রেপিডলী পরিবর্তন হয়।
৪) Variability: Variability কিনতু Variety কনসেপ্ট থেকে সম্পূর্ণই আলাদা। একটা উদাহরণ থেকে ব্যাপারটা আমরা বুজতে পারি, মনে করি একটা কফি শপ আমাদের প্রতিদিন ৬ ব্লেন্ডের কফি অফার করে থাকে। কিনতু, প্রতিদিন আপনি একই ব্লেন্ডকে চয়েস করছেন কিনতু টেস্ট হিসাবে প্রতিদিন আলাদা টেস্ট পাচ্ছেন, এটাই Variability । Variability এমন ডাটাগুলোকে রেফার করে থাকে যা প্রতিনিয়ত বদলায়।
৫) Veracity: Veracity আমাদেরকে বিগ ডাটা থেকে প্রাপ্ত ডাটাগুলো কতটুকু নিখুঁত তা নিচ্ছিত করে।
৬) Visualization : বিগ ডাটা থেকে প্রাপ্ত ডাটাগুলোকে রিপ্রেজেন্ট করাই Visualization . এটা হতে পারে গ্রাফ কিংবা টেক্সট।
৭) Value : ভ্যালুকে আমরা গেমের শেষ অংশ হিসাবে ধরতে পারি .. বিগ ডাটার সব চেয়ে ইম্পরট্যান্ট পার্ট হচ্ছে ভ্যালু। উপরের সবগুলোই আছে কিনতু ভ্যালু নাই ,তাহলে সবাই অনর্থক। কারণ, বিসনেস লিডাররা ভ্যালু থেকেই ডিসিশন নিয়ে থাকে।
আমরা যারা বিগ ডাটা নিয়ে কাজ করতেছি তারা হয়তবা প্রবলেমগুলো দেখেছি, Structural Gap একটা ফ্যাক্ট ।আবার ডাটাগুলো কে (seamlessly & effiectively) Collect, Search, Share, Process, Analysis and Visulaize করা খুবই কঠিন । Data ডেলিভারি করার জন্য কোন পার্মানেন্ট Gateway নেই ।
By
Data Science Enthusiast
Dept. of Software Engineering
Daffodil International University