প্রতিনিয়ত প্রায় সব জায়গা থেকে বিভিন্ন রকমের ডাটা উৎপন্ন হচ্ছে। আর এই ডাটা গুলোর উৎপন্নের হার দিন দিন বেড়েই চলছে। IBM এর মতে, প্রতিদিন প্রায় ২.5 বিলিয়ন গিগাবাইট (জিবি) ডাটা উত্পন্ন হতো ২০১২ সালে। Forbes এর আর্টিকেল এ বলা হয় ডাটা উৎপন্নের হার আগের তুলনায় আরো বৃদ্ধি পাবে এবং ২০২০ সালের পরের থেকে প্রতিটি মানুষ ১.৭ মেগাবিট নুতুন ডাটা উৎপন্ন করবে।
আর্টিকেল টা শুরু করার আগে একটু বলে নেই যে ডাটা সাইন্স, বিগ ডেটা এবং ডাটা এনালাইটিক্স একে ওপরের সাথে অত্তপতভাবে সম্পর্ক আছে।
ডাটা সাইন্স কী?
ডেটা সায়েন্স একটি ক্ষেত্র যা বিভিন্ন ধরণের তথ্য সংশ্লেষ, প্রস্তুতি এবং বিশ্লেষণের সাথে সম্পর্কিত এবং বিভিন্ন ধরণের ফরমেটের ডাটা নিয়ে কাজ করা হয় ( স্ট্রাকচার, সেমি – স্ট্রাকচার, আনস্ট্রাকচার)। ডেটা সায়েন্স পরিসংখ্যান, গণিত, প্রোগ্রামিং, সমস্যা সমাধান, কৃত্তিম উপায়ে তথ্য সংগ্রহ এবং ডাটা শুদ্ধকরণ, প্রস্তুতি এবং সমন্বয় করা হয়।
আমরা যদি সহজে বলতে চাই ডাটা সাইন্স কি? তাহলে আমরা বলতে পারি যে, এটা এক ধরণের মেশিন যেখানকার যেটা টেকনোলোজি ব্যবহার করে আমরা বিভিন্ন ধরনের ডাটা থেকে আমরা মূল্যবান কিছু ডাটা/তথ্য বের করতে পারি। মূল্যবান তথ্যের একটা উদাহরণ হলো যে গুগল ম্যাপ এ ট্রাফিক জ্যাম ।
বিগ ডেটা কী?
বিগ ডেটা, ডেটাসমূহের বিশাল পরিমানকে নির্দেশ করে যা প্রথাগত অ্যাপ্লিকেশনগুলি তে কার্যকর করা যায় না। বিগ ডাটা কে যদি আমরা সংজ্ঞায়িত করি তাহলে বলতে পারি যে ডাটার পরিমান অনেক বেশি থাকে, ডাটা গুলোর উৎপন্নের হার অনেক বেশি, ডাটাগুলোর নির্দিষ্ট কোনো ফরমেটে থাকে না কারণ ফরমেট গুলো প্রতিনিয়ত বদলাতে থাকে। বিগ ডাটা উৎপন্নের একটা উৎপাদনের জায়গা হলো Facebook. Facebook এ কেউ স্ট্যাটাস আপডেট দিচ্ছে, কেউ ছবি আপলোড দিচ্ছে আবার কেউ ভিডিও শেয়ার করছে। পৃথিবীর খুব কম দেশ আছে যেখানে ব্যবহার করা হয় না বা নিষিদ্ধ করা হয়েছে। এখন মনে করুন যে প্রতিটি দেশ থেকে প্রতি সেকেন্ডে কতো গুলো স্ট্যাটাস, ছবি, ভিডিও আপলোড হচ্ছে এবং এই ডাটা গুলোর পরিমান অনেক বেশি যা হয়তো সাধারণত ভাবি না।
ডাটা এনালাইটিক্স কী?
ডাটা এনালাইটিক্স হলো একটা নির্দিষ্ট পরিমান ডাটা থেকে মূল্যবান তথ্য/ডাটা বের করার উপায়। মনে করুন আপানার একটা অনলাইন শপিং ওয়েব সাইট আছে যেখানে থেকে কাস্টমাররা বিভিন্ন প্রোডাক্ট কিনতে পারে। শপিং ওয়েব সাইটটি যেভাবে চালাতে চাচ্ছিলেন কিন্তু সেরকম চলছে না কারণ আপনি বুঝতেই পারছে না যে আপনার কাস্টমার কি প্রোডাক্ট চাচ্ছে। আপনি এই সাইটের কাস্টমার কোন প্রোডাক্ট বেশি দেখেন সেটা বের করে যদি কাস্টমারের সামনে রাখতে পারেন তাহলে আপনার প্রোডাক্টের বিক্রি বেশি। আপনি যদি ফেইসবুক বেবহার করেন তাহলে ওই ব্রাউসার থেকে একটা শপিং সাইট এ গিয়ে একটা যেকোনো প্রোডাক্ট দেখে আসুন তারপর দেখবেন প্রোডাক্টের এডঃ আপনার ফেসবুকের হোম পেজ এ চলে আসছে আর এটাই হলো ডাটা এনালাইটিক্স।
এদের ব্যবহার কোথায়?
ডাটা সাইন্স এর ব্যবহার :
ইন্টারনেট সার্চ: ডাটা সাইন্স সার্চ ইঞ্জিন-গুলোতে ব্যবহার করা হয় যাতে সেকেন্ডেরও কম সময়ে সবচেয়ে ভালো ফলাফল ব্যবহারকারী সামনে দিতে পারে।
ডিজিটাল বিজ্ঞাপন: ডিজিটাল বিল বোর্ডগুলি থেকে শুরু করে বিভিন্ন ওয়েবসাইটের ডিসপ্লে ব্যানার প্রায় সকল কাজে ডাটা সাইন্স এলগোরিদম ব্যবহার করে করা হয়।
রিকমেন্ডের সিস্টেম: এটার উদাহরণ Amazon-এর চেয়ে আর ভালো কিছু হতে পারে না। তারা শুধু আপনার পছন্দের সাথে সম্পর্কিত জিনিসগুলো তুলে ধরে না সাথে সাথে বিভিন্ন মানুষের অভিজ্ঞতার কথাও তুলে ধরে সেটা তারা ডাটা সাইন্স-আর মাধ্যমে করে থাকে।
বিগ ডাটার ব্যবহার:
স্বাস্থ্যসেবা: ঔষধ এবং স্বাস্থ্যসেবা ক্ষেত্রে বিগ ডাটার ব্যবহার দিন দিন বেড়েই চলছে। বিগ ডাটার মাধ্যমে রোগীর আগের মেডিকেল রিপোর্ট রাখা হয় এবং খুব সহজেই খুঁজে কাজে লাগানো যায়। এ জন্য স্বাস্থ্য সেবা খরচ দিন দিন কমছে।
সরকারি খাত: সরকারি তদন্ত বিভাগ, বিদ্যুৎ সংযোগ/বিচ্ছিন্ন অনুসন্ধান, অর্থনৈতিক প্রচারের তদন্ত এবং পরিবেশগত বিভিন্ন তদন্তসহ অনেক খাতে বিগ ডাটা ব্যাপক সুযোগ সুবিধা প্রদান করে।
ডাটা এনালাইটিক্স এর ব্যবহার:
নিরাপত্তা: বর্তমানে বিশ্বের অনেক শহরেই ডাটা এনালাইটিক্স-এর মাধ্যমে বিভিন্ন অপরাধে জড়িয়ে পড়ার আগেই তথ্য পেয়ে যায় এবং অপরাধ গুলোকে দমন করা হয়।
পরিবহন:টিএফএল এবং ট্রেন অপারেটরদের ডাটা এনালাইটিক্স-এর মাধ্যমে সহজেই অনেক যাত্রা পরিচালনা করা হয়। কয়েক বছর আগে, লন্ডন অলিম্পিকে, লন্ডন শহরের ভক্তদের জন্য 18 মিলিয়নেরও বেশি যাত্রা পরিচালনা করার প্রয়োজন ছিল এটা শুধুমাত্র ডাটা এনালাইটিক্স-এর জন্য সমাধান হয়েছিল।
প্রতারণা এবং ঝুঁকি সনাক্তকরণ: ডাটা এনালাইটিক্স-এর মাধ্যমে আমরা সহজেই প্রতারণা মূলক জিনিস গুলো সনাক্ত করতে পারি এবং কোন কাজ কেমন ঝুঁকি হতে পারে তাও জানতে পারি।
ঝুঁকি ব্যবস্থাপনা: ডাটা এনালাইটিক্স-এর মাধ্যমে আমরা যেমন কোনো কাজের ঝুঁকি বুঝতে পারি তেমনি কি করলে এই ঝুঁকি কমবে এটাও জানতে পারবো।
ওয়েব প্রভিশন: আমরা যদি কোনো শহর কে “স্মার্ট সিটি” বলি তাহলে সেই শহর-এ তাদের সরকার বা তাদের উপস্থিত সংস্থাগুলি দ্রুত ইন্টারনেট স্পীড সরবরাহ করে থাকে। কিন্তু সেই শহরের মানুষ যদি তাদের ওয়েব শুধুমাত্র ফেসবুক বা ইউটিউবে জন্য ব্যবহার করে তাহলে তাদের সেই বড় কে আমরা “স্মার্ট সিটি” বলতে পারি না।
পেশা হিসেবে বেছে নিলে কি কি যোগ্যতা থাকা দরকার?
ডাটা সায়েন্টিস্ট হওয়ার যোগ্যতাঃ
শিক্ষা: 88% মাস্টার্স ডিগ্রী এবং 46% পিএইচডি ডিগ্রী
SAS এবং R For Data Science সম্পর্কে গভীর জ্ঞান থাকতে হবে। R ডাটা সায়েন্টিস্টদের পছন্দের একটি প্রোগ্রামিং ল্যাংগুয়েজ।
পাইথন কোডিং: পাইথন হল সবচেয়ে প্রচলিত প্রোগ্রামিং ল্যাংগুয়েজ যা ডাটা সাইন্স এ ব্যবহার করা হয় এবং এর সাথে জাভা, পার্ল, সি / সি ++ ও ব্যবহার করা হয়।
ডাটা সায়েন্টিস্টদের Hadoop সম্পর্কে ভালো ধারণা থাকতে হবে। Hadoop হলো একটি টুল, যার মাদ্ধমে বিশাল পরিমানের ডাটা নিয়ে কাজ করা যায়। Hive আর Pig নিয়ে কাজ করার অভিজ্ঞতা থাকতে হবে।
SQL ডাটাবেস / কোডিং: যদিও No-SQL এবং Hadoop ডাটা সাইন্স ব্যাকগ্রাউন্ডের একটি প্রধান অংশ হয়ে গেছে, কিন্তু যদি আপনি SQL -এ জটিল কুয়েরি লিখতে এবং সঞ্চালন করতে পারেন তবে এটি আপনার জন্য প্লাস পয়েন্ট।
Unstructure ডাটার সাথে কাজ করা: ডেটা সায়েন্টিস্টদের সবচেয়ে গুরুত্বপূর্ণ একটি কাজ হলো সার্চ ইঞ্জিন,সোশ্যাল মিডিয়া, ভিডিও বা অডিও-এর Unstructure ডাটা গুলোর সাথে কাজ করতে সক্ষম হওয়া।
বিগ ডাটা স্পেশালিস্টস হওয়ার যোগ্যতাঃ
আপনার বিশ্লেষণাত্মক দক্ষতা থাকতে হবে। কারণ বিশ্লেষণাত্মক ক্ষমতা দিয়ে, আপনি আপনার সমাধানের জন্য কোন ডেটা প্রাসঙ্গিক তা নির্ধারণ করতে সক্ষম হবেন, যেমন প্রবলেম সলভিং।
সৃজনশীলতা: এই কাজে আপনাকে আপনার সৃজনশীলতার প্রমাণ দিতে হবে। ডাটা সংগ্রহের কৌশল, ব্যাখ্যা এবং বিশ্লেষণ করার জন্য আপনাকে নতুন নুতুন পদ্ধতি তৈরি করার ক্ষমতা থাকতে হবে। বিগ ডাটা নিয়ে কাজ করতে গেলে এই দক্ষতা আপনাকে দেখাতেই হবে।
গণিত এবং পরিসংখ্যান-এ আপনার অনেক ভালো দক্ষতা থাকতে হবে।
বিগ ডাটায় অনেক গুরুত্বপূর্ণ ভূমিকা পালন করে কম্পিউটার সাইন্স। কারণ এখানে প্রোগ্রামার- দের তৈরি করা এলগোরিদম ব্যবহার করা হয় ডাটা গুলো নিয়ে কাজ করার জন্য।
বিগ ডাটায় ব্যবসার দক্ষতার প্রয়োজন হয়। কারণ বিশাল পরিমানের ডাটা গুলোর মধ্যে থেকে আপনার কোন ডাটা গুলো মূল্যবান ডাটা এটা বের করার আপনার জন্য আপনার ব্যবসার দক্ষতা থাকতে হবে।
ডেটা এনালাইটিক্স হওয়ার যোগ্যতাঃ
প্রোগ্রামিং দক্ষতা: প্রোগ্রামিং ল্যাংগুয়েজ গুলি সম্পর্কে ভালো ভাবে জানতে হয় আর ডেটা এনালাইটিক্স জন্য Python এবং R অত্যন্ত গুরুত্বপূর্ণ।
গণিত এবং পরিসংখ্যান-এ আপনার অনেক ভালো দক্ষতা থাকতে হবে।
মেশিন লার্নিং সম্পর্কে ভালো দক্ষতা থাকতে হবে।
ডাটা কমিউনিকেশন এবং ডাটা ভিজ্যুয়ালাইজেশন দক্ষতা থাকতে হবে।
আর সব চেয়ে গুরুত্পূর্ণ হলো একজন প্রোফেশনাল ডাটা এনালিস্টস মতো চিন্তা করার ক্ষমতা থাকতে হবে।
এবার তাদের বেতন নিয়ে একটু বলি:
যদিও তারা একই ডোমেনে কাজ করে তবুও ডাটা সায়েন্টিস্ট , বিগ ডাটা স্পেশালিস্টস এবং ডাটা এনালিস্টসরা ভিন্ন বেতন উপার্জন করে।
Source: Average Salary
Indeed.com-এর মতে বর্তমানে একজন ডাটা সায়েন্টিস্ট-এর গড় আয় প্রতি বছর প্রায় $১২৩,০০০ এবং Glassdoor-এর মতে গড় আয় $১২০,০০০।
Glassdoor-এর মতে একজন বিগ ডাটা স্পেশালিস্টস এর আয় গড় প্রায় $৫০,৪৭০ প্রতি বছর।
Glassdoor-এর মতে একজন ডাটা এনালিস্টস এর আয় গড় প্রায় $৬৫,৪৭০ প্রতি বছর।
Written By
Joy Roy
Department of Software Engineering
Daffodil International University