ধরুন আপনি ঢাকায় বাস করছেন , অনেক সময় সময়ের মধ্যে গন্তব্যে পৌঁছাতে উবার কিংবা পাঠাও ব্যবহার করছেন। অথবা, মুদি বাজার করতে যেতে পারছেন না ব্যাস্ততার জন্য , আপনার সমস্যা সমাধান করে দিচ্ছে চালডাল ডট কম। বসন্তের বিকালে মন চাইতেছে লিঙ্কিং পার্কের সং শুনতে , ফোন থেকে ইউটিউব ওপেন করলেন। কি আশ্চর্যের ব্যাপার ! আপনার সাজেস্টেড গান হিসেবে “castle of glass” চলে এসেছে।
উদহারণ গুলো বললাম , দেখুন আমরা প্রতিদিন টেকনোলজির উপর কত নির্ভর করে থাকি। আর টেকনোলজি গুলো আমাদের লাইফ স্টাইলকে সহজ করে দেয়। তারা এই যে পার্সোনালাইজড সার্ভিস দিচ্ছে এটা কিন্তু শুধু ডাটার উপর বেস করে ! কাজেই আমরা বলতে পারি “আমরা যেখানেই থাকি, চলি না কেন ডাটার ব্যবহার সব জায়গায়” .
ডাটার ব্যবহার প্রতি বছর দ্বিগুন হারে বেড়েই চলেছে এবং ডাটার ব্যবহার বাড়ার সাথে সাথেই ডাটা জেনারেশন রেট কয়েক গুন্ বেড়ে গিয়েছে। ডাটার গ্রোথ রেট সম্পর্কে IBM তাদের একটি রিপোর্ট বলেছে, ২.৫ বিলিয়ন গিগাবাইট ডাটা প্রতিদিন তৈরী হয়েছে ২০১২ সালে [১]। ডাটার জেনারেশন এত বেশি যে , ফোর্বস তাদের একটি আর্টিকলে দেখিয়েছেন ২০২০ সালের মধ্যে প্রতিটি মানুষ প্রতি সেকেন্ডে ১.৭ মেগাবাইট ডাটা তৈরী করবে [২]। স্ট্যাটিসটিক্স গুলো থেকেই আমরা ডাটার ফিউচার পাওয়ার সম্পর্কে একটি গুরুত্বপূর্ণ ধারণা পাচ্ছি।
আজকের আর্টিকেলটিতে ডাটা সায়েন্স , বিগ ডাটা এবং ডাটা এনালিটিক্স সম্পর্কে আলোচনা করবো। কোথায়, কিভাবে টার্মগুলি ব্যবহার হয় , জব কেমন এবং স্যালারি সম্পর্কে একটি ধারণা দেওয়ার চেষ্টা করবো।
ডাটা সায়েন্স:
মূলত বিভিন্ন টাইপ ডাটা যেমন – স্ট্রাকচার , আনাস্ট্রাকচার , সেমী -স্ট্রাকচার ডাটা নিয়ে ডাটা ক্লিন , ডাটা প্রিপারেশন (Tidy Data), এবং ডাটা এনালাইসিস করা হয় ডাটা সায়েন্স ফিল্ডে। স্ট্যাটিসটিক্স, ম্যাথ, প্রোগ্রামিং , প্রব্লেম সলভিং এবং ডাটা কালেকশন টেকনোলজির সম্মিলিত রূপই হলো ডাটা সায়েন্স ট্র্যাক। সাধারণ ভাবে যদি বলি, ডাটা সায়েন্স একটি আমব্রেলা টেকনিক , যার মাধ্যমে ডাটা থেকে বিসনেস ইনসাইট কিংবা ইনফরমেশন বের করা হয়।
বিগ ডাটা:
বর্তমানে চতুর্থ ইন্ডাস্ট্রিয়াল বিপ্লব বলা হচ্ছে খুব হৈচৈ করেই। আর এই বিপ্লবটা মূলত বিগ ডাটাকে ঘীরেই। বিগ ডাটা বলতে , যে ডাটার পরিমান ভলিউম স্কেল পরিমান , ডাটাগুলোতে ভেলোসিটি থাকবে (rapid procreation), ডাটাগুলো বিভিন্ন টাইপ হবে এবং এই ডাটাগুলো থেকে বিসনেস ইনসাইট আসবে। বিগ ডাটা , ডাটার জেনারেশন এবং বিভিন্ন চ্যালেঞ্জ সম্পর্কে বিস্তারিত ধারণা পেতে আমার প্রকাশিত একটি রিসার্চ আর্টিকেল পড়তে পারেন [৩]
ডাটা এনালিটিক্স:
ডাটা এনালিটিক্স কে আমরা যদি এক কোথায় বলতে চাই , RAW ডাটা থেকে এক্সপ্লোরেটোরী ডাটা এনালাইসিস এর মাধ্যমে একটি সিদ্ধান্তে পৌঁছানোর প্রক্রিয়া। বিভিন্ন ডাটা মাইনিং/ মেশিন লার্নিং এলগোরিদম পরিচালনা করে কোনো ডাটা থেকে বিসনেস ডিসিশনে আসা হয় এই ডাটা এনালিটিক্স ধাপে।
ডাটা সায়েন্স ফিল্ডের সবচেয়ে বেশি এপ্লিকেশন হলো – ইন্টারনেট সার্চে , সার্চ ইঞ্জিনগুলো ডাটাকে ব্যবহার করে একদম সঠিক এবং ইফিসিয়েন্ট সার্চ রেজাল্ট শো করছে। আপনার সার্চ করা ইন্টারনেট হিস্টোরি/কোকি থেকে বিভিন্ন কোম্পানি তাদের টার্গেটেড কাস্টমার হিসেবে ডিজিটাল প্রচারণা চালাচ্ছে। আরো একটি ইম্পরট্যান্ট ফিল্ড হলো , রিকমেন্ডেশন সিস্টেম। ধরুন, আপনি আমাজন এ ক্যামেরা সার্চ করেছেন ? আমাজন আপনাকে ক্যামেরার সাথে লেন্স/ট্রাইপড সাজেস্ট করতেছে। শুধু কি তাই , আপনি হয়তো ক্যামেরা সার্চ করেছিলেন সাথে ব্যাকপ্যাক হিসাবে কিছু প্রোডাক্টও দেখেছিলেন। আপনাকে আমাজন ২০% অফার করতেছে যদি ব্যাকপ্যাক কিনেন। কিংবা আপনার ফেইসবুক ওয়াল এ বুকিং ডট কমের অ্যাড চলে আসলো , আপনার দেশের আসেপাশের দেশের প্লেসগুলো সাজেস্টেড সহ।
বিগ ডাটার এপ্লিকেশন আরো ইন্টারেষ্টিং , আজকে সব ধরণের সেক্টর এ বিগ ডাটার ইউজ বেড়েই চলেছে। ফ্রড এনালাইসিস , কাস্টমার এনালিটিক্স , অপারেশনাল এনালিটিক্স , স্মার্ট সিটি /কার ইত্যাদি সব কিছুই বিগ ডাটা এনালাইসিস এর ফলে অনেক সহজ হয়ে দাঁড়িয়েছে। একটি উদহারণ দিলে খুব সহজে বুঝা যাবে, ২০০৬ সালের দিকে ইউনিলিভার ২০০$ মিলিয়ন ডলার কম ব্যয় করতে পেরেছে শুধু বিগ ডাটা এনালাইসিস এর মাধ্যমে [৪]। এখন প্রশ্ন উঠতে পারে কিভাবে ? আপনার সোশ্যাল মিডিয়ার ডাটা তাদের কাছে আছে। আপনি কিধরনের প্রোডাক্ট ইউজ করতেছেন অথবা তাদের প্রোডাক্টগুলোতে কেমন রিয়েক্ট করতেছেন , সেন্টিমেন্ট এনালাইসিস করে তারা একটি ডিসিশনে আসতেই পারে।
অপরদিকে ডাটা এনালাইসিস এর এপ্লিকেশন নিয়ে যদি আমরা ভাবি , তবে দেখতে পারবো সব জায়গায় কম বেশি ডাটা এনালাইসিস ছাড়া চলেই না। IOT বেসড এপ্লিকেশনগুলো তো ডাটার উপরই নির্ভর করছে। ডাটার অনেক বড় এরিয়া হলো, হেলথ কেয়ার ! রোগ জীবাণু আগেই প্রেডিক্ট করা হচ্ছে এখন অনেক বেশিই। কিংবা কোনো একটি মহামারী দেখা দিলো সেটার অগ্রিম প্যাটার্ন সম্পর্কে বলে দিচ্ছে এলগোরিদম। ২০০৯ সালে গুগল এইরকম একটি মহামারী থেকে বাঁচিয়েছিলেন আশেপাশের ডাইজেস্টার সেন্টারগুলোকে আগে থেকেই অবহিত করে। আমরা বিভিন্ন রকম ক্রনিক রোগও অনেকটা আয়ত্ত্বের মধ্যে আনতে পারতেছি শুধু ডাটার প্রজ্ঞার মাধ্যমে। রোগ জীবাণু আগে কিভাবে প্রেডিক্ট করে এ সম্পর্কে আমারই একটি পাবলিকেশন একনজরে দেখে নিতে পারেন [৫]
ট্রাভেল , গেমিং এবং এনার্জি ম্যানেজমেন্ট ফিল্ডে ডাটা এনালাইসিস এখন ব্যাপক ভাবে ব্যবহার করছে। ধরুন, আপনি বাসায় নেই , কিন্তু লাইট অথবা ফ্যান চালু করে গিয়েছেন। মোশন সেন্সর মোশনকে ট্র্যাক করে জানাবে রুম এ কেউ নাই ! কাজেই লাইট অথবা ফ্যান অফ হয়ে যাবে। অথবা যে সেন্সরগুলো দরকার নাই সেগুলো স্লীপ মুড এ চলে যাবে।
ডাটা সাইন্টিস্ট এবং এনালিস্ট হতে আপনাকে কিছু বিষয়ে খুব ভালো জ্ঞান অর্জন করতে হবে। স্কিলগুলো –
– এডুকেশন: ৮৮% এর মাস্টার্স ডিগ্রী এবং ৪৬% এর পিএইচডি ডিগ্রী আছে।
-প্রোগ্রামিং: R /পাইথনে, SQL, NOSQL এ এক্সপার্ট হতে হবে। (পাশাপাশি অন্য ল্যাঙ্গুয়েজ জানলে প্লাস)
– হাডুপ প্লাটফর্ম: হাডুপ টেকনোলজি এবং সাথে Hive ও Pig সম্পর্কে ভালো ধারণা থাকতে হবে।
– ম্যাথ এবং স্টাটিস্টাকাল স্কিল
– মেশিন লার্নিং/ ডিপ লার্নিং এলগোরিদম
– ডাটা কালেকশন এবং প্রসেসিং এ ভালো জ্ঞান রাখতে হবে। (যেমন: mapreduce কিংবা প্যারালাল কম্পিউটিং সম্পর্কে ধারণা থাকলে আপনি এগিয়ে থাকবেন)
– ডাটা Visualization স্কিল
– কমিউনিকেশন এবং বিসনেস স্কিল।
স্কিল নিয়ে কথা বলার পর স্বাভাবিক ভাবেই স্যালারির কথা চলে আসে। বর্তমানে ওয়ার্ল্ডওয়াইড হট জব গুলোর মধ্যে ডাটা সায়েন্টিস্ট /এনালিস্ট।/ইঞ্জিনিয়ার অনেকদিন ধরেই সামনের দিকে আছে। ইনডিড ডট কম বলছেন , ডাটা সায়েন্টিস্টদের অ্যাভারেজ স্যালারি বছরে ১২৭,৭৭১$ [৬] এবং গ্লাসডোর বলছে, $১১৭,৩৪৫ [৭]। বিগ ডাটা এনালিস্ট এবং ডাটা এনালিস্টদের গড় স্যালারী আরো একটি রিপোর্টে গ্লাসডোর বলেছে, $৬২০৬৬ এবং $৬০৪৭৬।
আর্টিকেলটি দিয়ে একটি ওভারঅল ধারণা দেওয়ার চেষ্টা করেছি। বিস্তারিত জানতে অবশ্যই ইয়ুথ কার্নিভালের সাথেই থাকুন।
Written By
Razu Ahmed Rony
Researcher
Idea & Innovation Manager, Youth carnival
FB: https://www.facebook.com/razuswe
LinkedIn: https://www.linkedin.com/in/razuse/
রেফারেন্স:
১. https://www.bbc.com/news/business-26383058
২.https://www.forbes.com/sites/bernardmarr/2015/09/30/big-data-20-mind-boggling-facts-everyone-must-read/#525eedf617b1
৩. https://www.sciencepubco.com/index.php/ijet/article/view/12113
৪. https://link.springer.com/article/10.1007/s11036-013-0489-0
৫. https://dl.acm.org/citation.cfm?id=3297737#
৬. https://www.indeed.com/salaries/Data-Scientist-Salaries
৭. https://www.glassdoor.com/Salaries/us-data-scientist-salary-SRCH_IL.0,2_IN1_KO3,17.htm