যেকোনো বিষয়ে কর্মদক্ষতা অর্জন করতে হলে প্রয়োজন একটি পরিকল্পিত ও সুচিন্তিত দিকনির্দেশনা, যা যথাযথভাবে অনুসরণ করার মাধ্যমে আপনি নিজেকে ঐ বিষয়ে দক্ষ করে গড়ে তুলতে পারবেন। তেমনিভাবে আপনি যদি নিজেকে একজন বিজ্ঞ ডেটা সাইন্টিস্ট হিসেবে প্রতিষ্ঠিত করতে চান, তবে আপনাকেও পরিকল্পিত উপায়ে সামনে অগ্রসর হতে হবে। আর এই পরিকল্পনার অংশ হতে পারে নিচের ১০ টি ধাপ। যেগুলো আয়ত্ত্ব করে আপনি হয়ে উঠতে পারেন বিশ্ব সেরা এক ডেটা সাইন্টিস্ট।
১. পরিসংখ্যান, মেশিন লার্নিং ও গনিতে দক্ষতা উন্নয়ন
একজন দক্ষ ডেটা সাইন্টিস্ট হলেন তিনি যার সফ্টওয়্যার ইঞ্জিনিয়ারদের থেকে পরিসংখ্যানে ভালো দক্ষতা আছে এবং পরিসংখ্যানবিদদের চেয়ে সফ্টওয়্যার ইঞ্জিনিয়ারিং এ বেশী পারদর্শী। অর্থাৎ আপনাকে দুটি বিষয়েই ভারসাম্যপূর্ণ জ্ঞান রাখতে হবে। কোনো একটিতে বিশেষজ্ঞ হওয়ার প্রয়োজন নেই বরং দুটিতেই বেসিক বিষয়ে ধারণা অর্জন করবেন। ডেটা সাইন্সে মেশিন লার্নিং একটু জটিল ও গুরুত্বপূর্ণ বিষয়। এটি মূলত ডেটা মডেলিং নিয়ে কাজ করে অর্থাৎ অ্যালগোরিদম ব্যবহার করে ডেটা বিন্যাস, ডেটার ধরণ আবিষ্কার ও গণনা করে থাকে। ফলে একটু সময় নিয়ে মেশিন লার্নিং আয়ত্বে আনতে হবে।
২. প্রোগ্রামিং শেখা
ডেটা সাইন্টিস্ট হতে হলে কম্পিউটারের প্রোগ্রামিং সম্পর্কে ধারণা অর্জনের বিকল্প নেই। তবে এটা মূলত স্ট্যাটিসটিক্যাল প্রোগ্রামিং জানতে হবে। এর জন্য R বা SAS বা Python এর যে কোনোটি কিংবা একাধিক ল্যাঙ্গুয়েজ সম্পর্কে জ্ঞান নিতে হবে।
৩. ডাটাবেইজ সম্পর্কে জ্ঞান অর্জন
ডেটা সায়েন্টিস্টদের কাজের প্রথম ধাপ হলো ডেটাবেইজ থেকে ডেটাকে যাচাই-বাছাই করে এনে তারপর কাজ করা। ডেটাবেইজে বিপুল পরিমাণ ডেটা স্টোর করা থাকে। কোনো একটি বিষয় নিয়ে কাজ করতে সব ডেটার দরকার হয় না। শুধু দরকারি ভ্যারিয়েবলগুলোকে নিয়ে মূল ডেটার একটি সাবসেট করে কাজ করতে হয়। সেজন্য কোয়েরি ল্যাংগুয়েজ জানতে হয়। MySQL, Postgres, MongoDB ও Cassandra এগুলোর মধ্য থেকে যেকোনো একটি শিখে আপনি ডেটাবেইজ থেকে ডেটা এনালাইসিস করতে পারবেন।
৪. বড় ডেটা নিয়ে কাজ করতে শেখা
ডেটা সায়েন্টিস্টদের প্রায়ই অনেক বড় বড় ডেটা নিয়ে কাজ করতে হয়। কত বড় ডেটা হলে সেটাকে বিগ ডেটা বলা যায় তার কোনো সংজ্ঞা নেই। তবে যে ডেটা সাধারণ কনজিউমার লেভেলের কম্পিউটার দিয়ে এনালাইজ করা যায় না সেই ডেটাকে বিগ ডেটা বলা যায়। ডেটা সাইন্টিস্ট হতে হলে বিভিন্ন বিগ ডেটাপ্রযুক্তি যেমন Hadoop, MapReduce, Apache Spark, Hive ও Pig ইত্যাদি বিষয়ে জ্ঞান অর্জন করতে হবে।
৫. কোড শেখা
কোড হচ্ছে ডেটা প্রকাশের মাধ্যম তাই ডেটার ভাষা তথা কোড না শিখে দক্ষ ডেটা সাইন্টিস্ট হওয়ার কথা কল্পনাও করা যায় না। বলা হয় যে, একজন ভালো কোডার একজন দক্ষ ডেটা সাইন্টিস্ট নাও হতে পারে কিন্তু একজন ভালো ডেটা সাইন্টিস্ট অবশ্যই একজন দক্ষ কোডার হবেন।
৬. ডেটা ম্যানিপুলেশন ক্লিনিং ও ভিজুয়ালাইজেশন
ডেটা কোয়েরি করার পর সেটাকে সাইজ করতে হবে। এটাকে বলে ডেটা প্রিপারেশন বা ক্লিনিং। কিভাবে ক্লিন করতে হবে সেটা নির্ভর করবে কী প্রশ্নের উত্তর খোঁজা হচ্ছে তার উপর। আগে থেকে এসব স্থির করা থাকলে ডেটা ক্লিনিং এ সময় কম নষ্ট হয়। ডেটা ক্লিনিং কে মূলত ডেটা ম্যানেজিংও বলে। ডেটা ক্লিনিং এর জন্য দুইটা জনপ্রিয় প্যাকেজ হলো dplyr এবং data.table।
ডেটা ভিজুয়ালাইজেশনের জন্য ggviz প্যাকেজ আছে। আর কমার্শিয়াল সফটওয়্যারের মধ্যে ট্যাবলো খুবই জনপ্রিয়। এদের ফ্রি ভার্সনও আছে সেটাকে বলে কমিউনিটি এডিশন। ট্যাবলো একটি অতি জনপ্রিয় সফটওয়্যার যেটি ইন্ডাস্ট্রিতে ব্যাপকভাবে ব্যবহৃত হয়। এটি শেখা থাকলে আপনার রেজুমে অনেক শক্ত হবে।
৭. কমিউনিকেশনের দক্ষতা বৃদ্ধি
শ্রেষ্ঠ ডেটা সাইন্টিস্ট ও সাধারণ ডেটা সাইন্টিস্টের মধ্যে পার্থক্য নির্ভর করে কমিউনিকেশন দক্ষতার উপর। আপনার কমিউনিকেশন স্কিল যত শক্ত হবে আপনি তত সামনে এগিয়ে যেতে পারবেন। আপনাকে শুধু ঘরে আবদ্ধ হয়ে ডেটা নিয়ে বিশ্লেষণ করলেই হবে না, বরং বিভিন্ন প্রতিষ্ঠানের সাথে যোগাযোগ রক্ষা করতে হবে এবং ডেটা বিশ্লেষণের সময় কোনো অসঙ্গতির সম্মুখীন হলে তা কিভাবে মোকাবেলা করতে হবে সেটাও রপ্ত করতে হবে, তবেই আপনি একজন দক্ষ ডেটা সাইন্টিস্ট হিসেবে নিজেকে প্রতিষ্ঠিত করতে পারবেন।
৮. সর্বত্র জ্ঞান অন্বেষণ
একজন ডেটা সাইন্টিস্টকে তার কাজ চালিয়ে নিয়ে যেতে অনেকর সাথেই পরিচয় ঘটে থাকে। সবাই সব দিকে দক্ষ হয় না, যদি প্রত্যেকের কাজের ধরণ পর্যবেক্ষণ করে, ভালো ভালো টেকনিকগুলো শিখে নেওয়া যায় তবে তখন সে একজন বৈচিত্র্যময় ডেটা সাইন্টিস্ট হিসেবে তার আত্মপ্রকাশ ঘটাতে পারবে। তাই আপনি যদি দক্ষ হতে চান, তবে আপনার সবকিছু থেকেই জ্ঞান অন্বেষণের মানুষিকতা থাকতে হবে।
৯. ছোট ছোট প্রজেক্টে কাজ করার মাধ্যমে বাস্তব অনুশীলন চর্চা ও অভিজ্ঞতা অর্জন
শুধু ডেটা সাইন্সের নিয়ম -কানুন শিখলেই হবে না বরং বাস্তবে অনুশীলন করতে হবে, নতুবা আপনি নিজেকে কর্মস্থলে টিকিয়ে রাখতে ব্যর্থ হবেন। এজন্য আপনাকে ছোট ছোট প্রজেক্টের কাজগুলো করতে হবে এবং কোনো প্রতিযোগিতায় অংশগ্রহণের সুযোগ আসলে সেই সুযোগের যথাযথ সদ্ব্যবহার করতে হবে। এতে একদিকে আপনার হাতে কলমে ডেটা সাইন্স শেখা হবে এবং অভিজ্ঞতাও অর্জন হবে, যা আপনাকে কর্মক্ষেত্রে অন্যদের চেয়ে এগিয়ে রাখবে।
১০. নিজেকে আপডেটেড রাখা এবং ডেটা সায়েন্স কমিউনিটিতে যুক্ত থাকা
ডেটার দুনিয়া সম্পর্কে খবরা-খবর রাখতে হবে। ডেটা সায়েন্স দ্রুত পরিবর্তনশীল একটি বিষয়। এখানে প্রতিনিয়ত নতুন জিনিস যোগ হচ্ছে। তাই মার্কেটে টিকে থাকতে হলে নিজেকে সবসময় আপডেটেড রাখতে হবে। আজকের ডেটা কালকেই পুরনো হয়ে যেতে পারে। এখন তথ্য প্রযুক্তির যুগ তাই আপনি খুব সহজেই ডেটা সাইন্স কমিউনিটির সাথে যুক্ত থাকতে পারেন, আর আপনাকে অবশ্যই যুক্ত থাকতে হবে, যদি আপনি একজন দক্ষ ও যোগ্য ডেটা সাইন্টিস্ট হিসেবে নিজেকে প্রমাণ করতে চান।
আশা করি এই ১০ টি ধাপ যদি আপনি যথার্থ ভাবে অনুসরণ করেন এবং কাজের প্রতি ভালোবাসা প্রদর্শন করতে পারেন, তবে আপনিই হয়ে উঠতে পারেন যুগের সেরা ডেটা সাইন্টিস্ট।