কীভাবে হবেন ডাটা সাইন্টিস্ট? [পর্ব-০১] :: ১০ টি হার্ড স্কিল

Level 34
সুপ্রিম টিউনার, টেকটিউনস, ঢাকা

কীভাবে হবেন ডাটা সাইন্টিস্ট?

আসসালামু আলাইকুম, কেমন আছেন টেকটিউনস কমিউনিটি? আশা করছি সবাই ভাল আছেন। আজকে আবার হাজির হলাম নতুন টিউন নিয়ে।

তথ্য প্রযুক্তির এই যুগে ডাটা সাইন্টিস্টদের রয়েছে বেশ চাহিদা। বর্তমান সময়ে সবচেয়ে মূল্যবান জিনিস হচ্ছে ডাটা আর যারা ডাটা বুঝবে এবং সেটা থেকে সঠিক সিদ্ধান্ত নিতে পারবে স্বাভাবিকভাবেই তাদের চাহিদা বেশি থাকবে। আপনিও যদি ডাটা সাইন্টিস্ট হতে চান তাহলে এই টিউনটি আপনার জন্য৷ ডাটা সাইন্টিস্ট হতে হলে আপনার প্রয়োজন হবে বেশ কিছু হার্ড স্কিলের। আজকের এই টিউনে আমি ১০ টি হার্ড স্কিল নিয়ে আলোচনা করব যেগুলো আপনার মধ্যে অবশ্যই থাকতে হবে।

১. প্রোগ্রামিং ল্যাংগুয়েজ

আপনি যদি কোডিং না জানেন তাহলে প্রথমেই কোডিং শিখে নিন। ডাটা সাইন্স এর জন্য সবচেয়ে কার্যকরী প্রোগ্রামিং ল্যাংগুয়েজ হচ্ছে Python। অন্যান্য প্রোগ্রামিং ল্যাংগুয়েজ ও শেখা যেতে পারে যেমন, R, SQL, Julia ইত্যাদি।

২. ম্যাথম্যাটিকস

অনেকে বলে থাকে কোডিং এ গণিতের প্রয়োজন নেই, এটা ভুল। আপনি ম্যাথ না জানলে বিভিন্ন দিকে আপনি পিছিয়ে থাকবেন। প্রোগ্রামিং এ আপনার দুর্বলতা থেকেই যাবে৷ ডাটা সাইন্সের জন্য Linear algebra, Linear regression, Probability এবং Statistics বিষয় গুলো গুরুত্বপূর্ণ। তাছাড়া গণিত শেখা কখনো আপনাকে হতাশ করবে না, জীবনের প্রতিটি ক্ষেত্রে গণিত আপনাকে সিদ্ধান্ত গ্রহণকে সহজ করবে।

৩. ইন্টেগ্রেট ডেভেলপমেন্ট  এনভায়রনমেন্ট (IDE)

Integrated Development Environment (IDE) এক ধরনের সফটওয়্যার এপ্লিকেশন যেখানে সফটওয়্যার ডেভেলপমেন্ট রিলেটেড অসংখ্য টুল এবং ফিচার রয়েছে। IDE আপনাকে ডাটা এনালাইসিস, ভিজুয়ালাইজেশন, মেশিন লার্নিং টাস্ক ইত্যাদি এক্সিকিউট করতে সাহায্য করবে৷ আপনার চাহিদা বা পছন্দ মত IDE সিলেক্ট করতে পারেন৷ কয়েকটি IDE হল,

IDE এর মাধ্যমে শিখতে পারবেন কীভাবে প্রোগ্রামিং এ দক্ষ হওয়া যায়, ম্যাথ শেখা যায়৷ আপনি যদি নিয়োগকর্তা হয়ে থাকেন তাহলে আপনার জন্য ভাল হতে পারে Jupyter Notebook এবং Visual Studio Code।

৪. লাইব্রেরী

কোডিং কে আরও সহজ করে তুলেছে বিভিন্ন ধরনের লাইব্রেরী। লাইব্রেরী গুলো একধরনের টুল যা ব্যবহার করে সহজে ডাটা এনালাইসিস এবং মেশিন লার্নিং প্রসেস করা যায়।

আপনি যদি Python শিখে থাকেন তাহলে নিচের লাইব্রেরী গুলোও শিখতে পারেন।

এই লিস্ট দেয়ার উদ্দেশ্য হল আপনি এগুলো দিয়ে ডাটা সাইন্স জার্নিটা শুরু করতে পারেন। এই লাইব্রেরী গুলো শিখুন এবং জানুন কোথায় কোনটি প্রয়োগ করতে হয়। যেমন আপনি ডাটা ভিজ্যুয়ালাইজেশনের জন্য, Matplotlib ব্যবহার করতে পারেন

৫. ডাটা ট্রান্সফরমেশন

ডাটা সাইন্টিস্টদের গুরুত্বপূর্ণ একটি কাজ হল ডাটা ট্রান্সফর্ম করা৷ তাদের বেশির ভাগ সময় ব্যয় হয় Raw ডাটা, মোডিফাই, এডজাস্ট এবং কনভার্ট করে। এনালাইসিস বা অন্যান্য কাজের উপযোগী ফরমেটে ডাটা নিয়ে যেতে এই কাজ গুলো করতে হয়।

সুতরাং ডাটা সঠিক ভাবে রূপান্তর করতে আপনাকে, normalization, standardization, scaling, feature engineering, ইত্যাদি বিষয় সম্পর্কে জানতে হবে।

৬. ডাটা ভিজ্যুয়ালাইজেশন

ডাটা সাইন্টিস্টকে ডাটা ভিজুয়াল করে দেখাতে হয় যেন অন্যরা দেখে বুঝতে পারে এবং সিদ্ধান্ত গ্রহণে অংশ গ্রহণ করতে পারে। টিমের সবাই কোডিং ডাটা বুঝবে না তাদেরকে সেটা ভিজ্যুয়ালি দেখাতে হবে। আর একজন ডাটা সাইন্টিস্ট হতে আপনাকে ডাটা ভিজ্যুয়ালাইজেশন সম্পর্কে ধারণা রাখতে হবে।

৭. মেশিন লার্নিং

ডাটা সাইন্টিস্ট হতে আপনাকে জানতে হবে মেশিন লার্নিং। মেশিন লার্নিং বিষয়টির পরিধি অনেক ব্যাপক একজনের পক্ষে সব কিছু শেখা সম্ভব না। তাই আপনার যতটুকু প্রয়োজন ততটুকু অবশ্যই শিখুন। যে বিষয় গুলো আপনাকে অবশ্যই শিখতে হবে সেগুলো হল, supervised learning, unsupervised learning, classification এবং regression tasks। যখন আপনি এই বিষয় গুলো জানবেন এবং আলাদা করতে পারবেন তখন বিভিন্ন মেশিন লার্নিং এলগোরিদম সম্পর্কে জানুন যেমন সাপোর্ট ভেক্টর মেশিন এবং নিউরাল নেটওয়ার্ক।

যখন আপনি মেশিন লার্নিং মডেল গুলো জানবেন তখন নিচের বিষয় গুলো শিখুন।

  • Building a Machine Learning Model
  • Model Evaluation
  • Deployment
  • Model Interpretability
  • Overfitting and Underfitting
  • Hyperparameter Tuning
  • Validation and Cross-Validation
  • Ensemble Methods
  • Dimensionality Reduction
  • Regularization Techniques
  • Gradient Descent
  • Neural Networks and Deep Learning
  • Reinforcement Learning

আগেই বলেছি এই এরিয়াটা অনেক বড় সুতরাং শিখতে থাকুন এবং প্র্যাকটিস করে যান।

৮. বিগ ডাটা টুল

বিভিন্ন বিষয়ে জ্ঞান অর্জনের পাশাপাশি কিছু টুল রয়েছে যেগুলো আপনার ডাটা সাইন্স ক্যারিয়ারকে নেক্সট লেভেলে নিয়ে যেতে পারে। বিভিন্ন টুল এবং টেকনোলজি রয়েছে। আপনার সুবিধা অসুবিধা বিবেচনা করে সিদ্ধান্ত নিন কোন গুলো শিখবেন এবং ব্যবহার করবেন৷

জনপ্রিয় কিছু টুল হল,   ApacheSpark,  TensorFlow,  PyTorch,  Hadoop,  Tableau,  Git ইত্যাদি।

৯. ক্লাউড কম্পিউটিং

ডাটা সাইন্সের জরুরি এলিমেন্ট হচ্ছে ক্লাউড কম্পিউটিং। ক্লাউড কম্পিউটিং আপনাকে দেবে ডাটার জন্য স্ক্যালেবল স্টোরেজ, কম্পিউটিং পাওয়ার, ইজি এক্সেস। দ্রুত বিভিন্ন টুল এবং সার্ভিসে এক্সেস নিতে সহায়তা করবে ক্লাউড কম্পিউটিং।

আপনাকে বিভিন্ন ক্লাউড কম্পিউটিং প্ল্যাটফর্ম সম্পর্কে ভাল ধারণা রাখতে হবে যেমন,  Amazon Web Service,  Microsoft Azure, and Google Cloud Platform। একই সাথে আপনাকে জানতে হবে Data storage, Databases, Data warehousing, Big data processing, Containerisation, এবং Data pipeline সম্পর্কে।

১০. প্রজেক্ট

আপনি যখন ডাটা সাইন্টিস্ট হবেন তখন আপনার প্রজেক্ট গুলো শো করারও স্কিলের প্রয়োজন। আপনার সিভিতে বা কোন ভাইভা বোর্ডে আপনার প্রজেক্ট গুলো সঠিক ভাবে শো করতে হবে। আপনার নিজের প্রজেক্ট গুলো সম্পর্কে সঠিক ধারণা রাখতে হবে। প্রজেক্ট রিলেটেড কোন প্রশ্ন করা হলে যেন সেটার সঠিক উত্তর দিতে পারেন সেই যোগ্যতা রাখতে হবে।

শেষ কথা

ডাটা সাইন্সের জন্য একজন ব্যক্তির মূলত এই টিউনে উল্লেখিত হার্ড স্কিল গুলো প্রয়োজন। স্কিল গুলো অর্জন করুন এবং নিজের প্রজেক্ট তৈরি করে নিয়োগকর্তার নিকট তা সঠিক ভাবে উপস্থাপন করুন।

তো আজকে এ পর্যন্তই, দেখা হবে পরবর্তী টিউনে সেই পর্যন্ত সবাই ভাল থাকুন।

Level 34

আমি সোহানুর রহমান। সুপ্রিম টিউনার, টেকটিউনস, ঢাকা। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 11 বছর 2 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 627 টি টিউন ও 200 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 118 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।

কখনো কখনো প্রজাপতির ডানা ঝাপটানোর মত ঘটনা পুরো পৃথিবী বদলে দিতে পারে।


টিউনস


আরও টিউনস


টিউনারের আরও টিউনস


টিউমেন্টস