Google DeepMind নিয়ে এসেছে তাদের নতুন AI Model - GEMMA 3 (জেমা থ্রি)!
বিষয়টা অনেকটা সাইন্সফিকশন সিনেমার মতো – ভাবুন তো, আপনার হাতের স্মার্টফোন বা ক্যালকুলেটরের মতো ছোট একটি Device-এ যদি সুপার-স্মার্ট আর্টিফিশিয়াল ইন্টেলিজেন্স (AI) বসানো যায়, তাহলে কেমন হয়? GEMMA 3 (জেমা থ্রি) অনেকটা সেই স্বপ্নকেই সত্যি করে তোলার পথে এক বিশাল পদক্ষেপ!
এই Model টি শুধু আকারে ছোট নয়, এটা একই সাথে শক্তিশালী এবং কার্যকরী। OPEN Source AI-এর (যে AI কোড সবাই ব্যবহার করতে পারে) জগতে এটি একটি নতুন দিগন্ত খুলে দিতে পারে। আজকের টিউনে আমরা GEMMA 3 (জেমা থ্রি) নিয়ে বিস্তারিত আলোচনা করব, এর ভেতরের প্রযুক্তিগত বিষয়গুলো সহজভাবে জানার চেষ্টা করব, এবং দেখব কেন AI বিশেষজ্ঞ থেকে শুরু করে সাধারণ মানুষ পর্যন্ত সবাই এই উদ্ভাবন নিয়ে এত উৎসাহিত। তাহলে আর দেরি না করে, চলুন GEMMA 3 (জেমা ৩)-এর জাদুকরী জগতে ডুব দেওয়া যাক!
Google DeepMind তাদের অফিসিয়াল ওয়েবসাইটে নতুন GEMMA 3 (জেমা ৩) Model গুলোর ঘোষণা করেছে। এই Model গুলোর মূল ভিত্তি হলো GEMINI Series-এর রিসার্চ এবং ডেভেলপমেন্ট। কিন্তু GEMMA 3 (জেমা থ্রি)-কে বিশেষভাবে ডিজাইন করা হয়েছে যেন এটি SUPER Light, Nimble (তড়িৎ এবং সহজে ব্যবহারযোগ্য) হয় এবং খুব সহজেই একটি SINGLE Accelerator-এ ব্যবহার করা যায়। এখন আপনাদের মনে প্রশ্ন জাগতে পারে, এই SINGLE Accelerator আসলে কী?
সহজ ভাষায় বলতে গেলে, GEMMA 3 (জেমা থ্রি) চালানোর জন্য আপনার বিশাল আকারের SERVER ROOM বা অনেকগুলো শক্তিশালী GPU-এর (Graphics Processing Unit) প্রয়োজন হবে না। এটি একটি সাধারণ GPU, TPU (Tensor Processing Unit), অথবা অন্য কোনো HARDWARE যেমন AMD GPUs বা এমনকি Jetson Nano-এর মতো ছোটখাটো Device-এও অনায়াসে চলতে পারবে। Google অত্যন্ত আত্মবিশ্বাসের সাথে GEMMA 3-কে "সবচেয়ে সক্ষম Model, যা একটি Device-এ চলতে পারে" হিসেবে দাবি করছে। বাস্তব পরিস্থিতি এবং পরীক্ষার ফলাফল দেখলে আপনিও সম্ভবত এই দাবির সাথে একমত হবেন।
GEMMA 3 কেন এত গুরুত্বপূর্ণ? কারণ এটি প্রমাণ করে যে শক্তিশালী AI Model তৈরি করার জন্য সবসময় বিশাল আকারের DATA CENTER বা জটিল INFRASTRUCTURE-এর প্রয়োজন নেই। ছোটখাটো HARDWARE-এর মধ্যেও দারুণ AI Solution দেওয়া সম্ভব, আর GEMMA 3 সেটাই করে দেখাচ্ছে। এর ফলে AI প্রযুক্তি এখন আরও বেশি মানুষের হাতের নাগালে আসতে পারবে।
GEMMA 3 নিয়ে এত আলোচনার প্রধান কারণগুলো হলো:
আগেকার AI Model গুলো সাধারণত Text-নির্ভর ছিল, যা তাদের ব্যবহারকে সীমিত করে দিত। কিন্তু GEMMA 3 এখানে একটি বড় পরিবর্তন এনেছে। আপনি যদি কোনো Image Feed করেন, GEMMA 3 সেটা Parse করতে পারবে, ছবিতে থাকা Object সনাক্ত করতে পারবে, এবং সেই Image-এর মধ্যে থাকা Text-ও বুঝতে পারবে। এই Multimodality GEMMA 3-কে আরও বেশি Practical এবং দৈনন্দিন জীবনের জন্য উপযোগী করে তুলেছে।
GEMMA 3-এর ভেতরের ম্যাকানিজম একটু জটিল, তবে আমি চেষ্টা করব সহজ ভাষায় এর কার্যপ্রণালী বোঝানোর।
এই টেকনিক্যাল বিষয়গুলো GEMMA 3-কে অত্যন্ত Efficient এবং Powerful করে তুলেছে। এর ফলে এটি ছোট ডিভাইসেও জটিল কাজগুলো সহজে করতে পারে।
GEMMA 3 বর্তমানে চারটি ভিন্ন Size-এ পাওয়া যাচ্ছে: 1B, 4B, 12B এবং 27B PARAMETER। এখানে B মানে হলো Billions of PARAMETER। স্বাভাবিকভাবেই, 27B Version-টি সবচেয়ে শক্তিশালী এবং এটি বিভিন্ন Benchmarking-এ খুব ভালো PERFORMANCE দেখিয়েছে।
Google স্বয়ং LMS Chatbot Arena-তে GEMMA 3-এর PERFORMANCE পরীক্ষা করেছে। এই Arena-তে Human Raider-রা Blind Side-by-Side Comparison করে একটি ELO Rating তৈরি করেন। GEMMA 3 27B এখানে 1, 338-এর ELO Score পেয়েছে, যা Deep seek V3 03 Mini অথবা Llama 3-এর 405B Membership Version-এর থেকেও উল্লেখযোগ্যভাবে বেশি।
এই ELO Score থেকে স্পষ্ট বোঝা যায় যে GEMMA 3 27B অন্যান্য বৃহৎ Model গুলোর (যেমন 70B, 400B বা Mixture of Experts Model) তুলনায় ছোট হলেও User Preference এবং কার্যকারিতার দিক থেকে বেশ ভালো PERFORMANCE দিতে সক্ষম।
আরেকটি অসাধারণ FEATURE হলো Quantization। GEMMA 3-এর সাথে Official Quantized Version-ও পাওয়া যায়। Quantization প্রক্রিয়ার মাধ্যমে 16 Bit Floating Point Weight গুলোকে Compress করে Int 4 বা Float 8 Representation-এ নিয়ে আসা হয়। এর ফলে Model গুলো ছোট Memory Footprint-এ FIT হতে পারে। যাদের High-End GPU নেই অথবা CPU-তে HOST করতে চান, তাদের জন্য এটি একটি বিশাল Advantage। Quantization নিশ্চিত করে যে, GEMMA 3 ছোট এবং মাঝারি আকারের HARDWARE-এও ভালোভাবে কাজ করতে পারবে।
GEMMA 3 এখনও GEMMA 2.0-এর Sentence piece based TOKENIZER ব্যবহার করে, যেখানে 262k Vocabulary Entry রয়েছে, যা ১৪০ টিরও বেশি LANGUAGES-কে COVER করার জন্য যথেষ্ট। এর মানে হলো, আপনি পৃথিবীর যেকোনো প্রান্ত থেকে যেকোনো ভাষায় GEMMA 3-এর সাথে যোগাযোগ করতে পারবেন।
GEMMA 3 Function Calling এবং Structured Output Support করে। এর ফলে কোনো HACKY Prompts ছাড়াই JSON (JavaScript Object Notation) তৈরি করতে বা Function Signature রান করতে পারে। এই FEATURE টি মূলত DEVELOPER-দের জন্য খুবই উপযোগী, কারণ এর মাধ্যমে তারা GEMMA 3-কে অন্যান্য APPLICATION-এর সাথে Integrate করতে পারবে খুব সহজে।
Google সবসময় DATA Security এবং গোপনীয়তার ওপর বিশেষ নজর রাখে। GEMMA 3-এর ক্ষেত্রেও এর ব্যতিক্রম হয়নি। Google Training DATA Filter করেছে, RLF (Reinforcement Learning from Human Feedback) প্রয়োগ করেছে এবং Memorization Risk বা Personal DATA Leakage-এর জন্য Model TEST করেছে। Google দৃঢ়ভাবে জানায় যে তারা TEST করে LOW Violation Rate খুঁজে পেয়েছে।
তবে Google স্পষ্টভাবে উল্লেখ করেছে যে DEVELOPER-দের GEMMA 3-এর মতো OPEN Model Deploy করার সময় Safety এবং Ethical বিষয়গুলো নিশ্চিত করতে হবে।
GEMMA 3 NVIDIA GPUs, Google Cloud TPUs, AMD GPUs (ROCm-এর মাধ্যমে) এবং CPU Execution (gma.CPP)-এর জন্য OPTIMIZE করা হয়েছে। আপনার যদি NVIDIA System থাকে, তাহলে Jetson Nano থেকে শুরু করে Top Tier Blackwell CHIP পর্যন্ত Direct Optimization পাবেন। GEMMA 3 NVIDIA API Catalog-এ FEATURED করা হয়েছে, তাই Rapid Prototyping করাও বেশ সহজ হবে।
Google Cloud ব্যবহারকারীরা Vertex AI, Cloud Run বা Google Gen AI API-এর মাধ্যমে GEMMA 3 চালাতে পারবেন। আর যারা Local Machine-এ TEST করতে চান, তারা Kaggle, Hugging Face অথবা Olama থেকে WEIGHTS Download করতে পারবেন।
Google Shield GEMMA 2 নামে একটি Specialized 4B PARAMETER Image Safety CHECKER-ও প্রকাশ করেছে। এটি GEMMA 3 Architecture ব্যবহার করে। Shield GEMMA 2 মূলত IMAGE-এর তিনটি Category SCAN করে: Dangerous content, Sexual content অথবা Violent content। এটি একটি Out-of-the-box Solution, যা DATA Set বা User FEED থেকে অনাকাঙ্ক্ষিত বা ক্ষতিকর IMAGE সরিয়ে দিতে পারে।
Google DeepMind Academic Researcher-দের জন্য 10, 000 ডলারের Google Cloud Credit দিচ্ছে, যাতে তারা এই MODEL গুলো নিয়ে Serious Research করতে পারেন। এই PROGRAM-টির APPLICATION কয়েক সপ্তাহের জন্য OPEN আছে। Academia-তে থাকলে এবং 27B PARAMETER Model ব্যবহার করতে চাইলে এটি একটি দারুণ OPPORTUNITY।
Google "GEMMA Verse" নিয়ে বেশ উৎসাহিত। তাদের মতে, GEMMA MODEL-এর OPEN Source হওয়ার কারণে LANGUAGE Translation থেকে শুরু করে Advanced AUDIO Processing-এর জন্য Specialized Derivative তৈরি করা সম্ভব। AI Singapore-এর Sea Lion V3 এবং Nexa AI-এর Omni AUDIO হলো এর কয়েকটি উল্লেখযোগ্য উদাহরণ।
Technical Report অনুযায়ী, GEMMA 3 বিভিন্ন Benchmark-এ খুব ভালো PERFORMANCE দেখিয়েছে। MML live, Codebench, Bird SQL, MATH এবং অন্যান্য Multilingual TASK-এ GEMMA 3-এর PERFORMANCE ছিল বেশ সন্তোষজনক। GEMMA 3-এর 27B Instruction Tuned Version অনেক OPEN Source MODEL-এর চেয়েও ভালো PERFORM করেছে।
GEMMA 3 নিঃসন্দেহে AI-এর জগতে একটি নতুন সম্ভাবনা নিয়ে এসেছে। ছোট HARDWARE-এ শক্তিশালী AI MODEL চালানোর সুযোগ তৈরি করার জন্য Google DeepMind অবশ্যই প্রশংসার দাবিদার। GEMMA 3 প্রমাণ করে যে AI এখন আর শুধু বড় বড় COMPANY বা DATA CENTER-এর মধ্যে সীমাবদ্ধ নয়, এটি সাধারণ মানুষের হাতের মুঠোয় আসতে শুরু করেছে।
তবে GEMMA 3 এখনো Initial Stage-এ রয়েছে। ভবিষ্যতে এর PERFORMANCE আরও উন্নত করা সম্ভব। সেই সাথে, এই MODEL-টি কিভাবে ব্যবহার করা হয়, সেটাও একটা গুরুত্বপূর্ণ বিষয়। OPEN Source MODEL হওয়ার কারণে GEMMA 3-এর অপব্যবহারের সম্ভাবনাও উড়িয়ে দেওয়া যায় না। তাই এর ব্যবহার এবং প্রয়োগের ক্ষেত্রে আমাদের সবাইকে সচেতন থাকতে হবে।
আশাকরি আজকের টিউনটি আপনাদের ভালো লেগেছে এবং GEMMA 3 সম্পর্কে অনেক নতুন তথ্য জানতে পেরেছেন। GEMMA 3 নিয়ে আপনার কোনো প্রশ্ন বা মতামত থাকলে টিউমেন্ট-এ জানাতে ভুলবেন না। আর যদি মনে হয় এই টিউন-টি তথ্যপূর্ণ, তাহলে বন্ধুদের সাথে SHARE করতে পারেন। প্রযুক্তির নতুন দিগন্তে একসাথে পথ চলি, ধন্যবাদ! 🙏
আমি রায়হান ফেরদৌস। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 11 বছর 7 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 253 টি টিউন ও 131 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 74 ফলোয়ার আছে এবং আমি টেকটিউনসে 1 টিউনারকে ফলো করি।