এলো নতুন AI Model - GEMMA 3 (জেমা থ্রি)! এবার ক্যালকুলেটরের ভেতরে-ও Run করা যাবে AI! | Techtunes

Awesome! টিউনস

সকল Awesome! টিউনস

টেকটিউনস এ চালু হচ্ছে!! “হাতে ধরে PSD2HTML পূর্ণাঙ্গ চেইন কোর্স”!! সম্পূর্ণ ফ্রি করুন PSD2HTML এর...

কম্পিউটার লাভার

প্রফেশনালদের মত তৈরী করুন মোবাইল ফোনের থিম

দুঃসাহসী টিনটিন

মন্থন পুরস্কার পেল সুজন’র ভোটবিডিসহ বাংলাদেশের ৬টি উদ্যোগ

রুবন

স্টিভ জবসের চলে যাওয়া আমাদের শোক এবং কিছু ছবি

shahadat hossain

এলো নতুন AI Model – GEMMA 3 (জেমা থ্রি)! এবার ক্যালকুলেটরের ভেতরে-ও Run করা যাবে AI!

385 দেখা 0 টিউমেন্টস জোসস

টিউন বিভাগ টেকটিউনস টেকবুম

প্রকাশিত

Level 8

রায়হান ফেরদৌস

290 টিউনস 131 টিউমেন্টস 74 ফলোয়ার

টিউমেন্ট ফলো জোসস

Google DeepMind নিয়ে এসেছে তাদের নতুন AI Model - GEMMA 3 (জেমা থ্রি)!

বিষয়টা অনেকটা সাইন্সফিকশন সিনেমার মতো – ভাবুন তো, আপনার হাতের স্মার্টফোন বা ক্যালকুলেটরের মতো ছোট একটি Device-এ যদি সুপার-স্মার্ট আর্টিফিশিয়াল ইন্টেলিজেন্স (AI) বসানো যায়, তাহলে কেমন হয়? GEMMA 3 (জেমা থ্রি) অনেকটা সেই স্বপ্নকেই সত্যি করে তোলার পথে এক বিশাল পদক্ষেপ!

এই Model টি শুধু আকারে ছোট নয়, এটা একই সাথে শক্তিশালী এবং কার্যকরী। OPEN Source AI-এর (যে AI কোড সবাই ব্যবহার করতে পারে) জগতে এটি একটি নতুন দিগন্ত খুলে দিতে পারে। আজকের টিউনে আমরা GEMMA 3 (জেমা থ্রি) নিয়ে বিস্তারিত আলোচনা করব, এর ভেতরের প্রযুক্তিগত বিষয়গুলো সহজভাবে জানার চেষ্টা করব, এবং দেখব কেন AI বিশেষজ্ঞ থেকে শুরু করে সাধারণ মানুষ পর্যন্ত সবাই এই উদ্ভাবন নিয়ে এত উৎসাহিত। তাহলে আর দেরি না করে, চলুন GEMMA 3 (জেমা ৩)-এর জাদুকরী জগতে ডুব দেওয়া যাক!

GEMMA 3, ছোটখাটো চেহারায় বিশাল Computing ক্ষমতা 🚀

Google DeepMind তাদের অফিসিয়াল ওয়েবসাইটে নতুন GEMMA 3 (জেমা ৩) Model গুলোর ঘোষণা করেছে। এই Model গুলোর মূল ভিত্তি হলো GEMINI Series-এর রিসার্চ এবং ডেভেলপমেন্ট। কিন্তু GEMMA 3 (জেমা থ্রি)-কে বিশেষভাবে ডিজাইন করা হয়েছে যেন এটি SUPER Light, Nimble (তড়িৎ এবং সহজে ব্যবহারযোগ্য) হয় এবং খুব সহজেই একটি SINGLE Accelerator-এ ব্যবহার করা যায়। এখন আপনাদের মনে প্রশ্ন জাগতে পারে, এই SINGLE Accelerator আসলে কী?

সহজ ভাষায় বলতে গেলে, GEMMA 3 (জেমা থ্রি) চালানোর জন্য আপনার বিশাল আকারের SERVER ROOM বা অনেকগুলো শক্তিশালী GPU-এর (Graphics Processing Unit) প্রয়োজন হবে না। এটি একটি সাধারণ GPU, TPU (Tensor Processing Unit), অথবা অন্য কোনো HARDWARE যেমন AMD GPUs বা এমনকি Jetson Nano-এর মতো ছোটখাটো Device-এও অনায়াসে চলতে পারবে। Google অত্যন্ত আত্মবিশ্বাসের সাথে GEMMA 3-কে "সবচেয়ে সক্ষম Model, যা একটি Device-এ চলতে পারে" হিসেবে দাবি করছে। বাস্তব পরিস্থিতি এবং পরীক্ষার ফলাফল দেখলে আপনিও সম্ভবত এই দাবির সাথে একমত হবেন।

GEMMA 3 কেন এত গুরুত্বপূর্ণ? কারণ এটি প্রমাণ করে যে শক্তিশালী AI Model তৈরি করার জন্য সবসময় বিশাল আকারের DATA CENTER বা জটিল INFRASTRUCTURE-এর প্রয়োজন নেই। ছোটখাটো HARDWARE-এর মধ্যেও দারুণ AI Solution দেওয়া সম্ভব, আর GEMMA 3 সেটাই করে দেখাচ্ছে। এর ফলে AI প্রযুক্তি এখন আরও বেশি মানুষের হাতের নাগালে আসতে পারবে।

GEMMA 3 নিয়ে কেন এত আলোচনা? এর বিশেষত্বগুলো কী কী? 🤔

GEMMA 3 নিয়ে এত আলোচনার প্রধান কারণগুলো হলো:

উন্নত Text এবং Visual Reasoning ক্ষমতা: GEMMA 3 শুধু Text-ভিত্তিক তথ্য নয়, Image ও Video বুঝতে পারে এবং সেগুলোর ওপর ভিত্তি করে বিশ্লেষণ ও সিদ্ধান্ত নিতে পারে। এই ক্ষমতা AI-কে আরও বাস্তবভিত্তিক সমস্যা সমাধানে সাহায্য করে।
Multimodality (বহুমুখী ব্যবহার): এটি Text, Image, Short Videos – এই সবকিছু একসাথে ব্যবহার করতে পারে। অর্থাৎ, আপনি Text এবং Image মিশিয়ে কোনো Prompt দিলে, GEMMA 3 সেটিকেও বুঝতে পারবে এবং যথাযথ Response দিতে পারবে।
বহু ভাষায় পারদর্শী: GEMMA 3 ১৪০ টিরও বেশি LANGUAGES-এর জন্য Built-in Support নিয়ে আসে। এর মানে হলো, আপনি বাংলা, হিন্দি, স্প্যানিশ, ফ্রেঞ্চসহ বিভিন্ন ভাষায় GEMMA 3-এর সাথে Interact করতে পারবেন।
বিশাল Context Window: GEMMA 3 128, 000 পর্যন্ত TOKEN-এর Context Window Support করে, যা OPEN Source Model-এর জন্য একটি বিশাল সুবিধা। Context Window যত বড় হবে, Model তত বেশি তথ্য মনে রাখতে পারবে এবং জটিল বিষয়গুলো সহজে বুঝতে পারবে।

আগেকার AI Model গুলো সাধারণত Text-নির্ভর ছিল, যা তাদের ব্যবহারকে সীমিত করে দিত। কিন্তু GEMMA 3 এখানে একটি বড় পরিবর্তন এনেছে। আপনি যদি কোনো Image Feed করেন, GEMMA 3 সেটা Parse করতে পারবে, ছবিতে থাকা Object সনাক্ত করতে পারবে, এবং সেই Image-এর মধ্যে থাকা Text-ও বুঝতে পারবে। এই Multimodality GEMMA 3-কে আরও বেশি Practical এবং দৈনন্দিন জীবনের জন্য উপযোগী করে তুলেছে।

GEMMA 3 কিভাবে কাজ করে? আসুন, ভেতরের জটিল প্রযুক্তিকে সহজভাবে বুঝি ⚙️

GEMMA 3-এর ভেতরের ম্যাকানিজম একটু জটিল, তবে আমি চেষ্টা করব সহজ ভাষায় এর কার্যপ্রণালী বোঝানোর।

Sig Lip Vision Encoder: GEMMA 3 একটি অত্যাধুনিক Vision Encoder Technique ব্যবহার করে, যার নাম Sig Lip। এই পদ্ধতিতে 400 Million PARAMETER-এর Vision Backbone Image গুলোকে 256 Visual TOKEN-এ রূপান্তরিত করে। এই TOKEN গুলো Language Model অংশে FEED করা হয় এবং বিশ্লেষণ করা হয়।
Pan and Scan Trick: GEMMA 3 "Pan and Scan" নামের একটি HELPFUL Trick ব্যবহার করে। এই পদ্ধতিতে Image-এর গুরুত্বপূর্ণ DETAIL বাঁচানোর জন্য Imageটিকে ছোট ছোট CROP-এ কেটে দেওয়া হয়। Non-Square Format বা Text যুক্ত Image-এর ক্ষেত্রে এটি খুবই উপযোগী। এর ফলে Image Stretch বা Squash না হয়েও Details গুলো অক্ষুণ্ণ থাকে।
Local and Global Attention: GEMMA 3 Local Self Attention LAYER-এর সাথে Global LAYER-এর একটি বিশেষ মিশ্রণ (5:1 RATIO) ব্যবহার করে। এর ফলে Context Window 128k TOKEN পর্যন্ত Increase করলেও Memory Overhead অনেক কম থাকে। Local Attention LAYERগুলো মূলত আশেপাশের TOKENগুলোর ওপর মনোযোগ দেয়, যেখানে Global Attention LAYER পুরো Context এর ওপর ফোকাস করে।

এই টেকনিক্যাল বিষয়গুলো GEMMA 3-কে অত্যন্ত Efficient এবং Powerful করে তুলেছে। এর ফলে এটি ছোট ডিভাইসেও জটিল কাজগুলো সহজে করতে পারে।

GEMMA 3-এর বিভিন্ন Size, আপনার প্রয়োজন অনুযায়ী বেছে নিন 📏

GEMMA 3 বর্তমানে চারটি ভিন্ন Size-এ পাওয়া যাচ্ছে: 1B, 4B, 12B এবং 27B PARAMETER। এখানে B মানে হলো Billions of PARAMETER। স্বাভাবিকভাবেই, 27B Version-টি সবচেয়ে শক্তিশালী এবং এটি বিভিন্ন Benchmarking-এ খুব ভালো PERFORMANCE দেখিয়েছে।

Google স্বয়ং LMS Chatbot Arena-তে GEMMA 3-এর PERFORMANCE পরীক্ষা করেছে। এই Arena-তে Human Raider-রা Blind Side-by-Side Comparison করে একটি ELO Rating তৈরি করেন। GEMMA 3 27B এখানে 1, 338-এর ELO Score পেয়েছে, যা Deep seek V3 03 Mini অথবা Llama 3-এর 405B Membership Version-এর থেকেও উল্লেখযোগ্যভাবে বেশি।

এই ELO Score থেকে স্পষ্ট বোঝা যায় যে GEMMA 3 27B অন্যান্য বৃহৎ Model গুলোর (যেমন 70B, 400B বা Mixture of Experts Model) তুলনায় ছোট হলেও User Preference এবং কার্যকারিতার দিক থেকে বেশ ভালো PERFORMANCE দিতে সক্ষম।

Quantization, কম Memory-তেও GEMMA 3! 💾

আরেকটি অসাধারণ FEATURE হলো Quantization। GEMMA 3-এর সাথে Official Quantized Version-ও পাওয়া যায়। Quantization প্রক্রিয়ার মাধ্যমে 16 Bit Floating Point Weight গুলোকে Compress করে Int 4 বা Float 8 Representation-এ নিয়ে আসা হয়। এর ফলে Model গুলো ছোট Memory Footprint-এ FIT হতে পারে। যাদের High-End GPU নেই অথবা CPU-তে HOST করতে চান, তাদের জন্য এটি একটি বিশাল Advantage। Quantization নিশ্চিত করে যে, GEMMA 3 ছোট এবং মাঝারি আকারের HARDWARE-এও ভালোভাবে কাজ করতে পারবে।

ভাষার কোনো Barrier নেই 🌐

GEMMA 3 এখনও GEMMA 2.0-এর Sentence piece based TOKENIZER ব্যবহার করে, যেখানে 262k Vocabulary Entry রয়েছে, যা ১৪০ টিরও বেশি LANGUAGES-কে COVER করার জন্য যথেষ্ট। এর মানে হলো, আপনি পৃথিবীর যেকোনো প্রান্ত থেকে যেকোনো ভাষায় GEMMA 3-এর সাথে যোগাযোগ করতে পারবেন।

Function Calling এবং Structured Output 🧮

GEMMA 3 Function Calling এবং Structured Output Support করে। এর ফলে কোনো HACKY Prompts ছাড়াই JSON (JavaScript Object Notation) তৈরি করতে বা Function Signature রান করতে পারে। এই FEATURE টি মূলত DEVELOPER-দের জন্য খুবই উপযোগী, কারণ এর মাধ্যমে তারা GEMMA 3-কে অন্যান্য APPLICATION-এর সাথে Integrate করতে পারবে খুব সহজে।

ডেটা নিরাপত্তা এবং গোপনীয়তা 🛡️

Google সবসময় DATA Security এবং গোপনীয়তার ওপর বিশেষ নজর রাখে। GEMMA 3-এর ক্ষেত্রেও এর ব্যতিক্রম হয়নি। Google Training DATA Filter করেছে, RLF (Reinforcement Learning from Human Feedback) প্রয়োগ করেছে এবং Memorization Risk বা Personal DATA Leakage-এর জন্য Model TEST করেছে। Google দৃঢ়ভাবে জানায় যে তারা TEST করে LOW Violation Rate খুঁজে পেয়েছে।

তবে Google স্পষ্টভাবে উল্লেখ করেছে যে DEVELOPER-দের GEMMA 3-এর মতো OPEN Model Deploy করার সময় Safety এবং Ethical বিষয়গুলো নিশ্চিত করতে হবে।

GEMMA 3 কোন HARDWARE-এ চলবে? 💻📱

GEMMA 3 NVIDIA GPUs, Google Cloud TPUs, AMD GPUs (ROCm-এর মাধ্যমে) এবং CPU Execution (gma.CPP)-এর জন্য OPTIMIZE করা হয়েছে। আপনার যদি NVIDIA System থাকে, তাহলে Jetson Nano থেকে শুরু করে Top Tier Blackwell CHIP পর্যন্ত Direct Optimization পাবেন। GEMMA 3 NVIDIA API Catalog-এ FEATURED করা হয়েছে, তাই Rapid Prototyping করাও বেশ সহজ হবে।

Google Cloud ব্যবহারকারীরা Vertex AI, Cloud Run বা Google Gen AI API-এর মাধ্যমে GEMMA 3 চালাতে পারবেন। আর যারা Local Machine-এ TEST করতে চান, তারা Kaggle, Hugging Face অথবা Olama থেকে WEIGHTS Download করতে পারবেন।

Shield GEMMA 2, Image Safety-এর জন্য একটি অসাধারণ TOOL 🖼️

Google Shield GEMMA 2 নামে একটি Specialized 4B PARAMETER Image Safety CHECKER-ও প্রকাশ করেছে। এটি GEMMA 3 Architecture ব্যবহার করে। Shield GEMMA 2 মূলত IMAGE-এর তিনটি Category SCAN করে: Dangerous content, Sexual content অথবা Violent content। এটি একটি Out-of-the-box Solution, যা DATA Set বা User FEED থেকে অনাকাঙ্ক্ষিত বা ক্ষতিকর IMAGE সরিয়ে দিতে পারে।

Academic Program, গবেষকদের জন্য দারুণ সুযোগ 🎓

Google DeepMind Academic Researcher-দের জন্য 10, 000 ডলারের Google Cloud Credit দিচ্ছে, যাতে তারা এই MODEL গুলো নিয়ে Serious Research করতে পারেন। এই PROGRAM-টির APPLICATION কয়েক সপ্তাহের জন্য OPEN আছে। Academia-তে থাকলে এবং 27B PARAMETER Model ব্যবহার করতে চাইলে এটি একটি দারুণ OPPORTUNITY।

GEMMA Verse, AI-এর নতুন দিগন্ত 🌌

Google "GEMMA Verse" নিয়ে বেশ উৎসাহিত। তাদের মতে, GEMMA MODEL-এর OPEN Source হওয়ার কারণে LANGUAGE Translation থেকে শুরু করে Advanced AUDIO Processing-এর জন্য Specialized Derivative তৈরি করা সম্ভব। AI Singapore-এর Sea Lion V3 এবং Nexa AI-এর Omni AUDIO হলো এর কয়েকটি উল্লেখযোগ্য উদাহরণ।

GEMMA 3-এর Performance, কিছু গুরুত্বপূর্ণ তথ্য 📊

Technical Report অনুযায়ী, GEMMA 3 বিভিন্ন Benchmark-এ খুব ভালো PERFORMANCE দেখিয়েছে। MML live, Codebench, Bird SQL, MATH এবং অন্যান্য Multilingual TASK-এ GEMMA 3-এর PERFORMANCE ছিল বেশ সন্তোষজনক। GEMMA 3-এর 27B Instruction Tuned Version অনেক OPEN Source MODEL-এর চেয়েও ভালো PERFORM করেছে।

GEMMA 3 কি AI-এর ভবিষ্যৎ? 🤔

GEMMA 3 নিঃসন্দেহে AI-এর জগতে একটি নতুন সম্ভাবনা নিয়ে এসেছে। ছোট HARDWARE-এ শক্তিশালী AI MODEL চালানোর সুযোগ তৈরি করার জন্য Google DeepMind অবশ্যই প্রশংসার দাবিদার। GEMMA 3 প্রমাণ করে যে AI এখন আর শুধু বড় বড় COMPANY বা DATA CENTER-এর মধ্যে সীমাবদ্ধ নয়, এটি সাধারণ মানুষের হাতের মুঠোয় আসতে শুরু করেছে।

তবে GEMMA 3 এখনো Initial Stage-এ রয়েছে। ভবিষ্যতে এর PERFORMANCE আরও উন্নত করা সম্ভব। সেই সাথে, এই MODEL-টি কিভাবে ব্যবহার করা হয়, সেটাও একটা গুরুত্বপূর্ণ বিষয়। OPEN Source MODEL হওয়ার কারণে GEMMA 3-এর অপব্যবহারের সম্ভাবনাও উড়িয়ে দেওয়া যায় না। তাই এর ব্যবহার এবং প্রয়োগের ক্ষেত্রে আমাদের সবাইকে সচেতন থাকতে হবে।

আশাকরি আজকের টিউনটি আপনাদের ভালো লেগেছে এবং GEMMA 3 সম্পর্কে অনেক নতুন তথ্য জানতে পেরেছেন। GEMMA 3 নিয়ে আপনার কোনো প্রশ্ন বা মতামত থাকলে টিউমেন্ট-এ জানাতে ভুলবেন না। আর যদি মনে হয় এই টিউন-টি তথ্যপূর্ণ, তাহলে বন্ধুদের সাথে SHARE করতে পারেন। প্রযুক্তির নতুন দিগন্তে একসাথে পথ চলি, ধন্যবাদ! 🙏

টিউমেন্ট ফলো জোসস

Level 8

রায়হান ফেরদৌস

আমি রায়হান ফেরদৌস। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 12 বছর 4 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 290 টি টিউন ও 131 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 74 ফলোয়ার আছে এবং আমি টেকটিউনসে 1 টিউনারকে ফলো করি।