আসসালামু আলাইকুম কেমন আছেন সবাই, আশা করছি ভাল আছেন। বরাবরের মত হাজির হলার নতুন একটি টিউন নিয়ে।
Buzz হচ্ছে OpenAI এর Whisper ভিত্তিক একটি ডেক্সটপ অ্যাপ। এটা স্বয়ংক্রিয় ভাবে অডিও কে টেক্সটে ট্রান্সক্রিপ্ট করতে পারে। ট্রান্সক্রিপ্ট করার জন্য এর রয়েছে একাধিক মডেল, আপনি শুধু কথা বলবেন এটি রিয়েল টাইমে আপনার অডিও টেক্সটে রূপান্তর করে দেবে। এটি একটি ওপেনসোর্স টুল যা Windows, macOS, এবং Linux এ রান করা যায়।
যে মেশিন লার্নিং মডেল এটি ব্যবহার করে সেটি বেশ পাওয়ারফুল। এবং মাইক্রোফোনের মাধ্যমে আপনি অডিও গান, ভিডিও সব কিছুই ট্রান্সক্রিপ্ট করতে পারবেন। অ্যাপটি আপনি লঞ্চ করবেন এটি মাইক্রোফোনের মাধ্যমে অডিও শুনবে এবং ট্রান্সক্রিপ্ট করা শুরু করবে।
অডিও ট্রান্সক্রিপ্টের পাশাপাশি এটি ট্রান্সলেশনও করতে পারে। টার্গেট ভাষা সিলেক্ট করে দিন বাকি কাজ এটিই করবে। এই মুহূর্তে এটি শুধুমাত্র ইংরেজি সাপোর্ট করে। ট্রান্সক্রিপ্ট বা ট্রান্সলেশনের ইনপুট হিসেবে আপনি কেবল ইংরেজি ব্যবহার করতে পারবেন।
OpenAI কিছুদিন আগে Whisper লঞ্চ করেছে। এটি একটি ওপেনসোর্স নিউরাল নেটওয়ার্ক যা ইংলিশ স্পিচ রিকোগনেশন এবং হিউম্যান লেভেল একুরেসি দিতে পারে।
গিটহাব লিংক @ Buzz
Buzz এই মুহূর্তে GitHub এ এভেইলেবল রয়েছে যা Python দিয়ে লেখা। আপনি চাইলে সরাসরি সোর্স থেকেও এটি রান করতে পারেন অথবা ডেভেলপারের বাইনারি রিলিজটিও ব্যবহার করতে পারেন।
আপনি যদি সোর্স থেকে রান করতে চান তাহলে আপনার সিস্টেমে Python এবং Poetry লাইব্রেরী ইন্সটল থাকতে হবে। এগুলো থাকলে নিচের কমান্ডটি দিন, এটি প্রয়োজনীয় এলিমেন্ট ইন্সটল করে নেবে।
poetry install
তবে আপনি এসব ঝামেলায় যেতে না চাইলে বাইনারি রিলিজ ডাউনলোড করে সরাসরিও অ্যাপটি রান করতে পারেন। এখন পর্যন্ত Mac, Windows, এবং Linux ভার্সন এভেইলেবল রয়েছে।
আমি উইন্ডোজ ভার্সন ইন্সটল করব। আগে থেকে বলে নেয়া ভাল এটি একটি ভারী সফটওয়্যার সুতরাং আপনার হাই হার্ডওয়্যার কনফিগারেশন থাকলেই ইন্সটল করুন।
প্রথমে আপনার মাইক্রোফোন সিলেক্ট করতে হবে। ডিফল্ট ভাবে এটি ট্রান্সক্রিপশন মুডে থাকবে।
প্রথম বার রান করার পর এটি মডেল গুলো ব্যাকগ্রাউন্ডে ডাউনলোড করবে। তাই প্রথম রান কিছুটা স্লো হতে পারে। সব কিছু রেডি হলে রেকর্ড বাটন পাবেন এবং আপনি কথা বলা শুরু করতে পারেন। আপনার টেক্সট এডিটরে দেখা যাবে। পুরো ট্রান্সক্রিপশন প্রক্রিয়া বিভিন্ন ফ্যাক্টরের উপর নির্ভর করবে।
এই সফটওয়্যারের একুরেসি যথেষ্ট ভাল তবে Windows 10, 11 এর ভয়েস টাইপিং অথবা Speechnotes ওয়েবসাইটের মত এতটা স্মুথ না।
নিউরাল নেটওয়ার্ক হিসেবে Whisper চমৎকার। প্রোগ্রামার এবং ডেভেলপার হিসেবে আপনি স্পিচ টু টেক্সট ফাংশনালিটির অ্যাপ তৈরিতে এটি ব্যবহার করতে পারেন। একুরেসি ওকে কিন্তু এতটা স্মুথ না। তবে এটা GUI এর লিমিটেশন মডেলের না। আশা করা যায় পরবর্তী আপডেট গুলোতে এই সমস্যা থাকবে না।
আজকে এ পর্যন্তই শীঘ্রই দেখা হবে নতুন কোন টিউনের সাথে ততদিন ভাল থাকুন, আল্লাহ হাফেজ।
আমি সোহানুর রহমান। সুপ্রিম টিউনার, টেকটিউনস, ঢাকা। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 11 বছর 1 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 627 টি টিউন ও 200 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 118 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।
কখনো কখনো প্রজাপতির ডানা ঝাপটানোর মত ঘটনা পুরো পৃথিবী বদলে দিতে পারে।