বিশ্বের ৬০ কোটি ইন্টারনেট ব্যবহারকারীদের ২৭.৩% হচ্ছে ইংরেজী ভাষী (সূত্র) আর ২২.৬% হচ্ছে চৈনিক ভাষী। অন্যান্য ভাষাভাষীরা অনেক পিছিয়ে (স্প্যানিশ ৭.৮%, জাপানী ৫%, পর্তুগীজ ৪.৩%, জার্মান ৩.৮%, আরবী ৩.৩%) - বাংলা, হিন্দিভাষী বিশাল জনগোষ্ঠী ইন্টারনেটে তাদের ভাষায় কথা বলে তুলনামূলকভাবে কম। রয়েছে আরও অসামঞ্জস্যতা - ৩১৩ বিলিয়ন ওয়েবপেইজের ৬৮.৪% ইংরেজী ভাষায় তার পরে মাত্র ৫.৯% জাপানি ভাষায় আর ৫.৮% জার্মান ভাষায় (সূত্র)। ২২.৬% চৈনিক ভাষী ব্যবহারকারী ওয়েব কন্টেন্টের মাত্র ৩.৯% তৈরি করে।
এই সব পরিসংখ্যান একটি কথা বলে - আমরা বিশ্বকে জানি বা দেখি ইংরেজী ভাষীদের দৃষ্টিতে - হবেই না কেন বিশ্বের ৬২.৫৫% সংবাদপত্র/ম্যাগাজিন, ২২% বই, ৪৫% জার্নাল, ৩৫% ছবি ও ভিডিও ইংরেজী ভাষায়। কিন্তু এটি একে অপরকে বোঝার ক্ষেত্রে সমস্যার সৃষ্টি করছে নানা স্টেরিওটাইপ তৈরির মাধ্যমে। আমরা ব্রাজিলের কোন ব্লগারের বক্তব্য জানতে পারব না যদি না কেউ অনুবাদ করে দেয় তার ব্লগ। তেমনি বাংলা ব্লগারের লেখা একজন ব্রাজিলিয় পড়তে পারে না।
বিশ্ব সমাজকে এগিয়ে নিতে গেলে তাই অনুবাদ একটি গুরুত্বপূর্ণ মাধ্যম। অনুবাদের কার্যকরী টুলটি সেক্ষেত্রে একটি জরুরী উদ্ভাবন। কিন্তু বাস্তবিক ক্ষেত্রে মেশিন ট্রান্সলেশন কি পর্যায়ে আছে? এক ক্লিকে অনুবাদের ব্যবস্থাটি এখনও নিখুঁত নয়। তার চেয়ে বড় কথা হল মেশিন সব অনুবাদ করে দেবে এই ধারনাটি কম্পিউটার কবিতা লিখবে এরই সমার্থক।
অনুবাদ একটি শিল্প। একজন অনুবাদকের দুই ভাষা ও সংস্কৃতি সম্পর্কে ধারণা থাকা লাগে, পাঠকদের কথা চিন্তা করতে হয় - তবেই সে সঠিক অর্থ ফুটিয়ে তুলতে পারে। আমাদের অনেকেরই জানা নেই যে অনুবাদ একটি ১৮-২০ বিলিয়ন ডলার ইন্ডাস্ট্রি। বিশ্বাস হচ্ছে না? ছবির সাবটাইটেল একটি বড় অনুবাদের জায়গা। এরপর ধরুন ইউরোপিয়ান ইউনিয়নের অনেক প্রকাশনা নিয়ম অনুযায়ী সদস্য দেশগুলোর ২৩টি ভাষায় অনূদিত হয়। অনেক পেশাদারী অনুবাদের প্রতিষ্ঠান রয়েছে এসব ক্ষেত্রে কর্মরত। তাদের কাজের সুবিধার জন্যে নানা সফট্ওয়্যারের উদ্ভব হয়েছে - যেমন প্রোপাইটরী সিসট্রান, ট্রাডোস ইত্যাদি - বা ওপেন সোর্স - যেমন লিঙ্গোটেক, লুসি সফটওয়্যার, আপেরিটিয়াম ইত্যাদি। এইসব সফট্ওয়্যারের মূল মন্ত্র হচ্ছে একই বাক্যের অনুবাদ যাতে দুইবার না করতে হয়। সেজন্যে তারা সাহায্য নেয় ট্রান্সলেশন মেমোরির। মেশিন অনুবাদে যেই ভাষায় সবচেয়ে বেশী কন্টেন্ট পাওয়া যায় সেই ভাষায় অনুবাদ সবচেয়ে বোধগম্যভাবে হয়। কিন্তু এইসব ট্রান্সলেশন মেমোরি বিনামূল্যের নয় - বাজারে বিক্রি হয়। তবে যেই সফ্টওয়্যার ব্যবহার করা হোক মানুষ কর্তৃক মান নিয়ন্ত্রণই সফল বাণিজ্যিক অনুবাদের চাবিকাঠী।
অনুবাদকে তার ব্যয়বহুল ইন্ডাস্ট্রির কবল থেকে মুক্ত করে সার্বজনীন করার লক্ষ্যে ওপেন ট্রান্সলেশন ধারনার উদ্ভব ঘটে। এখানে ক্রাউড সোর্সিং এবং স্বেচ্ছাসেবী অনুবাদের মাধ্যমে মেশিন ট্রান্সলেশন টুলস ব্যবহার করা হয়। গুগলের ট্রান্সলেটর টুলকিট এমন একটি ওপেন ট্রান্সলেশন টুল যেখানে স্বেচ্ছাসেবীরা নিত্য নতুন অনুবাদ সৃষ্টি করে চলেছে এবং সবার জন্যে উন্মুক্ত ট্রান্সলেশন মেমোরি রিপোজিটরি তৈরি করছে।
টেড তাদের ভিডিও অনুবাদের জন্যে অর্ধ মিলিয়ন ডলার খরচ করেছে। তাদের পেশাদারী সংস্থা দিয়ে করা কিছু বাংলা অনুবাদ দেখে যারপরনাই বিরক্ত হয়েছিলাম এবং তাদের একজনকে বলেছিলাম গ্লোবাল ভয়েসেস বাংলা সংস্করণে স্বেচ্ছাসেবীদের দ্বারা এর থেকে অনেক উঁচু মানের কাজ হয়। তাদের সমস্যা ছিল কাজটি বুঝে নিয়েছিল অবাঙ্গালী কেউ - তাই যা ইচ্ছা বুঝিয়ে দিয়েছিল অনুবাদ সংস্থা। টেড এর পরে কমিউনিটি বেইজড ওপেন ট্রান্সলেশন মডেল চালু করে যা সাফল্য পায়।
বাংলা বা তামিলের মত বহু ব্যবহৃত ভাষার জন্যে কার্যকরী মেশিন ট্রান্সলেশন টুলস এতদিন তৈরি না হওয়ার পেছনে রয়েছে পর্যাপ্ত উদ্যোগ ও অর্থের অভাব - অনুবাদক ও অন্কুর এর মত গুটিকয়েক প্রকল্প বেশি দুর আগাতে পারেনি পৃষ্ঠপোষকতার অভাবে।
এছাড়াও রয়েছে প্রযুক্তিগত চ্যালেঞ্জ - অনুবাদ কিন্তু শুধু শব্দের প্রতিস্থাপন নয় - রয়েছে ব্যাকরণ, বাক্যের গঠন, রুপক, বাগধারা ইত্যাদির প্রভাব। যেমন ধরুন দক্ষিণ এশীয় ভাষাগুলোতে বাক্যগুলো (subject-object-verb * আমি-ভাত-খাই) নিয়মে গঠিত হয় যেখানে ইংরেজীতে বাক্য গঠিত হয় (subject-verb-object * I eat rice) এই নিয়মে। এছাড়াও পর্যাপ্ত উন্মুক্ত কন্টেন্টের অভাব একটি বড় কারন ছিল। বিষয়টা ব্যাখ্যা করি। একটি মেশিন ট্রান্সলেশন টুলস তিনটি নিয়ম মেনে কাজ করতে পারে:
ক) রুলস বেইজড (ব্যাকরণের নিয়ম আর অভিধান)
খ) স্ট্যাটিস্টিকাল (দ্বিভাষী ট্রান্সলেশন মেমোরি বা করপাস নিয়ে কাজ করে) আর
গ) হাইব্রিড (উপরের দুয়ের সংমিশ্রণ)
গুগল প্রথম দিকে রুলস বেইজড প্রক্রিয়ায় অনুবাদ করলেও ২০০৭ সাল থেকে স্ট্যাটিসটিক্যাল মেথড চালু করে। এই প্রক্রিয়ায় বিশালাকার টেক্সট কর্পোরাএর দরকার হয়। এটি কার্যকরী করতে ন্যুনতম ২০ লাখ শব্দ নিয়ে কাজ করতে হয় এবং অনেক কম্পিউটিং শক্তি লাগে। এই প্রক্রিয়ার সুবিধা হল যে এটি অনুবাদকারীকে সুযোগ দেয় বেশ কিছু কাছাকাছি শব্দ থেকে বেছে নিতে।
[img]http://3.bp.blogspot.com/-aeV8jF52kRI/Tai2LKwMrEI/AAAAAAAAATk/2KLnTwuFBkE/s400/image00.png[/img]
এই পদ্ধতিতে আরেকটি সুযোগ আছে - ক্রমাগত অনুবাদের মান বৃদ্ধি করা। গুগল ব্লগ অনুযায়ী আপনি ভুল অনুবাদকে ঠিক করতে পারবেন অনায়াসেই এবং গুগল সেটি মনে রাখবে এবং পরবর্তী বার সঠিক অনুবাদ উপস্থাপন করবে।
কাজেই আমি মনে করি গুগল ট্রান্সলেইটে বাংলা ভাষাভাষীদের জন্যে একটি যুগান্তকারী টুল। এটি এযাবৎকালে পাওয়া যাওয়া একমাত্র টুল অনুবাদক অনলাইনের চেয়ে বহুগুণে সমৃদ্ধ। আর এখন বাংলা ভাষা থেকে বিশ্বের ৬২টি ভাষায় (ভুল হলেও) অনুবাদ সম্ভব - এর শক্তি নিশ্চয়ই অনুমেয়। আসুন ওপেন ট্রান্সলেশন ধারনা আপন করে গুগল ট্রান্সলেট এর ভুলগুলো নিজেরা শুদ্ধ করে দেই ভবিষ্যৎ কল্যাণের জন্যে অথবা গুগল ট্রান্সলেটর টুলকিটব্যবহার করে গুগলের ট্রান্সলেশন মেমরিকে সমৃদ্ধ করি।
প্রথম প্রকাশিত হয় এখানে। Online tutorials.
আমি স্বরবর্ণ। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 13 বছর 1 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 1 টি টিউন ও 2 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 0 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।
আপনাকে ধন্যবাদ না দিয়ে পারলাম না। লেখাটি অনেক সুন্দর এবং গোঁছানো হয়েছে। চমৎকার লেখার জন্য ধন্যবাদ।
আমি গুগল অনুবাদ এর বেশ কিছু শব্দ এবং বাক্য সঠিক করেছিলাম। আশা করি আরো কিছু শব্দ এবং বাক্যে অবদান রাখতে পারবো।