সবাইকে জানাই আমার শুভেচ্ছা। টেকটিউনস-এ লেখালেখি করতে আমার ভালো লাগে। পাশাপাশি আমার নিজেরও একটি ব্লগ রয়েছে। তো বন্ধগণ চলুন শুরু করা যাক। জনপ্রিয়ের দিক দিয়ে দেখা যায় ব্রাজিল এবং আর্জেন্টিনার অনুসারী অনেক বেশী। কিন্তু কোন না কোন ভাবে দেখা যায় জার্মানির খেলাটা অন্যদের তুলনায় প্রত্যেকবারই ভালো হয়। বাজিকর (Bookmaker) যারা তারা জুয়া খেলার মতো বেট ধরে, যে কোন দল জিতবে। বড় বড় বাজিকর বা বাজিকরদের কোন প্রতিষ্ঠান পরিসংখ্যানবিদ নিয়োগ করে থাকে যাতে করে তারা আগের এবং বর্তমান বিভিন্ন তথ্য উপাত্ত বিশ্লেষণ করে সম্ভাব্য বিজয়ী দলের নাম বলতে পারে। বাজিকররা সেই দলের উপর তাদের অর্থ খাটিয়ে বাজি ধরে। প্রতিবার বিশ্বকাপের সময়েই এমনটি হয়ে থাকে।
২০১৮ বিশ্বকাপের বিভিন্ন সম্ভাবনার কথা মাথায় রেখে সেগুলো বিশ্লেষণ করে বাজিকররা বলছে যে এবার ব্রাজিল বিশ্বকাপ জিতবে এবং এই সম্ভাবনা ১৬.৬ শতাংশ। এরপরেই ১২.৮ সম্ভাব্যতা নিয়ে আছে জার্মানি এবং তারপর আছে স্পেন, যার সম্ভাবনা ১২.৫ শতাংশ। এই বিশ্লেষণ হয়েছে গনিত এবং পরিসংখ্যানকে এক করে। বর্তমানে এই কৃত্রিম বুদ্ধিমত্তার যুগে আরেকটি বিষয় ব্যাপক জনপ্রিয়তা পেয়েছে যাকে বলা হয় মেশিন লার্নিং। এই বিষয়টি একাধারে গণিত, পরিসংখ্যান এবং কম্পিউটার বিজ্ঞানের মিশেল। গণিতের ভিতরে সম্ভাব্যতাটা (Probability) এখানে বেশী ব্যবহার করা হয়। কিন্তু এই বিষয়ের জনপ্রিয়তা অন্যান্য বিষয়ের গবেষকদের কাছেও ছড়িয়ে পড়েছে। আগের তত্ত্ব এবং উপাত্ত ব্যবহার করে ভবিষ্যতে কি ঘটবে সেটার একটি সম্ভাব্য গাণিতিক বিশ্লেষণ করে এই মেশিন লার্নিং। পরিসংখ্যানে বিভিন্ন ধরনের গাণিতিক মডেল আছে যেগুলো একটি নির্দিষ্ট পরিসংখ্যানিক বণ্টন পদ্ধতি (Statistical Distribution) অনুসরণ করে। আবার এসব মডেলের প্রয়োগ করতে হলে কোন ধরনের ডাটা বা উপাত্ত ব্যবহার করা হচ্ছে সেটা ঠিক করে এগোতে হয়। তাছাড়া এই মডেলগুলো তৈরির পেছনে বেশ কিছু পূর্বানুমান (Assumption) ঠিক করে নিতে হয়।
কিন্তু মেশিন লার্নিং-এ এই ধরনের সমস্যা নেই। তারা ডাটা ঠিক রেখে কয়েকটি গাণিতিক সিদ্ধান্তের মাধ্যমে ফলাফল এনে দেয়। পরিসংখ্যানবিদরাও এখন মেশিন লার্নিং নিয়ে কাজ করছে কারণ এই বিষয়ের মূল ধারণাটি গাণিতিক পরিসংখ্যানের মধ্যেই নিহিত। এমনকি বিভিন্ন সময় প্রমাণ পাওয়া গিয়েছে যে মেশিন লার্নিং প্রচলিত পরিসংখ্যান থেকে ভালো এবং উপযুক্ত ফলাফল দেয়। সেজন্য ২০১৮ বিশ্বকাপকে সামনে রেখে জার্মানির Technical University of Dortmund এর একদল বিজ্ঞানী মেশিন লার্নিং ব্যবহার করে একটি মডেল দাড় করিয়েছেন। বিভিন্ন উপায় রয়েছে মেশিন লার্নিং এর ভিতরে। বিভিন্ন গাণিতিক এলগরিদম তৈরি করা আছে এখানে। জার্মানির এই বিজ্ঞানীরা অনেকগুলো পদ্ধতির মধ্যে থেকে Random Forest পদ্ধতিটি বেঁছে নেন।
এই পদ্ধতি বিশ্বকাপ সম্পর্কিত বিভিন্ন বিষয়ের উপাত্ত বিশ্লেষণ করে সম্ভাব্য বিজয়ী দলকে বেছে নিয়েছে। তাছাড়া অন্যান্য অনেক পদ্ধতি যেমনঃ Classification Analysis and Regression Tress, Deep Learning/ Deep Neural Network, Support Vector Machine ইত্যাদি বিভিন্ন মেশিন লার্নিং পদ্ধতি থাকা সত্তেও Random Forest কেন বেছে নেয়া হলো, এটা নিয়ে মতভেদ থাকতে পারে। তবে এই পদ্ধতির একটি সুবিধা হচ্ছে অন্যান্য পদ্ধতির গাণিতিক বিশ্লেষণের ভিতরে কিছু সমস্যা থাকে যেগুলো Random Forest খুব সহজেই এড়িয়ে যেতে পারে। মেশিন লার্নিং এর যেকোনো পদ্ধতিতে দুই ধরনের ডাটা ব্যবহার করা হয়। একটি হচ্ছে- Training Data, অর্থাৎ এই ডাটার উপর গাণিতিক বিশ্লেষণ করে ডাটার বিভিন্ন প্যাটার্ন বের করা হবে। আরেকটি ডাটা হচ্ছে Testing Data, এই ডাটার মাধ্যমে গাণিতিক পদ্ধতি ব্যবহার করে যে প্যাটার্ন পাওয়া গিয়েছে সেটা কতটুকু সত্য এবং নির্ভরযোগ্য সেটা প্রমাণ করা হয়।
Random Forest অনেকগুলো বিষয়ের উপাত্তগুলো নিয়ে সেগুলো থেকে বিশ্লেষণ করে সর্বাধিক গুরুত্বপূর্ণ বিষয় বা ভেরিয়েবলগুলো চিহ্নিত করে। এই কাজটি হয় কয়েকটি ধাপে বিভিন্ন সিদ্ধান্তের মাধ্যমে। এই সিদ্ধান্তগুলোর কয়েকটি নোডের মাধ্যমে দেখানো হয়। প্রথমে অনেকগুলো ডাটা নিয়ে কাজ শুরু করা হয়। বিভিন্ন ভেরিয়েবলগুলোর ডাটার উপর গাণিতিক বিশ্লেষণ করে পরের ধাপে যে যে ভেরিয়েবলের গুরুত্ব বেশী এবং সেই ভেরিয়েবলগুলো ঘটার সম্ভাবনা বেশী সেগুলো রাখা হয়, বাকিগুলো ফেলে দেয়া হয়। এভাবে অনেক সন্নিবেশ বিন্যাস করার পর সর্বোত্তম ফলাফল নিয়ে একটি Decision Tress তৈরি করা হয় যেটার একদম শেষের দিকে প্রধান ফলাফল দেয়া থাকে।
এতক্ষণ মেশিন লার্নিং নিয়ে আলোচনা করা হলো। এবার মূল বিষয়ে আসা যাক। জার্মানির সেই গবেষকদল প্রথমে পূর্বের বিশ্বকাপের ডাটা নিয়ে প্রতিটি খেলার সম্ভাব্য ফলাফল বিশ্লেষণ করেন এবং সেই ফলাফল থেকে বিশ্বকাপ জয়ী দল বের করেন। যেকোন কিছু ভবিষ্যদ্বাণী করতে হলে এমন কিছু বিষয়ের উপর লক্ষ্য রাখতে হয় যেটা সরাসরি ওই জিনিষ বা বস্তুর উপর প্রভাব ফেলবে। জার্মানির এই গবেষকদল, এমন কিছু বিষয়ের উপর জোর দিয়েছেন যেগুলো সরাসরি বিশ্বকাপের জয়ী দলের উপর প্রভাব ফেলবে। যেমনঃ বিশ্বকাপে খেলছে এমন দেশের অর্থনৈতিক অবস্থা, জিডিপি, ফিফার র্যংকিং, দলগুলোর ভিতরের বিভিন্ন বৈশিষ্ট্য, তাদের খেলার ধরন, খেলোয়াড়দের বিভিন্ন তথ্য যেমনঃ কার বয়স কতো, কয়জনের চ্যাম্পিয়ন্স লীগ খেলার অভিজ্ঞতা রয়েছে, দলের কতজন খেলোয়াড় এসব লীগের সেমি ফাইনাল এবং ফাইনালে খেলেছে, বিভিন্ন বিশ্বকাপের শুরু আগে কোন দলের কেমন র্যংকিং ছিল, একই দলের কতজন ক্লাবগুলোতে একই সাথে খেলেছে এবং অন্যদলের কতজন সেখানে একসাথে খেলেছে, দুটি দেশ যখন মুখোমুখি হয় তখন দুই দলের মধ্যে কতজন এক সাথে ক্লাবে খেলেছে এবং কত বছর ধরে খেলছে ইত্যাদি বিষয়াদিগুলো Random Forest বিশ্লেষণ করার জন্য ব্যবহার করা হয়েছে এখানে। এছাড়া এই ভবিষ্যদ্বাণী করার সময় গবেষকরা বাজিকরদের বর্তমান এবং পূর্বের তথ্য-উপাত্তও বিশ্লেষণ করেছেন।
এসব বিষয় নিয়ে যখন বিশ্লেষণ করা শুরু হলো তখন দেখা গেলো যে ফলাফলের উপর সবচেয়ে বেশী প্রভাব ফেলছে দলগুলোর র্যংকিং। এছাড়া অর্থনৈতিক বিষয়াদিগুলোও প্রভাব ফেলেছিল, এমনকি কোন দলের কোচ কোন দেশের এবং তাদের পূর্বের কৃতিত্ব এসবও প্রভাবক হিসেবে কাজ করছিলো। মোট ১৬টি বিষয় বিবেচনা করে এই গবেষণাটি করা হয় এবং বিশ্লেষণের প্রথম দিকে দেখা যায় যে স্পেনের এবার বিশ্বকাপ জেতার সম্ভাবনা সবচেয়ে বেশী। তাদের সম্ভাবনা ১৭.৮ শতাংশ।
কিন্তু ভবিষ্যদ্বাণীর করার সময় আরেকটি বিষয় খেয়াল রাখতে হবে যে বিভিন্ন পর্বে এবার কে কোন দলের সাথে খেলছে। সেজন্য এই বছরের ফিকচার খুলে বসে সেটা দেখতে হবে। এই ব্যাপারটি যখন বিশ্লেষণের মধ্যে আনা হলো তখন দেখা গেল যে জার্মানি যদি ১৬ দলের নকআউট পর্বে উঠে তাহলে তারা অনেক বেশী শক্ত প্রতিপক্ষের সামনে পড়বে, যেটা স্পেনের ক্ষেত্রে অনেক কম হবে। সেজন্য কোয়ার্টার ফাইনালে যাওয়ার সম্ভাব্যতা জার্মানির ক্ষেত্রে ৫৮ শতাংশে নেমে আসে এবং স্পেনের ক্ষেত্রে সেই সম্ভাবনা ৭৮ শতাংশে বেড়ে যায়। এই বিশ্লেষণ থেকে আরেকটি ব্যাপার উঠে আসে যে যদি দুই দলই কোয়ার্টার ফাইনালে যায় তাহলে স্পেনের সম্ভাবনা বেশী সেমিফাইনালে যাওয়ার কারণ জার্মানি বাদ পড়ে যেতে পারে, অন্তত অঙ্ক কষে সেটাই বোঝা যাচ্ছে।
কিন্তু এই ধরনের গাণিতিক মডেল তৈরি করতে হলে আরও অনেক বিষয় খেয়াল রাখতে হয়, না হলে মডেলে ভুল থাকার সম্ভাবনা বেড়ে যায়। Random Forest এর মাধ্যমে পুরো বিশ্বকাপটির সিমুলেশন বা গাণিতিকভাবে সম্ভাব্য অনুলিপি তৈরি করা যায়। যখন সিমুলেশন করা হচ্ছে তখন অন্যরকম ফলাফল পাওয়া যাচ্ছে।
এক লক্ষ বার এই সিমুলেশন চালানো হয় এবং বিশ্লেষণ করা হয়। এতোবার বিচার-বিশ্লেষণ করার পরে দেখা যাচ্ছে যে স্পেন নয়, এবার জার্মানি বিশ্বকাপ জিতে ব্রাজিলের পাঁচ বারের বিশ্বকাপ জিতে যাওয়াতে ভাগ বসাবে। এখান থেকে তারা বুঝতে পারেন যে স্পেন হয়তো বিশ্বকাপের শুরুর দিকে ভালো খেলবে কিন্তু জার্মানি যদি কোয়ার্টার ফাইনাল পর্যন্ত পৌঁছে যায় তাহলে জার্মানির জিতে যাওয়ার সম্ভাবনাই বেশী।
এই মডেল দেখলে আরও বোঝা যাচ্ছে যে ফাইনাল হবে ব্রাজিল এবং জার্মানির মধ্যে এবং জার্মানির জিতে যাওয়ার সম্ভাবনা ৬৮ শতাংশ। সেমিফাইনাল হবে ব্রাজিল-ফ্রান্স এবং স্পেন-জার্মানির মধ্যে। সেখান থেকে ব্রাজিল এবং জার্মানির ফাইনালে যাওয়ার সম্ভাবনা যথাক্রমে ৫৯% এবং ৫৫%। কোয়ার্টার ফাইনালেই আর্জেন্টিনার বিশ্বকাপ শেষ হওয়ার সম্ভাবনা দেখা যাচ্ছে ৬৩%।
তবে যে যে বিষয় নিয়ে এই গবেষণা এবং ভবিষ্যদ্বাণী করা হয়েছে সেগুলো যে খুব বেশী কার্যকর তা কিন্তু নয়। কারণ দলের ভিতরকার ইনজুরি সংখ্যা আগের বিশ্বকাপগুলোতে কেমন ছিল এবং এবার কেমন- সেটার উপর গুরুত্ব দেয়া হয়নি, খেলোয়াড়দের নিজ দেশের হয়ে খেলার সময় কেমন কৃতিত্বের সাক্ষর রেখেছে সেটার কোন উপাত্ত নেয়া হয়নি, খেলোয়াড়দের খেলার সময়কার বিভিন্ন দক্ষতা যেমনঃ কোন বিশ্বকাপে কে বেশী গোল করেছে, কোন দল বেশী গোল করেছে, কোন দলের কোন খেলোয়াড় কতবার এসিস্ট করেছে, কর্নার থেকে কয়বার গোল হয়েছে, কোন দল কত মিনিটে গোল দিয়েছে, হাফ টাইমের আগে কতবার গোল হয়েছে এবং গড়ে কয়টা হয়েছে, কোন দল প্রতিটা খেলায় কীভাবে জিতেছে, দলের খেলোয়াড় কতবার বল পাস করেছে- এই জিনিষগুলো মডেলে আনা হয়নি। এগুলোর ডাটা সংগ্রহ করা এখনকার যুগে মোটেও অসম্ভব কিছু নয়। এগুলো দিয়েও যদি বিশ্লেষণ করা হতো তাহলে আরও ভালোভাবে ফলাফল পাওয়া যেতে পারতো।
তবুও আধুনিক গাণিতিক তত্ত্ব ব্যবহার করে যে বিশ্লেষণ জার্মান গবেষকদল করেছে সেটা কতটুকু সত্য হয় সেটা বৃহস্পতিবার থেকে শুরু হতে যাওয়া বিশ্বকাপ শেষ হওয়ার পরই বোঝা যাবে।
সময় পেলে ঘুরে আসতে পারেন আমার ব্লগ৭১ থেকে।
আমি রনি সেন। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 6 বছর 5 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 9 টি টিউন ও 0 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 0 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।
ফাউল কথা