অনেক ওয়েব ডেভলোপারা বা নতুন যারা ওয়েব সাইট তৈরি করতেছে তারা না বুঝেই Robots.txt ফাইল তৈরি করে ব্যবহার করতেছে অথবা অন্যের সাইটের Robots.txt ফাইল কপি করে ব্যবহার করতেছে। আবার অনেকে তো এটা ব্যবহার করা তো দূরের কথা Robots.txt কি সেটাই জানে না। আসুন জেনে নেই Robots.txt এর বিস্তারিত।
Robots.txt কি ???
ওয়েব রোবট (Robots.txt) ফাইল বলতে বুঝায় এমন একটি ফাইল যা গুগল সার্চ ইঞ্জিনকে বা বিভিন্ন ধরনের রোবটদের বলে দেয় কোন কোন ডাইরেক্টরি সে crawl করতে পারবে আর কোনটা সে crawl করতে পারবে না।
যেমন মনে করেন Robots.txt ফাইলে যদি নীচের মত করে লিখি তবে কোন রোবট এই ডাইরেক্টরিকে crawl করতে পারবে না।
Disallow: /wp-admin/
Robots.txt ফাইল কেন প্রয়োজন ???
সার্চ ইঞ্জিন অপটিমাইজেশনের জন্য Robots.txt ফাইল অনেক গুরুত্বপূর্ণ একটি জিনিস। এর মাধ্যমেই গুগল সার্চবট বুঝে নেয় কোন কোন পেজ ইনডেক্স করতে হবে আর কোনটি করতে হবে না। এছাড়াও এটা করলে সাইটের সিকিউরিটিও বৃদ্ধি পায়। যারা। সেই সব হ্যাকার বটের মাধ্যমে সাইটকে হ্যাক করার চেষ্টা করে তাদের থেকে সুরক্ষা দিবে।
Robots.txt ফাইলের সংকেত বা শব্দ
Robots.txt ফাইলে কিছু কমন সংকেত বা শব্দ থাকে তা নিচে আলোচনা করা হলঃ
সংকেত বা শব্দ | বর্ণনা |
User-agent: | রোবট সমূহকে নির্দেশ করে। |
* | User-agent: * এর মানে সকল প্রকার রোবট। |
Allow: | লাইনে শুরুতে Allow: বলতে বুঝায় এর পরে যেই Path বা Directory থাকবে তা রোবট crawl করবে।বিঃদ্রঃ একটি পারফেক্ট Robots.txt ফাইলে Allow: না ব্যবহার করাই ভাল। |
Disallow: | লাইনে শুরুতে Disallow: বলতে বুঝায় এর পরে যেই Path বা Directory থাকবে তা কোন রোবট crawl করবে না।বিঃদ্রঃ যদি Disallow: এর পর কোন Path বা Directory না দেওয়া হয় তবে Disallow: কাজ করবে Allow এর। |
# | কমেন্ট লেখার জন্য ব্যবহার করা হয় এই চিহ্নটি। মানে কোড গুলো কোন বিষয়ক তা বুঝা যায়।বিঃদ্রঃ Robots.txt ফাইলে কমেন্ট না ব্যবহার করা উত্তম। |
User-agent: ও Robots নিয়ে বিস্তারিত
Robots.txt ফাইল তৈরিতে প্রথমেই এসে User-agent: কথা। User-agent: বলতে ব্যবহারকারীকে বুঝি মানে যারা যারা এই সাইটটি পরিদর্শন করবে যেমনঃ সাধারন মানুষ, গুগল বট, গুগল বট ইমেজ, ইয়াহু এমন আরও অনেকে।
Robots.txt ফাইলের প্রথমেই বলে দিতে হয় কোন ব্যবহারকারীদের জন্য নীচের Disallow: গুলো প্রযোজ্য হবে। ব্যবহারকারী বলতে নির্দিষ্ট কিছু সার্চ Robots ও বিভিন্ন বটের বিশেষ কিছু অংশকে বুঝায় যেমনঃ User-agent: Googlebot-Image এখানে Googlebot-Image কিন্তু কোন Robots না। এটা গুগল বটের একটি নির্দিষ্ট অংশ। আসেন কিছু জনপ্রিয় সার্চ Robots ও বিভিন্ন বটের নির্দিষ্ট অংশের সাথে পরিচিত হই।
সার্চ Robots দের নাম | Robots.txt ফাইলে ব্যবহিত শব্দ |
googlebot | |
MSN Search | msnbot |
Yahoo | yahoo-slurp |
Alexa/Wayback | ia_archiver |
Ask/Teoma | teoma |
Cuil | twiceler |
GigaBlast | gigabot |
Scrub The Web | scrubby |
DMOZ Checker | robozilla |
Nutch | nutch |
Baidu | baiduspider |
এবার আসুন বিভিন্ন বটের বিশেষ কিছু অংশের সাথে পরিচিত হইঃ
বটের বিশেষ অংশের নাম | Robots.txt ফাইলে ব্যবহিত শব্দ |
Google Image | googlebot-image |
Google Mobile | googlebot-mobile |
Yahoo MM | yahoo-mmcrawler |
Yahoo Blogs | yahoo-blogs/v3.9 |
MSN PicSearch | psbot |
SingingFish | asterias |
Disallow বা Allow অংশ
Robots.txt ফাইল দ্বারা যা Disallow করা হবে / এর পর সম্পূর্ণ URL বা ডাইরেক্টরি নাম দিতে হবে। যেমনঃ
Disallow: /wp-admin/ Disallow: /index.php Disallow: /www.moumachibd.com/contact
যদি ওয়েব সাইটের কোন নির্দিষ্ট URL কে Disallow করতে হয় তবে নীচের মত লিখতে হবে
Disallow: /www.moumachibd.com/contact
যদি ওয়েব সাইটের পেজ, ট্যাগ, আর্কাইভ, ফিড, ক্যাটাগরি ইত্যাদি Disallow করতে হয় তবে নীচের মত লিখতে হবে
Disallow: /page/ Disallow: /tag/ Disallow: /feed/ Disallow: /archives/
যদি ওয়েব সাইটের কোন নির্দিষ্ট এক্সটেনশন এর সকল ফাইল Disallow করতে হয় তবে নীচের মত লিখতে হবে
Disallow: /*.php$ Disallow: /*.xhtml$ Disallow: /*.css$
ওয়ার্ডপ্রেস ব্যবহারকারীদের জন্য একটি কমন Robots.txt ফাইল নিচে দিলাম এটা ব্যবহার করতে পারেন। নীচের লেখা গুলো কপি করে নোট প্যাডে পেস্ট করুন এবং robot.txt নামে সেভ করুন। এরপর ফাইলটি আপনার সার্ভারের রুট ডাইরেক্টরিতে আপলোড করুন।
Sitemap: http://www.yourdomain.com/sitemap.xml.gz User-agent: Googlebot-Image Disallow: User-agent: Mediapartners-Google* Disallow: User-agent: Googlebot Disallow: /*? Disallow: /*?* Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.css$ Disallow: /*.xhtml$ User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/ Disallow: /trackback/ Disallow: /feed/ Disallow: /index.php
উপরের Sitemap এ আপনার সাইটের সাইটম্যাপ দিন। এছাড়া যারা এসইও র জন্য পেজ, ট্যাগ বা আর্কাইভ, ক্যাটাগরি Disallow দিতে করতে চান তারা উপরের লেখা টুকুর সাথে নীচের অংশ টুকু অ্যাড করে দিন।
Disallow: /page/ Disallow: /tag/ Disallow: /archives/
আপনার সাইটের Robots.txt ফাইলটি আপনি খুব সহজেই দেখতে পারেন বা অন্য কেউ দেখতে পারবে। এজন্য http://www.yourdomain.com/robotx.txt (YourDomain এর জায়গায় আপনার সাইটের নাম দিবেন) দিলেই হবে।
আপনার ওয়েব সাইটের Robots.txt ফাইলটি সঠিক হয়েছে কিনা তা পরীক্ষা করার জন্য http://tool.motoricerca.info/robots-checker.phtml এই সাইটটি ব্যবহার করতে পারেন। আপনার সাইটের Robots.txt ফাইলটি যদি সঠিক হয়ে থাকে তবে নীচের লোগোর মত একটি ভ্যালিড লোগো দিবে আপনাকে। চাইলে এটা আপনার সাইটে ব্যবহার করতে পারেন। আর যদি কোন ভুল থাকে তবে তা দেখাবে।
আপনার সাইটের Robots.txt তৈরিতে যদি কোন সমস্যা হয় তবে জানাতে পারেন।
ধন্যবাদ।
টিউন টি সর্বপ্রথম “মৌমাছি” তে প্রকাশিত। সময় থাকলে ঘুরে আসুন জানার আছে অনেক কিছু – মৌমাছি
আমি হোসেন রাহাত। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 13 বছর 5 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 46 টি টিউন ও 210 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 0 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।
প্রযুক্তিকে ভালোবাসি আর মানুষকে সাহায্য করতে পছন্দ করি তাই Blogging এর মাধ্যমে নিজের মনের ইচ্ছাকে পূরণ করার চেষ্টা করছি। আমাকে আরও জানতে Visit করুন -হোসেন রাহাত
প্রাজ্ঞদের মধুর আলোচনা আমাদের চিন্তার দিগন্তকে প্রসারিত করে। সুমন ভাই ও রাহাত ভাইদ্বয়কে ধন্যবাদ।
সম্পূর্ণ Robots.txt ফাইলের প্রথম লাইনে সাইট ম্যাপ এর লোকেশন দেয়া লাগবে।
Sitemap: http://www.yourdomain.com/sitemap.xml.gz
কিন্তু কোডে দেয়ার কারনে অন্য ভাবে প্রকাশ করতেছে।
তাই যারা ওটা ব্যবহার করবেন তাদের ঠিক করে নেবার জন্য অনুরোধ করা হচ্ছে।