Robots.txt ফাইল তৈরির সঠিক উপায়।

অনেক ওয়েব ডেভলোপারা বা নতুন যারা ওয়েব সাইট তৈরি করতেছে তারা না বুঝেই Robots.txt ফাইল তৈরি করে ব্যবহার করতেছে অথবা অন্যের সাইটের Robots.txt ফাইল কপি করে ব্যবহার করতেছে। আবার অনেকে তো এটা ব্যবহার করা তো দূরের কথা Robots.txt কি সেটাই জানে না। আসুন জেনে নেই Robots.txt এর বিস্তারিত।

Robots.txt কি ???


ওয়েব রোবট (Robots.txt) ফাইল বলতে বুঝায় এমন একটি ফাইল যা গুগল সার্চ ইঞ্জিনকে বা বিভিন্ন ধরনের রোবটদের বলে দেয় কোন কোন ডাইরেক্টরি সে crawl করতে পারবে আর কোনটা সে crawl করতে পারবে না।

যেমন মনে করেন Robots.txt ফাইলে যদি নীচের মত করে লিখি তবে কোন রোবট এই ডাইরেক্টরিকে crawl করতে পারবে না।

Disallow: /wp-admin/

Robots.txt ফাইল কেন প্রয়োজন ???


সার্চ ইঞ্জিন অপটিমাইজেশনের জন্য Robots.txt ফাইল অনেক গুরুত্বপূর্ণ একটি জিনিস। এর মাধ্যমেই গুগল সার্চবট বুঝে নেয় কোন কোন পেজ ইনডেক্স করতে হবে আর কোনটি করতে হবে না। এছাড়াও এটা করলে সাইটের সিকিউরিটিও বৃদ্ধি পায়। যারা। সেই সব হ্যাকার বটের মাধ্যমে সাইটকে হ্যাক করার চেষ্টা করে তাদের থেকে সুরক্ষা দিবে।

Robots.txt ফাইলের সংকেত বা শব্দ


Robots.txt ফাইলে কিছু কমন সংকেত বা শব্দ থাকে তা নিচে আলোচনা করা হলঃ

সংকেত বা শব্দবর্ণনা
User-agent:রোবট সমূহকে নির্দেশ করে।
*User-agent: * এর মানে সকল প্রকার রোবট।
Allow:লাইনে শুরুতে Allow: বলতে বুঝায় এর পরে যেই Path বা Directory থাকবে তা রোবট crawl করবে।বিঃদ্রঃ একটি পারফেক্ট Robots.txt ফাইলে Allow: না ব্যবহার করাই ভাল।
Disallow:লাইনে শুরুতে Disallow: বলতে বুঝায় এর পরে যেই Path বা Directory থাকবে তা কোন রোবট crawl করবে না।বিঃদ্রঃ যদি Disallow: এর পর কোন Path বা Directory না দেওয়া হয় তবে Disallow: কাজ করবে Allow এর।
#কমেন্ট লেখার জন্য ব্যবহার করা হয় এই চিহ্নটি। মানে কোড গুলো কোন বিষয়ক তা বুঝা যায়।বিঃদ্রঃ Robots.txt ফাইলে কমেন্ট না ব্যবহার করা উত্তম।

User-agent: ও Robots নিয়ে বিস্তারিত


Robots.txt ফাইল তৈরিতে প্রথমেই এসে User-agent: কথা। User-agent: বলতে ব্যবহারকারীকে বুঝি মানে যারা যারা এই সাইটটি পরিদর্শন করবে যেমনঃ সাধারন মানুষ, গুগল বট, গুগল বট ইমেজ, ইয়াহু এমন আরও অনেকে।

Robots.txt ফাইলের প্রথমেই বলে দিতে হয় কোন ব্যবহারকারীদের জন্য নীচের Disallow: গুলো প্রযোজ্য হবে। ব্যবহারকারী বলতে নির্দিষ্ট কিছু সার্চ Robots ও বিভিন্ন বটের বিশেষ কিছু অংশকে বুঝায় যেমনঃ User-agent: Googlebot-Image এখানে Googlebot-Image কিন্তু কোন Robots না। এটা গুগল বটের একটি নির্দিষ্ট অংশ। আসেন কিছু জনপ্রিয় সার্চ Robots ও বিভিন্ন বটের নির্দিষ্ট অংশের সাথে পরিচিত হই।

সার্চ Robots দের নামRobots.txt ফাইলে ব্যবহিত শব্দ
Google googlebot
MSN Search msnbot
Yahoo yahoo-slurp
Alexa/Wayback ia_archiver
Ask/Teoma teoma
Cuil twiceler
GigaBlast gigabot
Scrub The Web scrubby
DMOZ Checker robozilla
Nutch nutch
Baidu baiduspider

এবার আসুন বিভিন্ন বটের বিশেষ কিছু অংশের সাথে পরিচিত হইঃ

বটের বিশেষ অংশের নামRobots.txt ফাইলে ব্যবহিত শব্দ
Google Image googlebot-image
Google Mobile googlebot-mobile
Yahoo MM yahoo-mmcrawler
Yahoo Blogs yahoo-blogs/v3.9
MSN PicSearch psbot
SingingFish asterias

Disallow বা Allow অংশ


Robots.txt ফাইল দ্বারা যা Disallow করা হবে / এর পর সম্পূর্ণ URL বা ডাইরেক্টরি নাম দিতে হবে। যেমনঃ

Disallow: /wp-admin/

Disallow: /index.php

Disallow: /www.moumachibd.com/contact

যদি ওয়েব সাইটের কোন নির্দিষ্ট URL কে Disallow করতে হয় তবে নীচের মত লিখতে হবে

Disallow: /www.moumachibd.com/contact

যদি ওয়েব সাইটের পেজ, ট্যাগ, আর্কাইভ, ফিড, ক্যাটাগরি ইত্যাদি Disallow করতে হয় তবে নীচের মত লিখতে হবে

Disallow: /page/

Disallow: /tag/

Disallow: /feed/

Disallow: /archives/

যদি ওয়েব সাইটের কোন নির্দিষ্ট এক্সটেনশন এর সকল ফাইল Disallow করতে হয় তবে নীচের মত লিখতে হবে

Disallow: /*.php$

Disallow: /*.xhtml$

Disallow: /*.css$

ওয়ার্ডপ্রেস ব্যবহারকারীদের জন্য একটি কমন Robots.txt ফাইল নিচে দিলাম এটা ব্যবহার করতে পারেন। নীচের লেখা গুলো কপি করে নোট প্যাডে পেস্ট করুন এবং robot.txt নামে সেভ করুন। এরপর ফাইলটি আপনার সার্ভারের রুট ডাইরেক্টরিতে আপলোড করুন।

Sitemap: http://www.yourdomain.com/sitemap.xml.gz

User-agent: Googlebot-Image
Disallow:

User-agent: Mediapartners-Google*
Disallow:

User-agent: Googlebot
Disallow: /*?
Disallow: /*?*
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.xhtml$

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback/
Disallow: /feed/
Disallow: /index.php

উপরের Sitemap এ আপনার সাইটের সাইটম্যাপ দিন। এছাড়া যারা এসইও র জন্য পেজ, ট্যাগ বা আর্কাইভ, ক্যাটাগরি Disallow দিতে করতে চান তারা উপরের লেখা টুকুর সাথে নীচের অংশ টুকু অ্যাড করে দিন।

Disallow: /page/

Disallow: /tag/

Disallow: /archives/

আপনার সাইটের Robots.txt ফাইলটি আপনি খুব সহজেই দেখতে পারেন বা অন্য কেউ দেখতে পারবে। এজন্য http://www.yourdomain.com/robotx.txt (YourDomain এর জায়গায় আপনার সাইটের নাম দিবেন)  দিলেই হবে।

আপনার ওয়েব সাইটের Robots.txt ফাইলটি সঠিক হয়েছে কিনা তা পরীক্ষা করার জন্য http://tool.motoricerca.info/robots-checker.phtml এই সাইটটি ব্যবহার করতে পারেন। আপনার সাইটের Robots.txt ফাইলটি যদি সঠিক হয়ে থাকে তবে নীচের লোগোর মত একটি ভ্যালিড লোগো দিবে আপনাকে। চাইলে এটা আপনার সাইটে ব্যবহার করতে পারেন। আর যদি কোন ভুল থাকে তবে তা দেখাবে।

Valid Robots.txt

আপনার সাইটের Robots.txt তৈরিতে যদি কোন সমস্যা হয় তবে জানাতে পারেন।

ধন্যবাদ।

টিউন টি সর্বপ্রথমমৌমাছিতে প্রকাশিত। সময় থাকলে ঘুরে আসুন জানার আছে অনেক কিছু – মৌমাছি

Level New

আমি হোসেন রাহাত। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 13 বছর 4 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 46 টি টিউন ও 210 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 0 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।

প্রযুক্তিকে ভালোবাসি আর মানুষকে সাহায্য করতে পছন্দ করি তাই Blogging এর মাধ্যমে নিজের মনের ইচ্ছাকে পূরণ করার চেষ্টা করছি। আমাকে আরও জানতে Visit করুন -হোসেন রাহাত


টিউনস


আরও টিউনস


টিউনারের আরও টিউনস


টিউমেন্টস

সম্পূর্ণ Robots.txt ফাইলের প্রথম লাইনে সাইট ম্যাপ এর লোকেশন দেয়া লাগবে।
Sitemap: http://www.yourdomain.com/sitemap.xml.gz
কিন্তু কোডে দেয়ার কারনে অন্য ভাবে প্রকাশ করতেছে।
তাই যারা ওটা ব্যবহার করবেন তাদের ঠিক করে নেবার জন্য অনুরোধ করা হচ্ছে।

মাথাই খারাপ!!! জোশ!

thanks.

রাহাত পোস্ট ভালো হয়েছে, ভেবে খুব ভালো লাগছে কিছু জিনিস তুমি ইমপ্লিমেন্ট করছো।

তবে এখানে “ওয়ার্ডপ্রেস ব্যবহারকারীদের জন্য একটি কমন Robots.txt ফাইল নিচে দিলাম ” মানে এই Robots.txt ফাইলের প্রথম লাইনে একটু ভুল আছে…

User-agent: Googlebot-Image
Disallow:

এখানে গুগল বটকে ইমেজের জন্য Disallow করে দিলে, কোন ইমেইজ ই Google Images বট ক্রল করতে পারবে না, আর আমরা জানি সাইটে ভিজিটর এর অন্যতম আরেক সোর্স হচ্ছে Google Images সার্চ ইঞ্জিন। আর তাই এটাকে এক্সেস দেওয়া উচিৎ। এখানে তাহলে নিচের মত লিখতে হবে। আর এটা wp-content/uploads লিখলাম কারন এখানেই ইমেইজ গুলো থাকে।

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

আরেকটা কথা Mediapartners Google এর মাধ্যমে বুঝায় গুগলের এসোসিয়েট কার্যক্রম এর ক্রাউলার গুলোকে
এক্সেস দেওয়া বা না দেওয়া। যার মধ্যে অন্যতম হচ্ছে গুগল এডসেন্স। আর Mediapartners Google এর এড সেন্সের এর ক্ষেত্রে কাজ হচ্ছে বিভিন্ন পেজ বা পোস্ট গুলোর ভিতরে যেয়ে এনালাইজ করা যার উদ্দেশ্য রিলেভেন্ট এড শো করা।

User-agent: Mediapartners-Google*
Disallow:

আর তাই এখানে Mediapartners Google কে Disallow না করে সবার ই উচিৎ নিচের মতো Allow করে দেওয়া। যাতে রিলেভেন্ট এড শো করা উদ্দেশ্যে এক্সেস করতে পারে।

User-agent: Mediapartners-Google*
Allow: /

ওভার অল ভালো লাগলো পোষ্টটি, নতুনদের অনেক কাজে লাগবে।

    @তাহের চৌধুরী (সুমন): ভাইয়া একটু ভুল হইছে। আপনি পোষ্টটি একটু ভাল ভাবে পরে দেখেন। প্রথম ছকে বর্ণনা করা আছে। Disallow: এর পর যদি / চিনহ না ব্যবহার করা হয় তবে সেটা কে Allow বুঝায়। যেমনঃ
    Disallow = Allow
    Disallow / =Disallow
    আর ভাইয়া ওইযে আপনি বললেন তার পর শুধু এই Robots ফাইল নিয়ে ঘাটাঘাটি করছি ৩ দিন তার পর এই পোষ্টটি লিখছি।
    Robots ফাইলে ১০০% পারফেক্ট করতে হলে কি কি Disallow করবো তা উল্লেখ করতে হবে ফাইলে কি কি Allow করবো তা দিলে কোন কাজ হবে না। ও মাঝে মাঝে ইরোর হতে পারে।
    শেষে দেখেন চেক করার জন্য একটি সাইট দিছি। সার্চ দিয়ে দেখলাম এটাকে অনেক মানুষ নির্ভরযোগ্য হিসাবে ব্যবহার করে।
    আমার মৌমাছির Robots.txt টা ওই সাইটের চেকারের মাধ্যমে দেখতে পারেন ১০০% সঠিক আছে।
    কিন্তু ফাইলে যদি Allow দেয়া হয় তবে সেটাকে সঠিক ধরা হয় না।
    যদি কোন ভুল থাকে বলতে পারেন।
    ধন্যবাদ।

      @হোসেন রাহাত: দুঃখিত রাহাত স্লাশহীন Disallow: কে Allow বুঝায়, আমার দেখায় ভুল ছিল। আরে কি কি Disallow করতে হবে সেটা ত ঠিক আছে ওখানে

      user-agent: *
      Disallow: /wp-content/

      এখানে নিচের মত রোবট টেক্সট ইউজ করলে ইরর হওয়ার কথা নয়। কারণ এখানে একটা সিঙ্গেল সাব ডিরেক্টরিকে কে বিশেষ বট এর জন্য ইউজ করা হচ্ছে।

      User-agent: Googlebot-Image
      Allow: /wp-content/uploads/

      আর আমি যত টুকু জানি ফরওয়ার্ড স্লাস হীন Disallaow ইউজ করা যাবে তবে Allow ইউজ করলে সেটাকে সঠিক ধরা হবেনা এমনটা নয়, এটাও ইউজ করা হয় আর ইরর আসার কথাও নয়।

      @হোসেন রাহাত: নাও এখানে গুগলের ম্যাট কাটস এর লেখা আছে দেখো স্বয়ং উনি বিশেষ বট কে Allow ব্যাবহার করার যুক্তি দিয়েছেন
      আর যা স্বয়ং গুগল ওকে করে দিয়েছে। তুমি মনে হয় মাত্র ১টি টুলস দিয়ে চেক করেছো, আর আমি আরও ৪/৫ টি টুলস দিয়ে চেক করলাম বাট কোন ইরর খুঁজে পেলাম না। আরও শুনলে অবাক হবা গুগলের ম্যাট কাটস তার ঐ পোস্টের এক কমেন্টে বলেছেন যে প্রায় 5 million ওয়েবমাস্টার এসব ক্ষেত্রে allow ইউজ করছে। 😛

@তাহের চৌধুরী (সুমন) জি ভাইয়া আমিও সেটাই জানতাম কিন্তু সার্চ করতে গিয়ে পেলাম এটা + ওই চেকার সাইটটা ইরোর ধরে।

Level 0

প্রাজ্ঞদের মধুর আলোচনা আমাদের চিন্তার দিগন্তকে প্রসারিত করে। সুমন ভাই ও রাহাত ভাইদ্বয়কে ধন্যবাদ।

amar robots file kaj kortese na.

আমার কিছু সস্বা আছে,সহায়তা চাই।বিনা পারিশ্রমিক অথবা পারিশ্রমিক।ধন্যবাদ