ওয়েব স্পাইডার/রোবট ব্যবহার করে স্বয়ংক্রিয় ভাবে ওয়েবপেজ থেকে তথ্য সংগ্রহ (শুধু শিক্ষামূলক উদ্দেশ্যে ব্যবহারের জন্য)

Awesome! টিউনস

সকল Awesome! টিউনস

এ মাসের টেকটিউনস সংবাদঃ ডিসেম্বর-২০০৯

রনি পারভেজ

এক সাথে যত খুশি ততো ই-মেইল চেক করুন ডেস্কটপ থেকে! প্রয়োজনীয় না হলে মূল্য ফেরত

হাসান যোবায়ের

হয়ে উঠুন পেনড্রাইভ ভাইরাস/ম্যালওয়্যার কিলার

এস বি মেহদি

ওয়েবসাইট তৈরী এবং হোস্টিং এর কয়েকটি ফ্রি অনলাইন টুল

দুঃসাহসী টিনটিন

2,705 দেখা 25 টিউমেন্টস জোসস

টিউন বিভাগ ওয়েব ডেভেলপমেন্ট

প্রকাশিত

Level 0

ashik734

10 টিউনস 70 টিউমেন্টস 0 ফলোয়ার

টিউমেন্ট ফলো জোসস

আসসালামু আলাইকুম।আশা করি আল্লাহর রহমতে সাবাই ভালোই আছেন।আজকে আমি আপনাদের দেখাবো কিভাবে php দিয়ে simple ওয়েব স্পাইডার তৈরী করতে পারবেন।

তার আগে জানিয়ে রাখছি- এটা একটা সৌখিন(amateur) স্পাইডার মাত্র। পেশাদার স্পাইডার নয়। এ পদ্ধতির অপব্যবহার করবেন না কেউ। আর সতর্ক থাকবেন যেনো ভুল কোডিং এর কারণে আপনি কোন সার্ভারের ব্ল্যাকলিস্টে পড়ে না যান।

প্রথমেই জেনে নিন ওয়েব স্পাইডার/crawler এর কাজটা কি ?

স্পাইডার/Crawler হলো এমন একটা প্রোগ্রাম যা স্বয়ংক্রিয়ভাবে একটি ওয়েব পেজের বিভিন্ন তথ্য সংগ্রহ করতে সক্ষম যেমন –পেজের টাইটেল, শিরোনাম, পেজের লিংক গুলো, পেজের বিভিন্ন তথ্য। বিভিন্ন সার্চ ইঞ্জিন গুলো এ ধরনের রোবট ব্যবহার করে পেজ ইন্ডেক্স করে এবং সার্চ এর ফলাফলে তা প্রদর্শন করে থাকে। গুগলের crawler googlebot, ইয়াহুর crawler slurp নামে পরিচিত। অধিকাংশ রোবট পার্ল/জাভা প্রোগামিং ল্যাংগুয়েজে লেখা এবং সেগুলোতে রোবট নিয়ন্ত্রন করার জন্য বিভিন্ন সুবিধা আছে। PHP তে প্রধান অসুবিধা হচ্ছে এর কাজ শেষ/max_execution_time অতিক্রান্ত হবার আগে এটা বন্ধ করার উপায় সহজ নয়। আপনাকে হয় সার্ভার restart করতে হবে অথবা cmd ব্যবহার করতে হবে।

PHP Crawler তৈরির জন্য আপনার যা যা লাগেব-

ওয়েব সার্ভার এবং হোস্টিং
php,regex এর উপর বেসিক ধারণা থাকতে হবে
কোড এডিটর যেমন –dreamweaver, notepad++ ইত্যাদি

ওয়েব সার্ভার হিসাবে যদি আপনি লোকাল সার্ভার বেছে নেন

তাহলে সবচেয়ে ভালো হয় কারণ এতে আপনি দ্রুত কাজটি করতে পারবেন এবং ঝামেলাও কম হবে। নিজের পিসিতে লোকাল সার্ভার ইন্সটল করার জন্য wampserver বেছে নিতে পারেন।পিসিতে wampserver install করা না থাকলে নিচের লিঙ্ক থেকে ডাউনলোড করতে পারবেন

http://www.wampserver.com/en/download.php

এরপর যথানিয়মে ইন্সটল করুন এবং wampserver রান করুন। এতে আপনার পিসির টাস্কবারে wampserver এর আইকন দেখতে পাবেন সেখানে left মাউস বাটন ক্লিক করুন। একটি মেনু আসবে। সেখান থেকে ‘www directory’ তে ক্লিক করুন।একটা নতুন ফোল্ডার খুলবে। এই ফোল্ডারে আপনি যে সকল ফাইল রাখবেন সেগুলো আপনি http://localhost/FileName এর মাধ্যমে প্রবেশ করতে পারবেন।

পেজের সোর্স কোড পড়ার জন্য আমরা যে ফাংশন গুলো ব্যবহার করবো সেগুলোর জন্য অবশ্যই PHP_CURL enable করা থাকতে হবে। wampserver এটা করার নিয়ম হচ্ছে -টাস্কবারে wampserver এর আইকনে left মাউস বাটন ক্লিক করুন। একটি মেনু আসবে। এবার PHP -> PHP extensions -> php_curl এ টিক চিহ্ন দিয়ে দিন।

এটা গেলো সার্ভার এর কথা এবার আসা যাক পিএইচপি এদিকে। আপনি চাইলে কোড গুলো কপি করে কাজ করতে পারবেন। কিন্তু নিজের পছন্দ মতো আরো কিছু ফিচার যোগ করতে চাইলে আপনার পিএইচপি জানা প্রয়োজন।বিশেষ করে লুপিং এর মাধ্যমে পেজের লিংক গুলো ইন্ডেক্স করার সময় অবশ্যই সতর্ক থাকবেন যেনো অসীম লুপ না হয়ে যায় বা লুপের নিষ্ক্রিয় থাকার (sleep time/recess time) সময়টা যথেষ্ট হয় এবং আপনার কোডের কারণে কোন সাইট ওভারলোডেড না হয়ে যায়।

কোড এডিটর হিসাবে আপনি যেটা খুশি ব্যবহার করতে পারেন ।তবে dreamweaver অথবা notepad++ ব্যবহার করলে ভালো সুবিধা পাবেন।

এবার আসা যাক কোডিং এর দিকে।

শুরুতেই আপনাকে একটি ফর্ম তৈরী করতে হবে যেখানে আপনি সাইটের লিংক ইনপুট দিবেন।


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">

<head>

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

<title>Simple Web Spider</title>

</head>

<body style="font-family:Tahoma">

<center>

<h1>Simple Web Spider</h1>

<form action="" method="post">

<label for="url">Enter Url To Fetch Data</label><br/>

<input type="text" name="url" id="url" style="border:2px solid orange; width:800px; height:20px" <?php if(isset($_POST['url']))echo 'value="'.htmlentities($_POST['url']).'"'; ?>/>

<input type="submit" value="Submit"/>

</form>

</center>

</body>

</html>

এতে আপনি পাবেন নিচের ছবির মতো একটা ইন্টারফেস-

এবার আসা যাক মূল কোডিং এর দিকে। আপনি যখন উপরের ফর্মে url বসিয়ে সাবমিট করবেন তখন উক্ত ফর্মের ডাটাগুলো পেজটা নিজেই প্রসেস করবে। আমরা action=”” এর মাধ্যমে সেই কমান্ডটাই দিয়ে রেখেছি।

আমরা url input বক্সটার নাম দিয়েছি url সুতরাং আমরা যদি url এর বক্সে কিছু লিখে সাবমিট করি তাহলে php তে সেটার value access করবো $_POST[‘url’] এর মাধ্যমে কারণ আমরা ফর্মের সাবমিট মেথড হিসাবে POST নির্ধারন করে দিয়েছি।এবার এই $_POST[‘url’] থেকে সাইটের ঠিকানা পাবো এবং আমরা ওই সাইটের সোর্স কোড বের করে সেখান থেকে তথ্য নিবো।


<?php

if(array_key_exists("url",$_POST)){//if post data available

$url=trim($_POST['url']);

$var=curl_init($url);

curl_setopt($var,CURLOPT_HEADER,0);

curl_setopt($var,CURLOPT_RETURNTRANSFER,1);

curl_setopt($var,CURLOPT_FOLLOWLOCATION,1);

curl_setopt($var,CURLOPT_BINARYTRANSFER,0);

$new_var=curl_exec($var);

}

?>

এখানে php curl library ব্যবহার করে আমরা সোর্স কোড বের করেছি যা $new_var এর মাধ্যমে access করা যাবে।এখানে আমি কেবল মাত্র পেজের টাইটেল কিভাবে বের করবেন তা দেখাবো।

টাইটেল বের করার জন্য আমরা রেগুলার এক্সপ্রেশন ব্যবহার করবো এবং সোর্স কোডের কোথায় মিল খুজে পাওয়া যায় তা দেখবো ।পেজের টাইটেল সাধারনত <title>SomeTitle</title> ট্যাগের মধ্যে থাকে।তাই টাইটেল খোজার জন্য আমাদের regular expression pattern টা হবে-

$search_pattern_title="<title>(.*)<\/title>";

তাহলে কোডটি হবে-


<?php

echo "<h2>Page Title</h2>";

if(preg_match("/$search_pattern_title/siU", $new_var, $match)){

$title=$match[1];

echo $title;

}

else echo "No title found";

?>

একই ভাবে পেজের সকল লিংক বের করার জন্য আমি নিচের pattern ব্যবহার করতে পারি –

$search_pattern_link="((http:\/\/).*([^a-zA-Z0-9\.\?\/\=_-]))|(https:\/\/).*([^a-zA-Z0-9\.\&\?\/\=_-])";

তাহলে সম্পুর্ণ কোডটি দেখে নিন-


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">

<head>

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

<title>Simple Web Spider</title>

</head>

<body style="font-family:Tahoma, Geneva, sans-serif">

<center>

<h1>Simple Web Spider</h1>

<form action="" method="post">

<label for="url">Enter Url To Fetch Data</label><br/>

<input type="text" name="url" id="url" style="border:2px solid orange; width:800px; height:20px" <?php if(isset($_POST['url']))echo 'value="'.htmlentities($_POST['url']).'"'; ?>/>

<input type="submit" value="Submit"/>

</form>

<?php

if(array_key_exists("url",$_POST)){//if post data available

$url=$_POST['url'];

$var=curl_init($url);

curl_setopt($var,CURLOPT_HEADER,0);

curl_setopt($var,CURLOPT_RETURNTRANSFER,1);

curl_setopt($var,CURLOPT_FOLLOWLOCATION,1);

curl_setopt($var,CURLOPT_BINARYTRANSFER,0);

$new_var=curl_exec($var);

$search_pattern_title="<title>(.*)<\/title>";

echo "<h2>Page Title</h2>";

if(preg_match("/$search_pattern_title/siU", $new_var, $match)){

$title=$match[1];

echo $title;

}

else echo "No title found";

echo "<h2>Links In The Page</h2>";

$search_pattern_link="((http:\/\/).*([^a-zA-Z0-9\.\?\/\=_-]))|(https:\/\/).*([^a-zA-Z0-9\.\&\?\/\=_-])";

$total_links=0;

if(preg_match_all("/$search_pattern_link/siU", $new_var, $matches)) {

$tmp=$matches[0];

foreach($tmp as $link){

$link=trim(substr($link,0,strlen($link)-1));

echo $link."<br/>";

$total_links++;

}

echo "<h2>Total Links :".$total_links."</h2>";

}

else echo "No link found";

}

?>

<br/><br/>

</center>

</body>

</html>

Curl এর মাধ্যমে সুবিধামতো proxy, user agent ব্যবহার করেও কাজ করা যায়। যেমন-proxy , user agent এর জন্য নিচের option গুলো যোগ করতে হবে-

$proxy=”proxy_server_ip:port”;

$agent=”your_user_agent”;

curl_setopt($ch, CURLOPT_PROXY,$proxy);

curl_setopt($ch, CURLOPT_USERAGENT,$agent);

পুরো সাইট থেকে তথ্য সংগ্রহ করতে চাইলে প্রত্যেক পেজ থেকে প্রাপ্ত লিঙ্ক গুলো একটা ফাইলে সেভ করে রাখবেন এবং তাদের প্রত্যেকের একটা করে সিরিয়াল নম্বর দিবেন। আরেকটি ফাইলে আপনি কোন সিরিয়াল নম্বরধারী লিঙ্কটি থেকে তথ্য নিয়েছেন এবং পরবর্তীতে কোন সিরিয়াল থেকে শুরু করবেন তা লিখে রাখতে পারেন যাতে পরবর্তীতে আপনি ওই সাইটের তথ্য সংগ্রহ চালিয়ে (resume) যেতে পারেন।

সংগ্রহ করা তথ্য আপনি ডাটাবেসে সংরক্ষন করতে পারেন এবং সংরক্ষিত তথ্য ব্যবহার করে তথ্য খোঁজার সুবিধাও (searching facility) চালু করতে পারেন ।

এভাবে আপনি নিজের সুবিধামতো করে কোডগুলো সাজিয়ে নিতে পারেন।

টিউমেন্ট ফলো জোসস

Level 0

ashik734

আমি ashik734। বিশ্বের সর্ববৃহৎ বিজ্ঞান ও প্রযুক্তির সৌশল নেটওয়ার্ক - টেকটিউনস এ আমি 14 বছর 10 মাস যাবৎ যুক্ত আছি। টেকটিউনস আমি এ পর্যন্ত 10 টি টিউন ও 70 টি টিউমেন্ট করেছি। টেকটিউনসে আমার 0 ফলোয়ার আছে এবং আমি টেকটিউনসে 0 টিউনারকে ফলো করি।

টিউনস

আরও টিউনস

ওয়েব ডেভেলপমেন্ট [পর্ব-০2] : নতুন হিসাবে CSS সর্ম্পকে ধারনা সর্ম্পূন কোর্সটি টেকটিউনস হবে

সিজান খান

ওয়েববেইজড এফটিপি ক্লায়েন্ট, নেট টু এফটিপি

মো. আমিনুল ইসলাম সজীব

ওয়েব ডেভলাপমেন্ট [পর্ব-০১] :: স্ট্যাটিক ওয়েবসাইটকে ডায়নামিক সাইটে রূপান্তর করা

ওবায়দুল হক

তথ্য প্রযুক্তি ও আইএসপি ISP ব্যবসা পর্ব-১

জেবিআরসফট আইটি ফার্ম

সিপ্যানেল কি? সিপ্যানেলের বৈশিষ্ট্য সম্পর্কে আলোচনা-সি-প্যানেল পর্ব-১

ছায়া ইয়াসমীন

অনলাইন বিজনেসের ক্ষেত্রে B2B Business to Business কতটা গুরুত্বপূর্ণ

ছায়া ইয়াসমীন

টিউনারের আরও টিউনস

নিড ফর স্পিড মোস্ট ওয়ান্টেড: ক্যারিয়ার...

ashik734

নিজেই ভাইরাস তৈরি করুন ।

ashik734

ওয়েব স্পাইডার/রোবট ব্যবহার করে স্বয়ংক্রিয় ভাবে...

ashik734

এডমিন ভাই / মডারেটর ভাইদের কাছে...

ashik734

টিউমেন্টস

S4t4N1C

Level 0

chorom jinish to.try kore dekhte hobe ekhoni

Bill Gates (Genuine)

Level 0

@S4t4N1C: চেষ্টা করে দেখুন। আশা করি মজা পাবেন ।

Md. Shafiul Alam Chowdhury

Level 0

সোজা প্রিয়তে। পরে ট্রাই করে দেখব।

Bill Gates (Genuine)

Level 0

@Md. Shafiul Alam Chowdhury: ধন্যবাদ 🙂

sakib

Level 0

jossssssssssssssssssssssssss……

Bill Gates (Genuine)

Level 0

@sakib: ধন্যবাদ 🙂

সাইফুল ইসলাম

Level 2

ভাল হয়েছে। চালিয়ে যান।
টেকটিউনস এ কিভাবে কোড হাইলাইট করবেন তা জানতে https://www.techtunes.io/web-design/tune-id/77692/ টিউনটি দেখুন।

ধন্যবাদ।

Bill Gates (Genuine)

Level 0

@সাইফুল ইসলাম: আপনাকেও ধন্যবাদ 🙂

নাহিদ

Level 0

এইডাই চাইছিলাম, এইডাই চাইছিলাম!!!

Bill Gates (Genuine)

Level 0

@নাহিদ:যা চাইছিলেন তা তো এবার তো পেয়ে গেলেন ।ধন্যবাদ 😀

ছলীম

Level 0

valo hoasa. Chalia jan…

ছলীম

Level 0

Vai, ai code wamp a run korala error dicha.

Fatal error: Call to undefined function curl_init() in C:\wamp\www\WebSpider\index.php on line 35

Bill Gates (Genuine)

Level 0

@ছলীম: আপনি মনে হয় নিচের ধাপ টি এড়িয়ে গেছেন তাই error দেখাচ্ছে –
টাস্কবারে wampserver এর আইকনে left মাউস বাটন ক্লিক করুন। একটি মেনু আসবে। এবার PHP -> PHP extensions -> php_curl এ টিক চিহ্ন দিয়ে দিন। সার্ভার পুনরায় চালু করুন।(restart)
ধন্যবাদ চেষ্টা করে দেখার জন্য। 🙂

এস এ আবির

Level 0

অসাধারণ। এটা ত এটিতো at a time একটি ওয়েবসাইট এর জন্য, কিন্তু সার্চ ইঞ্জিন ব্যাবহার করে নির্দিষ্ট কী ওয়ার্ড এর জন্য ওয়েব (multi url ) থেকে ইনফো collect করার কন script কি আছে ?

Bill Gates (Genuine)

Level 0

@এস এ আবির: একটা সাইট থেকে শুরু করলে দেখবেন সেই সাইটে অনেক বহিরাগত সাইটের লিংক(external link) পাবেন। সেগুলো লিস্ট করে রাখবেন আলাদা করে। এভাবে এক সাইট থেকে শুরু করলে দেখা যাবে আপনি অসংখ্য বিভিন্ন সাইটের লিংক পাবেন । তাই একবার শুরু করলে আশা করি কখোনই স্পাইডার সাহেব থামার সুযোগ পাবে না।

A.R.Bhuyan

Level 0

দারুন একটা টিউন করলেন ভাইয়া । ধন্যবাদ শেয়ার করার জন্য । ভাল থাকবেন এবং আশা করি এরকম আরও কিছু শেয়ার করবেন আমাদের সাথে ।

Bill Gates (Genuine)

Level 0

@A.R.Bhuyan: আপনাকেও ধন্যবাদ 🙂

apu21

Level 0

can anyone pls upload that soft (Wampserver) to any file host like mediafire.
I am not being able to download that from their site.
Pls help me to solve this problem.

Bill Gates (Genuine)

Level 0

@apu21: direct download link দিলাম- দেখেন হয় কি না –
http://nchc.dl.sourceforge.net/project/wampserver/WampServer%202/WampServer%202.2/WampServer2.2a-x32.exe

Bill Gates (Genuine)

Level 0

@Bill Gates (Genuine): অথবা এটা দেখুন –
http://www.ravishare.com/li9v7iimv78r/WampServer2.2a-x32.exe.html

apu21

Level 0

Thank you sir for your help……

ছলীম

Level 0

Bill Gates !! Vai apnaka onk dhonobad reply ar jono. Kaj hoasa.