Bdjobs ওয়েবসাইট থেকে IT Job কিভাবে crawl করা যায়
BDJobs থেকে IT তে চাকুরীর টাইটেল, চাকুরীর স্থান, চাকুরীর শেষ সময়, কত বছর অভিজ্ঞতা লাগবে সেটা কিভাবে বের করা যায় তা দেখানো হয়েছে এই আর্টিকেলে।
Data Crawl করে ওয়েবসাইট থেকে টাইটেল, ছবি, ডেসক্রিপশন, রিভিউ সংগ্রহ করা সম্ভব। ওয়েবসাইট এর প্রতিটি পেজ এ যেয়ে এই তথ্য গুলো সংগ্রহ করা অনেক সময়ের ব্যাপার।
প্রোগ্রামিং জানা থাকলে Data Crawler বানানো সম্ভব। Data Crawler এর অনেক কাজ পাওয়া যায় freelancing ওয়েবসাইটে।
Data Crawler নিয়ে আমাদের কোর্স:
উপরের কোর্সে Data Crawler কি এবং কিভাবে তৈরী করা যায় তা ধাপে ধাপে দেখানো হয়েছে। Data Crawler ব্যবহার করে কিভাবে Bdjobs-এর একটা ওয়েব পেজ থেকে টাইটেল, সময়, description পাওয়া যায় তা দেখানো হয়েছে।
প্রথমে আমাদের দরকার হবে Data Crawl করার function টি:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | <?php function getData($url) { $ch = curl_init(); curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); curl_setopt($ch, CURLOPT_HEADER,0); curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.7) Gecko/20091221 Firefox/3.5.7 GTB6 (.NET CLR 3.0.4506.2152)"); curl_setopt($ch, CURLOPT_FOLLOWLOCATION,1); curl_setopt($ch, CURLOPT_URL, $url); $content = curl_exec($ch); curl_close($ch); return $content; } ?> |
Data crawl করার জন্য getData function টি ব্যবহার করতে হবে। উদাহরণ হিসেবে bdjobs ওয়েবসাইট থেকে একটি IT job লিস্ট লিংক নিয়েছি।
1 2 3 | <?php $content = getData("http://jobs.bdjobs.com/jobsearch.asp?fcatId=8&icatId="); ?> |
Data Crawl করার জন্য প্রয়োজনীয় function গুলো হচ্ছে:
Curl ব্যবহার করে ওয়েবসাইট এর কনটেন্ট পাওয়া গেলো। তারপর প্রয়োজনীয় string পাওয়ার জন্য explode function ব্যবহার করতে হবে। পুরো কোড নিচে দেয়া হলো :
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 | <?php $url = "http://jobs.bdjobs.com/jobsearch.asp?fcatId=8&icatId="; $content = getData($url); $exploded_content = explode('<div class="norm-jobs-wrapper"', $content); for($i = 1; $i < count($exploded_content); $i++) { $title = explode('<div class="job-title-text">', $exploded_content[$i]); $title = explode('</div>', $title[1]); $title = strip_tags($title[0]); echo $title."--"; $company_name = explode('<div class="comp-name-text">', $exploded_content[$i]); $company_name = explode('</div>', $company_name[1]); $company_name = $company_name[0]; echo $company_name."--"; $deadline = explode('<div class="dead-text-d">', $exploded_content[$i]); $deadline = explode('</div>', $deadline[1]); $deadline = strip_tags($deadline[0]); echo $deadline."<br />"; } ?> |
আশা করি এই কোড ব্যবহার করে Data Scrape করা সহজ হবে। এই টিউটোরিয়াল ব্যবহার করে কি কি ওয়েবসাইট ক্রল করেছো তা কমেন্ট করতে ভুলবেনা।
আমাদের আরো কোর্স :