未加星标

利用php抓取蜘蛛爬虫痕迹的示例代码

字体大小 | |
[开发(php) 所属分类 开发(php) | 发布者 店小二04 | 时间 | 作者 红领巾 ] 0人收藏点击收藏

前言

相信许多的站长、博主可能最关心的无非就是自己网站的收录情况,一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面,不过,如果php代码分析web日志中蜘蛛爬虫痕迹,是比较好又比较直观方便操作的!下面是示例代码,有需要的朋友们下面来一起看看吧。

示例代码

<?php
//获取蜘蛛爬虫名或防采集
function isSpider(){
$bots = array(
'Google' => 'googlebot',
'Baidu' => 'baiduspider',
'Yahoo' => 'yahoo slurp',
'Soso' => 'sosospider',
'Msn' => 'msnbot',
'Altavista' => 'scooter ',
'Sogou' => 'sogou spider',
'Yodao' => 'yodaobot'
);
$userAgent = strtolower($_SERVER['HTTP_USER_AGENT']);
foreach ($bots as $k => $v){
if (strstr($v,$userAgent)){
return $k;
break;
}
}
return false;
}
//获取哪种蜘蛛爬虫后保存蜘蛛痕迹。
//根据采集时HTTP_USER_AGENT是否为空来防止采集
//抓蜘蛛爬虫
$spi = isSpider();
if($spi){
$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
$file = 'robot.txt';
$time = date('Y-m-d H:i:s',mktime());
$handle = fopen($file,'a+');
$PR = $_SERVER['REQUEST_URI'];
fwrite($handle, "Time:{$time} ROBOT:{$spi} AGENT:{$tlc_thispage} URL:{$PR} \n\r");
fclose($handle);
}
?>

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有问题大家可以留言交流。

本文开发(php)相关术语:php代码审计工具 php开发工程师 移动开发者大会 移动互联网开发 web开发工程师 软件开发流程 软件开发工程师

主题: 服务器搜索引擎
分页:12
转载请注明
本文标题:利用php抓取蜘蛛爬虫痕迹的示例代码
本站链接:http://www.codesec.net/view/484158.html
分享请点击:


1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
技术大类 技术大类 | 开发(php) | 评论(0) | 阅读(17)