识别搜索引擎爬虫真伪的方法浅析网经社电子商务研究中心电商门户互联网+智库

当前位置：100EC>信息图>识别搜索引擎爬虫真伪的方法浅析

识别搜索引擎爬虫真伪的方法浅析

作者：来源：发布时间：2010年02月25日 09:59:35

(电子商务研究中心讯)　　相信不少网站对搜索引擎爬虫都是又爱又恨，因为其中不仅有些爬虫不守规矩，还有人冒充爬虫对网站进行疯狂的扫描。

　　做的比较好的爬虫抓取频率都比较合理，对网站资源消耗比较少，Google Spider会根据网页的下载速度等因素进行抓取速度的动态调整，你可以通过Webmaster Tools来调整Spider的抓取速度。

　　Google_Webmaster_Tools_Settings

　　很多糟糕的网络爬虫，经常并发几十上百个请求循环重复抓取。一个“爬虫”先是将PageNo递增到无穷大——被封，过了4个小时，“爬虫”又回来了，这次程序倒是改进了不少，通过分析网页内部的链接进行抓取，可是没过多久发现总是抓取那几个特定的页面，原来被网页内部链接套住，程序进入了死循环，只能封杀。

　　网上也出现了很多如何封杀恶意爬虫的方法。常见的就是根据UserAgent中的标识进行识别封杀，但是道高一尺魔高一丈，接下来就有人伪造User-Agent，伪装成各大搜索引擎的爬虫进行抓取。

　　目前的做法是根据UserAgent进行判断，如果是真正的搜索引擎爬虫，那么就放过；如果发现是伪造的就坚决封杀。剩余的正常UserAgent的访问则通过限制IP并发请求次数来限制。

　　那么问题就出现了，如何才能正确识别搜索引擎爬虫的真伪，其实一些大型的搜索引擎商都已经提供了相关的方法，那就是反向DNS验证(Reverse DNS Lookup)。

　　拿Google Spider举个例子：

　　Google：www.google.com/support/webmasters/bin/answer.py?answer=80553

　　Yahoo：http://www.ysearchblog.com/2007/06/05/yahoo-search-crawler-slurp-has-a-new-address-and-signature-card/

　　Bing(MSN)：cn.bing.com/community/blogs/search/archive/2006/11/29/search-robots-in-disguise.aspx

　　可喜可贺的是baidu的2个月前爬虫也开始遵守这一“潜规则”，虽然没有在任何网页公开此消息，但经过测试，实际上是可行的。（编选：中国电子商务研究中心）

网经社联合A股上市公司网盛生意宝（002095.SZ）推出消费品在线供应链金融解决方案。该产品具有按需提款、按天计息、随借随还、专款专用、循环信用贷、全线上流程操作等特点，解决消费品供应链核心企业及下游经销商/网店因库存及账期造成的流动性差“痛点”。》》合作联系

网经社“电数宝”电商大数据库（DATA.100EC.CN，注册免费体验全部）基于电商行业12年沉淀，包含100+上市公司、新三板公司数据，150+独角兽、200+千里马公司数据，4000+起投融资数据以及10万+互联网APP数据，全面覆盖“头部+腰部+长尾”电商，旨在通过数据可视化形式帮助了解电商行业，挖掘行业市场潜力，助力企业决策，做电商人研究、决策的“好参谋”。