不少伪造的爬虫程序会伪造user-agent冒充baidu、google等搜索擎,好在google,baidu,bing等搜索引擎都提供一个DNS反向IP查询功能。

识别真假蜘蛛只需要:

  1. 判断user-agent是否满足蜘蛛格式
  2. 然后进一步确定IP反解析域名是否属于该搜索引擎域名.

搜索引擎IP反查工具

以下是收集一部分的搜索引擎的特征
搜索引擎 user-agent 备注
百度 Baiduspider/2.0
Baiduspider-image

常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)

百度蜘蛛IP:
  • 220.181.108.76 ~ 220.181.108.187
  • 123.125.71.92 ~ 123.125.71.113
Bing bingbot/2.0
Bing蜘蛛IP:
  • 157.55.39.97 ~ 157.55.39.98
  • 40.77.167.36 ~ 40.77.167.87
Google Googlebot/2.1
Google蜘蛛IP:
  • 66.249.74.78 ~ 66.249.74.80
  • 66.249.65.93 ~ 66.249.65.99
搜狗sogou Sogou+web+spider/4.0
搜狗蜘蛛IP:
  • 61.135.189.97 ~ 61.135.189.98
  • 123.126.113.189
神马搜索 Yisouspider

原属一搜蜘蛛。

Yahoo蜘蛛IP:
  • 42.156.137.103
好搜 HaoSouSpider
360Spider

好搜其他蜘蛛:360Spider-Image(图片搜索);360Spider-Video(视频搜索)

好搜蜘蛛IP:
  • 101.226.169.195 ~ 101.226.169.230
Yahoo Yahoo!
Yahoo蜘蛛IP:
  • 68.180.230.46、68.180.228.253

0%