不少伪造的爬虫程序会伪造
user-agent
冒充baidu、google等搜索擎,好在google,baidu,bing等搜索引擎都提供一个DNS反向IP查询功能。识别真假蜘蛛只需要:
- 判断
user-agent
是否满足蜘蛛格式- 然后进一步确定IP反解析域名是否属于该搜索引擎域名.
搜索引擎IP反查工具
以下是收集一部分的搜索引擎的特征
搜索引擎 | user-agent | 备注 |
---|---|---|
百度 | Baiduspider/2.0 Baiduspider-image |
常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻) 百度蜘蛛IP:
|
Bing | bingbot/2.0 | Bing蜘蛛IP:
|
Googlebot/2.1 | Google蜘蛛IP:
|
|
搜狗sogou | Sogou+web+spider/4.0 | 搜狗蜘蛛IP:
|
神马搜索 | Yisouspider | 原属一搜蜘蛛。 神马搜索IP:
|
360搜索 | 360Spider | 360搜索蜘蛛IP:
|
今日头条 | Bytespider | 今日头条蜘蛛IP:
|
Yahoo | Yahoo! | Yahoo蜘蛛IP:
|
以下是收集一部分的未知的爬虫特征
爬虫名称 | user-agent 特征 | 备注 |
---|---|---|
The Knowledge AI | The+Knowledge+AI |
爬虫IP:
|
AhrefsBot | AhrefsBot/6.1 |
AhrefsBot是一个营销网站的爬取蜘蛛,负责分析网站信息。(建议禁止这些IP)爬虫IP:
|
SemrushBot | SemrushBot/6~bl |
SemrushBot也是一个营销网站的爬取蜘蛛,负责分析网站信息。(建议禁止这些IP)爬虫IP:
|