神马搜索蜘蛛 YisouSpider 详细及 User Agent 判断蜘蛛分析

关于神马搜索蜘蛛 YisouSpider 在互联网前几年可谓是怨声载道,许多的网站被过于频繁的抓取而导致服务器瘫痪等情况不在少数,其实看 YisouSpider 这个蜘蛛的名称就应该知道,神马搜索的前身就是“宜搜”,曾经是一个小说搜索引擎,后来被阿里拿下就正式定位于手机搜索引擎。

神马搜索蜘蛛,并不是因为神马带来了非常客观的流量,只是因为神马支持 MIP 规范,开始网站接入 MIP 是用 User Agent 判断来做的代码适配,也就是说之前只是针对百度移动搜索蜘蛛和 mip 的 User Agent,而现在需要将网站的 MIP 端对神马搜索的开发,故而才有了今天的这篇文章。

神马搜索来源记录以及User Agent以下为设神马搜索引擎的来访问User Agent,带用来访问的IP地址

42.156.137.14 - "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36"

106.11.156.57 - "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36"

42.156.137.33 - "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36"

42.156.137.44 - "Mozilla/5.0 (iPhone; CPU iPhone OS 10_3 like Mac OS X) AppleWebKit/602.1.50 (KHTML, like Gecko) CriOS/56.0.2924.75 Mobile/14E5239e YisouSpider/5.0 Safari/602.1"

106.11.153.124 -  "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36"

php判断搜索引擎是否为神马搜索

通过上面的三条 User Agent 信息,可以发现它们都有一个共同的 YisouSpider 字段,也就是说 User Agent 中含有 YisouSpider 字段的来访者即为神马搜索引擎的蜘蛛。我们可以利用php脚本,来检索 User Agent 的 YisouSpider 字段,来判断来访问者是否为神马搜索引擎的蜘蛛,并做出相应有处理

在神马站长平台官网虽然看到了关于 YisouSpider 的一些介绍,却也描述得模棱两可,基本没有任何参考而言,网络上搜索了一些也全是 YisouSpider 几年前的东西了,所以无奈还是只能自己动手来看看了。

通过上面子凡扒下来的,通过通过 IP 段加上完整的 User Agent,通过 IP 观察可以发现这是同一个 IP 段,应该也就是服务器集群的一组 IP 池,基本可以判断为是神马搜索蜘蛛无疑,通过 User Agent 的内容则可以判断,一种为移动端的 User Agent,一种则为 PC 端的 User Agent。

发表评论

后才能评论