神马搜索蜘蛛Spider网页抓取方式与优化技巧介绍

广告位热招

您现在的位置是：主页 > SEO > SEO教程 >

神马搜索蜘蛛Spider网页抓取方式与优化技巧介绍

2020-03-12 16:33SEO教程人已围观

简介本文主要介绍神马搜索蜘蛛Spider在SEO优化中的优化技巧应用、神马搜索蜘蛛Spider抓取网站信息原理与方式，分为6部分进行讲述：...

　本文主要介绍神马搜索蜘蛛Spider在SEO优化中的优化技巧应用、神马搜索蜘蛛Spider抓取网站信息原理与方式，分为6部分进行讲述：

　　1. 神马搜索蜘蛛Spider

　　神马搜索蜘蛛Spider是神马访问互联网，自动化抓取网页的程序。Spider抓取下网页，建立索引，使用户可通过搜索引擎搜索到互联网上的资源。

　　2. 神马搜索蜘蛛Spider的user-agent及ip地址

　　user-agent，是http协议中的一个属性，代表了终端的身份。神马搜索蜘蛛Spider的user-agent为：Yisouspider，因为历史原因此user-agent名称将会继续使用。

　　神马搜索蜘蛛Spider的ip地址是一组ip池，会动态变，因此不在此列举。

　　3. 神马搜索蜘蛛Spider的网站访问频率

　　神马会根据网站的规模、服务能力、页面质量、更新速度等因素来决定对网站的访问频率。通常质量高、网页更新快的网站神马搜索蜘蛛Spider访问的频率相对会高，以保证高质、时效的能够展现给用户。

　　4. 神马搜索蜘蛛Spider如何发现新网页

　　神马搜索蜘蛛Spider发现新网页的方式有多种，最典型的是在已发现的网页中分析超链关系，选取url并抓取，如此不断拓展，尽可能多的抓取到有价值的网页。另外，神马会从dns服务商处获取新网站域名，能够及时抓取到新建网站。

　　5. 关于robots协议

　　robots.txt是搜索引擎访问网站是要访问的第一个文件，以确定哪些网页是允许或禁止抓取的。神马搜索遵守互联网robots协议，如您希望完全禁止神马访问或对部分目录禁止访问，您可以通过robots.txt文件来设置内容，限定神马搜索蜘蛛Spider的访问权限。

　　robots.txt必须放在网站根目录下，且文件名要小写。

　　具体的写法：

　　1) 完全禁止神马搜索蜘蛛Spider抓取：

　　User-agent: Yisouspider

　　Disallow: /

　　2) 禁止神马搜索蜘蛛Spider抓取指定目录

　　User-agent: Yisouspider

　　Disallow: /update

　　Disallow: /history

　　禁止抓取update、history目录下网页

　　6. 神马搜索蜘蛛Spider是否会造成带宽负担

　　神马搜索蜘蛛Spider有规范的抓取流程，同时也会考虑网站的忙闲时段来抓取，因此不会给网站造成带宽负担。如您发现名为Yisouspider的user-agent抓取严重影响到了网站的正常访问，您可将该时段的访问日志信息反馈至zhanzhangpingtai@service.alibaba.com，神马同学会将分析结论发送给您。

想要了解更多神马搜索蜘蛛Spider网页抓取方式与优化技巧介绍知识内容，可添加微信公众号：节流在线，进行在线留言咨询学习交流。

Tags：神马优化