各大搜索引擎所对应的蜘蛛又有所不同。
百度蜘蛛:baiduspider谷歌蜘蛛:Googlebot360蜘蛛:360spider搜狗蜘蛛:sogounewsspider……
一、搜索引擎工作流程1、抓取:顺着链接爬行,抓取页面信息。
蜘蛛顺着链接爬行,然后抓取,又分深度和广度抓取。
广度抓取:抓首页,栏目页,栏目页里面的分页,一级一级的抓取。
深度抓取:首页,栏目页,栏目页分页,栏目页)蜘蛛顺着链接抓取。
2、过滤:若内容质量不行就过滤,比如:采集的内容,文不对题的内容,不丰富的内容。
若一些质量好的内容迟迟不收录,是因为需要一个周期,过一段时间之后就会收录的。
3、储存索引库:把有质量的信息提取和组织建立索引库。
4、展现:存放临时索引库里面的内容,经过一些算法的排序,用户在搜索某一关键词的时候,检索器根据用户输入的查询关键字,在索引库中快速检测出有价值的内容给予展现。
二、网站出现不收录的原因1、是否允许蜘蛛抓取。
首先要看的就是是否有蜘蛛来你网站抓取,然后再分析其它原因。
Robots文件中禁止蜘蛛抓取,蜘蛛就不会来抓取。
2、需要一个周期。
好的内容放在临时索引库里面,经过一些算法排序。
若一些质量好的内容迟迟不收录,是因为这也是需要一个周期的。
3、内容质量不行。
在过滤的时候就直接被过滤了。
4、蜘蛛无法进行识别的东西,那么蜘蛛直接就过滤了。
蜘蛛无法识别的有哪些呢?(1)Js蜘蛛识别不了,建议只用一两处即可。
(2)图片上的内容,人眼可识别,但蜘蛛不能识别,需要加alt属性。
(3)Flash比如说视频。
需在视频的上下文解释一下这个视频的主要内容。
(4)iframe框架。
层级比较多。
(5)嵌套table。
5、需要登录的信息页面。
蜘蛛无法进入这样的页面。
三、注意事项1、已收录的内容,不要改动整篇文章内容尤其是标题,不要移动,不要删除,否则就会形成死链。
2、展现结果需要一定的时间(2个月之内都是正常的)。
网站上线一个星期了还没收录,这是需要一个周期时间的。
3、内容的丰富度。
文字、图片、视频等。
4、吸引蜘蛛。
主动向搜索引擎提交(可重复提交),链接。
主动出击。
5、蜘蛛的跟踪,网站IIS日志。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)