搜索引擎的基础是拥有大量网页的信息数据库,是决定搜索引擎整体质量的重要指标。如果搜索引擎的网页信息量小,可供用户选择的搜索结果就少;而大量的Web信息更能满足用户的搜索需求。
为了获取大量的Web信息数据库,搜索引擎必须收集网络资源。本文的工作就是通过搜索引擎的网络爬虫抓取互联网上的每一个网页信息。这是一个爬行和收集信息的程序,通常被称为蜘蛛或机器人。
虽然搜索引擎蜘蛛的名称不同,但是它们的抓取和抓取规则基本相同:
(1)搜索引擎抓取网页时,会同时运行多个蜘蛛程序,根据搜索引擎地址库中的网址浏览和抓取网站。地址库中的地址包括用户提交的地址、大型导航站的地址、手工收集的地址、蜘蛛抓取的新地址等。
(2)搜索引擎蜘蛛在进入允许抓取的网站时,一般会采取深度优先、宽度优先、高度优先三种策略进行抓取和遍历,以抓取更多的网站内容。
深度爬行策略是搜索引擎蜘蛛在一个网页中找到一个链接,向下爬行到下一个网页的链接,向下爬行到网页中的另一个链接,直到没有不紧不慢的链接,然后返回一个网页,向下爬行到另一个链接。
在上面的例子中,搜索引擎蜘蛛到达网站的首页,找到上级网页A、B、C的链接并爬出来。然后依次爬下上级网页A1、A2、A3、B1、B2、B3。爬取二级网页后,又爬取三级网页A4、A5、A6,试图爬取所有网页。
较好的优先级抓取策略是按照一定的算法划分网页的重要性,主要通过网页排名、网站大小、响应速度等来判断网页的重要性。搜索引擎抓取,获得更高的优先级。只有当PageRank达到一定的级别,才能被抓取和爬取。实际蜘蛛抓取网页时,会将网页的所有链接收集到地址数据库中,进行分析,然后选择PR较高的链接进行抓取。网站规模大。通常,大型网站可以从搜索引擎获得更多信任。而且大型网站更新频繁,蜘蛛会先爬。网站的响应速度也是影响蜘蛛抓取的重要因素。在较好的优先级爬取策略中,网站响应速度快,可以提高爬虫的效率,所以爬虫也会优先爬取响应速度快的网站。
这些爬行策略各有利弊。比如深度优先一般选择一个合适的深度,避免陷入大量数据,从而限制页面的捕捉;优先级随着抓取页面的增加,搜索引擎需要排除大量无关的页面链接,抓取效率会变低;更好的优先级忽略了很多小网站的页面,影响了互联网信息差异化展示的开展。几乎进入大网站的流量让小网站很难发展。
在搜索引擎蜘蛛的实际抓取中,这三种抓取策略通常会同时使用。经过一段时间的爬行,搜索引擎蜘蛛可以抓取互联网上的所有网页。然而,由于互联网的巨大资源和搜索引擎的有限资源,通常只抓取互联网上的部分网页。
蜘蛛抓取网页后,测试网页的值是否符合抓取标准。搜索引擎抓取到网页时,会判断网页中的信息是否是垃圾信息,比如大量重复的文本内容、乱码、与所包含的内容高度重复等。这些垃圾邮件蜘蛛不会爬行,它们只会爬行。
搜索引擎判断一个网页的价值后,就会包含有价值的网页。采集过程是将采集到的网页信息存储在信息数据库中,按照一定的特征对网页信息进行分类,并以URL为单位进行存储。
搜索引擎的抓取和抓取是提供搜索服务的基础条件。随着大量Web数据的出现,搜索引擎能够更好地满足用户的查询需求。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)