百度搜索引擎的算法是怎样的?

百度搜索引擎的算法是怎样的?,第1张

衡量网页质量的维度

百度搜索引擎在衡量网页质量时,会从以下三个维度综合考虑给出一个质量打分。下面会一一介绍这些影响网页质量判断的维度特征:

内容质量

• 浏览体验

• 可访问性

一个访问流畅,内容质量高且浏览体验好的网页具有较高的质量;反之,任何一个维度出现问题,都会影响网页的整体质量。下面我们具体介绍下这三个维度。

衡量网页质量的维度——内容质量

网页主体内容是网页的价值所在,是满足用户需求的前提基础。百度搜索引擎评价网页内容质量主要看其主体内容的好坏,以及主体内容是否可以让用户满意。 不同类型网页的主体内容不同,百度搜索引擎判断不同网页的内容价值时,需要关注的点也有区别,如:

• 首页:导航链接和推荐内容是否清晰、有效。

• 文章页:能否提供清晰完整的内容,图文并茂更佳。

• 商品页:是否提供了完整真实的商品信息和有效的购买入口。

• 问答页:是否提供了有参考价值的答案。

• 下载页:是否提供下载入口,是否有权限限制,资源是否有效。

• 文档页:是否可供用户阅读,是否有权限限制。

• 搜索结果页:搜索出来的结果是否与标题相关。

百度搜索引擎考量网页内容质量的维度非常多,最为重要的是:成本;内容完整;信息真实有效以及安全。下面我们通过举例来感受一下百度搜索引擎是如何对网页的内容质量进行分类的,请站长对比自己站点的页面,站在搜索引擎和用户的角度为自己打分:

1、内容质量好:

百度搜索引擎认为内容质量好的网页,花费了较多时间和精力编辑,倾注了编者的经验和专业知识;内容清晰、完整且丰富;资源有效且优质;信息真实有效;安全无毒;不含任何作弊行为和意图,对用户有较强的正收益。对这部分网页,百度搜索引擎会提高其展现在用户面前的机率。例如:

• 专业医疗机构发布的内容丰富的医疗专题页面;

• 资深工程师发布的完整解决某个技术问题的专业文章;

• 专业视频网站上,播放清晰流畅的正版电影或影视全集页面;

• 知名B2C网站上,一个完整有效的商品购买页;

• 权威新闻站原创或经过编辑整理的热点新闻报道;

• 经过网友认真编辑,内容丰富的词条;

• 问答网站内,回答的内容可以完美解决提问者的问题。

实例参考:

示例

内容质量

说明

case 3.1.1-1

专业医疗网站发布的丰富医疗专题页面

case 3.1.1-2

资深工程师发布的完整解决某个技术问题的专业文章

case 3.1.1-3

专业视频网站上,播放清晰流畅的正版影视全集页面

case 3.1.1-4

京东的一个完整有效的商品购买页

case 3.1.1-5

权威新闻站原创的热点新闻的报道

case 3.1.1-6

经过网友认真编辑,内容丰富的百科词条

case3.1.1-7

百度知道上,完美解决用户问题的问答页

2、内容质量中:

内容质量中等的网页往往能满足用户需求,但未花费较多时间和精力进行制作编辑,不能体现出编者的经验和专业知识;内容完整但并不丰富;资源有效但质量欠佳;信息虽真实有效但属采集得来;安全无毒;不含作弊行为和意图。在互联网中,中等质量网页其实是一个比较大的数量集合,种类面貌也繁杂多样,百度搜索引擎在评价这类网页时往往还要考虑其它非常多因素。在这里,我们仅部分举例来让各位感受一下:

• 论坛类网站里一个普通的帖子;

• 一个普通的问答网页;

• 没有进行任何编辑,直接转载其它网站的新闻;

• 无版权信息的普通电影播放页

• 采集知名小说网站的盗版小说页。

实例参考:

示例

内容质量

说明

case 3.1.2-1

网易直接转载了中国新闻网的一篇新闻。

case 3.1.2-2

文库上网友上传的“国庆放假安排”新闻

case 3.1.2-3

采集起点小说网的盗版小说站

case 3.1.2-4

百度贴吧里一个普通的帖子

3、内容质量差:

百度搜索引擎认为主体内容信息量较少,或无有效信息、信息失效过期的都属于内容质量差网页,对用户没有什么实质性的帮助,应该减少其展现的机会。同时,如果一个网站内该类网页的占比过大,也会影响百度搜索引擎对站点的评级,尤其是UGC网站、电商网站、黄页网站要尤其重视对过期、失效网页的管理。例如:

• 已下架的商品页,或已过期的团购页;

• 已过有效期的招聘、交易页面;

• 资源已失效,如视频已删除、软件下载后无法使用等。

4、没有内容质量可言:

没有内容质量可言的网页指那些制作成本很低,粗制滥造;从别处采集来的内容未经最起码的编辑整理即放置线上;挂木马等病毒;含有作弊行为或意图;完全不能满足用户需求,甚至含有欺骗内容的网页。例如:

• 内容空短,有很少量的内容,却不能支撑页面的主要意图;

• 问答页有问无答,或回答完全不能解决问题;

• 站内搜索结果页,但没有给出相关信息

除上述网页外,欺骗用户和搜索引擎的网页在无内容质量可言集合里占很高比例。百度搜索引擎对作弊网页的定义是:不以满足用户需求为目的,通过不正当手段欺骗用户和搜索引擎从而获利的网页。目前互联网上这部分网页还属少数,但作弊网页的价值是负向的,对用户的伤害非常大,对这类网页,搜索引擎持坚决打击态度。

衡量网页质量的维度——浏览体验

不同质量的网页带给用户的浏览体验会有很大差距,一个优质的网页给用户的浏览体验应该是正向的。用户希望看到干净、易阅读的网页,排版混乱、广告过多会影响用户对网页主体内容的获取。在百度搜索引擎网页质量体系中,用户对网页主体内容的获取成本与浏览体验呈反比,即获取成本越高,浏览体验越低。面对内容质量相近的网页,浏览体验佳者更容易获得更高的排位,而对于浏览体验差的网页,百度搜索引擎会视情况降低其展现的机率甚至拒绝收录。

影响用户浏览体验好坏的因素很多,目前百度搜索引擎主要从内容排版、广告影响两方面对网页进行考量:

内容排版:用户进入网页第一眼看到的就是内容排版,排版决定了用户对网页的第一印象,也决定了用户对内容获取的成本。

广告影响:百度搜索引擎理解网站的生存发展需要资金支持,对网页上放置正当广告持支持态度。网页应该以满足用户需求为主旨,最佳状态即“主体内容与广告一起满足用户需求,内容为主,广告为辅”,而不应让广告成为网页主体。

下面我们通过举例来感受一下百度搜索引擎是如何对网页的浏览体验进行分类的,站长可以据此对比检验自己站点的浏览体验如何:

1、浏览体验好:

页面布局合理,用户获取主体内容成本低,一般具有以下特征:

• 排版合理,版式美观,易于阅读和浏览;

• 用户需要的内容占据网页最重要位置;

• 能够通过页面标签或页面布局十分清楚地区分出哪些是广告;

• 广告不抢占主体内容位置,不阻碍用户对主要内容的获取;

实例参考:

示例

浏览体验

说明

case 3.2.1-1

招聘、房产等网站首页也有很多广告,但都是招聘相关的,浏览体验是ok的。

case 3.2.1-2

文章页,页面布局合理,无广告,排版好,结构合理

case 3.2.1-3

游戏首页,排版美观,布局合理,无广告,浏览体验优

2、浏览体验差:

页面布局和广告放置影响了用户对主体内容的获取,提高了用户获取信息的成本,令用户反感。包括但不仅限于以下情况:

• 正文内容不换行或不分段,用户阅读困难;

• 字体和背景颜色相近,内容辨别困难;

• 页面布局不合理,网页首屏看不到任何有价值的主体内容;

• 广告遮挡主体内容;或者在通用分辨率下,首屏都是广告,看不到主体内容;

• d窗广告过多;

• 影响阅读的浮动广告过多

• 点击链接时,出现预期之外的d窗;

• 广告与内容混淆,不易区分;

衡量网页质量的维度——可访问性

用户希望快速地从搜索引擎获取到需要的信息,百度搜索引擎尽可能为用户提供能一次性直接获取所有信息的网页结果。百度搜索引擎认为不能直接获取到主体内容的网页对用户是不友好的,会视情况调整其展现机率。

百度搜索引擎会从正常打开、权限限制、有效性三方面判断网页的可访问性,对于可以正常访问的网页,可以参与正常排序;对于有权限限制的网页,再通过其它维度对其进行观察;对于失效网页,会降权其展现机制甚至从数据库中删除。

1、可正常访问的网页

无权限限制,能直接访问所有主体内容的网页。

2、有权限限制的网页

此类网页分为两种:打开权限和资源获取权限

1)打开权限:指打开网页都需要登录权限,没有权限完全无法看到具体内容,普通用户无法获取或获取成本很高,百度搜索引擎会降低其展现机率。不包括以登录为主要功能的网页。

2)资源获取权限:指获取网页主要内容,如文档、软件、视频等,需要权限或者需要安装插件才能获得完整内容。此时会分三种情况:

• 提供优质、正版内容的网站,由于内容建设成本很高,尽管查看全文或下载时需要权限或安装插件,但属于用户预期之内,百度搜索引擎也不认为权限行为对用户造成伤害,给予与正常可访问页面相同的对待。

• 对于一些非优质、非正版的资源,来自于用户转载甚至机器采集,本身成本较低,内容也不独特,用户获取资源还有权限限制——需要用户注册登录或者付费查看,百度搜索引擎会根据具体情况决定是否调整其展现。

• 还有一些视频、下载资源页,也许自身资源质量并不差,但需要安装非常冷门的插件才能正常访问,比如要求安装“xx大片播放器”,百度搜索引擎会怀疑其有恶意倾向。

实例参考:

示例

可访问性

说明

case 3.2-1

CNKI上的一篇论文,收费才能下载,但有版权,浏览体验好

case 3.2-2

优酷上一部新电影,需要付费才能观看,浏览体验好。

case 3.2-3

内容是copy来,但是需要登录才能看更多

case 3.2-4

入党申请书,本身就是转载的,网上到处都是,但这个页面仍然要求收费才能下载。

3、失效网页

往往指死链和主体资源失效的网页。百度搜索引擎认为这部分网页无法提供有价值信息,如果站点中此类网页过多,也会影响百度搜索引擎对其的收录和评级。建议站长对此类网页进行相应设置,并及时登录百度站长平台,使用死链提交工具告知百度搜索引擎。

失效网页包括但不仅限于:

• 404、403、503等网页;

• 程序代码报错网页;

• 打开后提示内容被删除,或因内容已不存在跳转到首页的网页;

• 被删除内容的论坛帖子,被删除的视频页面(多出现在UGC站点)

具体请参阅《百度搜索引擎网页质量白皮书》,望采纳!

搜索引擎核心算法是获得网站网页资料,建立数据库并提供查询的系统。

索引擎的数据库是依靠一个叫“网络机器人(crawlers)”或叫“网络蜘蛛(Spider)”的软件,它通过网络上的各种链接自动获取大量的网页信息内容,并按照一定的规则进行分析和组织。谷歌和百度是典型的搜索引擎系统。

为了更好地服务于web搜索,搜索引擎分析和排序规则也就是说,搜索引擎算法正在发生变化。由于互联网上无数的网站页面,搜索引擎蜘蛛无法将所有网页下载并保存到服务器上。

因此,许多搜索引擎蜘蛛只抓取那些重要的页面,而评估爬行重要性的主要依据是链接宽度(以及外部链接的数量和质量)。

扩展资料:

搜索引擎核心算法的优化:

1、在搜索前,根据条件降低搜索规模。

2、广度优先搜索中,被处理过的节点,充分释放空间。

3、给据问题的约束条件进行剪枝。

4、利用回溯算法进行优化:回溯和深度优先是相似的,区别在于当一个节点被扩展时,不是所有的子节点都被扩展,而是只有一个子节点被扩展。所以它是盲的,但占用的内存更少。

参考资料来源:百度百科-搜索算法

参考资料来源:百度百科-搜索引擎算法

搜索引擎算法:获得网站网页资料,建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。搜索引擎的数据库是依靠一个叫"网络机器人(crawlers)"或叫"网络蜘蛛(Spider)"的软件,通过网络上的各种链接自动获取大量网页信息内容,并按一定的规则分析整理形成的。Google、百度都是比较典型的搜索引擎系统。 为了更好的服务网络搜索,搜索引擎的分析整理规则---即搜索引擎算法是变化的。搜索引擎算法的变革将引领第四代搜索引擎的升级。

搜索引擎工作内容

1、收录页面:

一般收录页面需要有百度蜘蛛抓取完成,通过抓取算法来决定收录那些页面,在百度的算法调整后,对于伪原创、采集站点予以强烈的打击,所以百度在收录页面方面变得更加的严格了,高质量内容页面以及权重高的站点一般收录页面的几率会高很多。对于收录页面这方面相信很多的站长都是很清楚,每天百度蜘蛛都在分分秒秒不停地收录着,但是你会发现其实大部分的站点的收录都减少了,这是为什么呢?因为百度需要过滤页面。

2、过滤页面:

很多页面被百度收录之后,百度认为该页面对用户没有太大的价值,或者是质量度比较低的页面,百度必然就会过滤,这也是用户体验好的一种表现,很多站点以优化为目的,丝毫不考虑用户的体验,例如一些桥页、跳转页面这些就是典型,百度的k站就是一种过滤页面的表现,把那些作弊的站点的页面全部的过滤掉。很多人抱怨6.22和6.28百度k站事件,尤其是那些屌丝站长们整天在论坛抱怨这个抱怨那个,为什么k你的站,很显然你的站点真的是以用户体验为核心运营站吗?做SEO的人大多都是为了优化而运营站点,每天写的站内的更新、做外链肯定一部分是为了优化而优化,百度k你的站是牺牲少部分人的利益,更多的用户是从中获益的,要知道多少人在使用百度,如果搜索出来的信息是你为了优化而运营的站点,低质量的页面,那百度其实是拿自己未来的前途给你优化站点做铺垫的。所以过滤页面这方面百度非常的严格,大家也不要使用seo作弊技术了。

3、建立索引:

经过了收录页面以及过滤页面的工作之后,百度会对这些页面逐一进行标记和识别,并将这信息进行储存为结构化的数据,储存到百度的搜索的服务器中,这些储存的数据有网页的信息、网页的标题关键词页面描述等标签、网页外链及描述、抓取记录。还会将网页中的关键词信息进行识别和储存,以便与用户搜索的内容进行匹配。建立完善的索引数据库,方便呈现出最佳的显示信息

4、显示信息:

用户输入的关键词,百度会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列,展现给用户。一般显示出最佳信息需要是最适合匹配关键词相关的页面,包括站内优化和站外优化的因素。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9727071.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存