百度对搜索结果排序的一些标准解析

百度对搜索结果排序的一些标准解析,第1张

百度对搜索结果排序的一些标准解析

一、特色词典类目的创建和升级

众所周知,百度搜索有一个特色词典。根据特征字典,可以区分客户查询序列。例如,当客户搜索“龙虎榜”、“神雕侠侣”、“在线观看鹿鼎记”、“在线观看电视剧”时,“龙虎榜”、“神雕侠侣”、“电视剧”等要发现的剧集,在需求特征词典中属于视频需求的特征词。并且,当关键词“在线播放”与视频需求的特征词的共现次数达到一定阈值(共现阈值)时,根据关键词“在线播放”获得关键词“在线播放”与视频需求类别之间的投影关联,并根据投影关联创建或更新需求特征词典。


二。百度词条分类

首先将查询序列进行切词,得到切分后的百度词条,然后根据百度词条,按照百度词条的文本检索或需求特征词典中的搭配查询等方法,得到上述备选需求类别。例如,当客户的查询序列是“土豆上的热门影视作品”时,会根据其切词得到“土豆/热门影视作品”这个词,因为这个词影视作品有明显的需求类别,比如视频、免费下载、照片、著名演员的详细介绍,然后根据百度词条的文本检索或根据上述百度词条在需求特征词典中匹配查询等方法得到备选需求类别。

当挖掘序列对应的分类结果的客户总点击次数超过预设的点击阈值时,根据与分类结果匹配的需求类别,获取待挖掘序列与需求类别之间的投影关联,并根据投影关联创建或更新需求特征字典。例如,当待挖掘序列为“日本地震灾害”时,根据与待挖掘序列匹配的分类结果,例如,视频搜索结果、新闻报道搜索结果、图片搜索结果,如果匹配视频搜索结果的客户总点击次数为300,匹配新闻报道搜索结果的客户总点击次数为25000,匹配照片搜索结果的客户总点击次数为700次,预设点击阈值为10000次,将与待发现序列匹配的分类结果的客户总点击次数与预设点击阈值进行比较,根据高于预设点击阈值的分类结果匹配的需求类别,即新闻报道需求类别,获取待发现序列与新闻报道需求类别之间的投影关联,并根据投影关联创建或更新需求特征词典。


三。获取需求

1.获得与客户的查询序列相对应的初始搜索结果。

2.获取查询序列对应的备选需求类别。

根据查询序列,通过对查询序列进行文本检索或根据查询序列在需求特征词典中进行搭配查询等方法,对初始搜索结果进行求解。,以获得可选的需求类别。例如,当客户的查询序列为“土豆上热门的影视作品”时,会根据其分词解决方案得到“土豆/热门/影视作品”,因为影视作品这个词有明显的需求类别,如视频、免费下载、照片、著名演员的详细介绍、查询序列的文本检索或需求特征字典中的匹配查询。获取备选需求类别,比如根据“影视作品”,已知查询序列匹配的备选需求类别包括视频、免费下载、照片、著名演员详细介绍。

3.根据查询顺序和备选需求类别,定义查询顺序对应的类别需求度。

根据查询序列和备选需求类别,例如根据与查询序列匹配的搜索结果,按类别进行数据分析或记录相关搜索结果的历史时间,并定义查询序列对于每个备选需求类别的类别需求度。以“XX电影明星”为例,根据查询顺序,获取包括视频、新闻报道、详细信息、歌曲、照片在内的候选需求类别,然后根据查询顺序和候选需求类别,根据例如与查询顺序匹配的搜索结果进行分类数据分析,或者根据相关搜索结果的历史时间进行分类数据分析,并定义了上述查询序列对应的类别需求度,例如“XX”新闻报道类别中查询序列的类别需求数为0.3;查询序列的详细描述类的类别需求数为0.1;歌曲类别中查询序列的类别需求数为0.2;并且其查询序列在照片类别中的类别需求数为0.1。

明确需求:

客户的查询序列是“XX电影明星”,查询序列配置在需求特征字典中。当在需求特征字典中配置了XX个电影明星属于大牌明星目录,并且匹配的大牌明星目录的需求类别包括视频、新闻报道、详细信息、歌曲和照片时,查询序列对应的备选需求类别包括视频、新闻报道、详细信息、歌曲和照片。这个查询序列集成了许多客户的点击数据分析。例如,数据分析结果显示,视频搜索结果、新闻报道搜索结果、详细信息搜索结果、歌曲搜索结果和照片搜索结果的客户点击次数分别为6万次、1万次、1万次、1万次和1万次,因此查询序列对视频搜索结果的类别需求为0.6。

4.根据品类需求向客户展示搜索结果。

根据以上类别的需求程度,将搜索结果展示给以上客户。以“XX影星”为例:当客户的查询序列为“XX影星”时,查询序列的类别需求为视频0.3,新闻报道0.3,情况详情0.1,歌曲0.2,照片0.1。如果查询序列的搜索结果列表第一页显示10个搜索结果,根据类别需求,向客户显示3个视频搜索结果、3个新闻报道搜索结果、1个详细信息搜索结果和2个歌曲搜索结果,向客户显示与查询序列相关性最大的剩余搜索结果的第一页。

根据品类需求,向客户展示品类需求和搜索结果。实际上,根据查询顺序和备选需求类别,比如根据与查询顺序匹配的搜索结果,按类别进行数据分析,或者根据相关搜索结果的历史时间,按类别进行数据分析。确定查询序列对应的品类需求度后,将搜索结果对应的品类需求度和搜索结果通过字体样式、波动对话框等方式呈现给上述客户。百度搜索已经应用了这种技术,在百度搜索结果网页中可以找到。


四。结果选择

查询功能至少包括下列功能之一:
1.搜索结果与上述查询序列之间的相关性;
2。搜索结果的权威性;
3。搜索结果的及时性。

1。相关性:选择结果不仅基于搜索结果匹配的类目需求,还基于搜索结果与查询序列的相关性,将搜索结果呈现给匹配的客户。当与搜索结果匹配的新闻报道搜索结果的类别需求度与歌曲搜索结果的类别需求度相同时,将与搜索结果匹配的类别需求度与搜索结果和查询序列之间的相关性进行融合,并将搜索结果呈现给客户。
(1)网站内容是否与URL的主题风格有关。
方便百度搜索引擎准确定位你的网站,对你的网站进行分类。准确的类别分类对提高网站在某个领域的权威性大有裨益。
(2)网站地址中的内容是否能满足客户的需求。
这个讨论太多了。且不一一细说。

2。权威度:定义查询序列的类别需求度后,将匹配的搜索结果的类别需求度和搜索结果的权威度融合呈现给客户。例如,当与查询序列匹配的新闻报道搜索结果的权威度较高,而与查询序列匹配的歌曲搜索结果的权威度较低时,将与查询序列匹配的新闻报道搜索结果和歌曲搜索结果依次呈现给与上述客户匹配的客户。
权威不等于名气,名气反作用于权威。
权限度的计算方法很复杂,有很多数字可供参考。下面是一些“很有可能”的决策权威程度的数字。
(1)网站知名品牌词搜索索引。
(2)与URL相关的长尾关键词总流量。
(3)立即浏览总流量。
(4)反映在URL中的权威性(文件在数据库索引数据库中存在的时间,主要表现在检索、政府门户等方面。).
(5)用户评价和社交。百度搜索引擎一直在监控客户在互联网上的一举一动。但由于一些“原因”,有的是立竿见影的实际效果,有的是间接的实际效果,或者没有实际效果。但是所有可以点击链接都是有效的。
(6)网站发布频率。哎~!这个网站也是维护的。它不是一个死站。短期保养(过年放假7天)无伤大雅。长时间不保养时。真的有被降职处分的可能。
(7)网页编码的标准化。虽然已经过了扣分期,但百度搜索引擎仍然根据源代码获取网页的信息内容。适度的隔音降噪可以让百度搜索引擎更方便的区分行为主体内容、主题风格、网页结构等。
(8)所有元标识内容的质量和相关性。tkd的必要性说了。
(9)外网投票:百度搜索的外链优化算法。最近看了一篇百度搜索的文章,好像是:把所有带外部链接的网页完成一个汇编,把其他结构相似的网页创建一个汇编。根据编译中间外网投票的权重值,我可以得到相似网页外网投票的权重值,加上内网投票权重,相当于没有处理。
(10)相关文章是否丰富多彩。(总内容、质量、画面状态等。)

3。时效性:不仅根据搜索结果匹配的类目需求度,还结合搜索结果的时效性,将搜索结果呈现给客户。例如,当与查询序列匹配的新闻报道搜索结果的时效性极强,而与查询序列匹配的歌曲搜索结果的时效性较差时,将与查询序列匹配的新闻报道搜索结果和歌曲搜索结果依次呈现给匹配的客户。
常见于时效性强的内容。比如在mh370飞机事故之前,mh370的搜索结果页面的关键就是mh370机场的购票和详细介绍。飞机失事后,随着新闻报道需求的增加,搜索结果的网页也发生了变化。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/784736.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-04
下一篇 2022-05-04

发表评论

登录后才能评论

评论列表(0条)

保存