搜索引擎优化指南：Google如何解读搜索查询_服务器

搜索引擎优化指南：Google如何解读搜索查询

几乎每个搜索词都是一个或隐或显的问题。在语音搜索和移动设备的帮助下，谷歌能够识别搜索查询和用户的意图或其背后的含义尤为重要，这有助于搜索引擎为用户提供准确的搜索结果。

2009年，谷歌搜索质量团队的技术总监奥利·阿龙(OriAllon)在接受IDG采访时说:“我们在搜索质量方面非常努力，以更好地理解查询的上下文和内容。查询不是所有术语的总和，查询有其背后的含义。对于像“布兰妮”和“小贝拉克·侯赛因·奥巴马”这样的简单查询，我们很容易对网页进行排名，但当查询是“我的眼睛手术后应该吃什么药”时，就更难了。我们需要知道这个意义……”最终，谷歌想要识别用户或搜索意图。

谷歌如何识别搜索意图

正因如此，谷歌必须了解背景。在讨论上下文的时候，一定要区分搜索查询上下文，比如词条之间的关系，用户上下文(比如位置和(搜索)历史)和主题上下文。某些形式的上下文是动态的，可以随时间而变化。通过考虑所有可用的上下文形式，可以推断出对每个搜索查询的用户意图的深刻理解。

所以谷歌必须回答以下问题:

用户在哪里？

用户使用什么样的设备进行搜索？

用户过去对什么感兴趣？

使用的术语之间有什么关系？

搜索请求中包括哪些实体？

这些术语在哪些主题上下文中使用？

谷歌可以利用客户信息、GPS数据和IP地址快速回答前两个问题。第三个问题可以通过搜索历史、在SERP中的点击和一般在线行为来回答。

在过去的三个问题中，涉及到搜索查询的实际意义，不可能如此容易地得到回答。

输入RankBrain。

谷歌的RankBrain是提高可扩展性和性能的一大步。为了让谷歌识别搜索词的含义，有必要使用统计方法来模仿一种语义理解。这需要使用评论或注释来对搜索术语进行分类，并对相关主题未知的术语进行映射。因为每天都有大量的搜索词被输入到Google中，无法手动完成。为了实现可伸缩性，必须使用聚类分析和自动聚类。

谷歌自2015年以来就能够做到这一点，当时它以RankBrain的形式推出了机器学习，帮助谷歌加入了重构搜索查询的可扩展性和语义理解之间的点。

解释搜索查询的方法

Google使用所谓的inter-vector空分析来解释搜索查询。这些将搜索查询转换成向量，并将这些关系绘制到inter-vector空中的其他项目。通过比较关系模式，即使之前没有分析过特定的搜索查询，也可以识别搜索意图或含义。

在这方面，像个人搜索结果上的点击率这样的用户信号似乎起着特别重要的作用。在谷歌员工参与的两个科学项目中，我发现了解决这个问题的算法的有趣信息。

在通过属性参数化学习个人搜索中的用户交互时，解释了Google如何利用对用户行为和单个文档的分析，在搜索查询和点击文档之间建立语义属性关系——甚至支持自学习排名算法:

在本文档中，Google提供了两种方法来构建搜索查询的内容。所谓的“提高分数”在题为“单词共现簇”的第一个中起核心作用:

在这个公式中，“wi”代表所有与词根有关的术语，如拼写错误、复数、单数和同义词。“A”可以是任何用户交互，例如搜索特定搜索词或访问特定页面。举个例子，如果提升分值为5，搜索“wi”的概率比一般搜索“wi”的概率高5倍。

“大电梯评分帮助我们围绕有意义的词而不是无聊的词来构建话题。在实际 *** 作中，你可以用谷歌搜索历史中的词频来估算最近时间窗内的概率。”

这使得可以将术语分配给特定的实体，例如“Mercedes”和/或(如果要搜索替换汽车零件)主题上下文集群“Cars”。然后，上下文聚类或实体也可以被分配给它的单词，这些单词通常与搜索词一起出现。这使得快速创建特定主题的搜索词wordcloud成为可能。推广分数的大小决定了与主题的接近程度:

“我们使用提升分数对单词进行重要性排序，然后对其进行阈值处理，得到一组与单词高度相关的单词。”

当“wi”已知时，这种方法特别有用，例如搜索已知的品牌或类别。如果“wi”无法明确定义，因为同一个话题的搜索条件太多，Google可以使用第二种方法:加权双图聚类。

该方法基于两个假设:

具有相同意图短语的用户不同地搜索查询。搜索引擎仍然显示相同的搜索结果。

对于任何给定的搜索查询，类似的URL显示在顶部搜索结果中。

应用此方法，将搜索词与顶级URL进行比较，并创建一个查询URL对。该关系还根据用户的点击率和网页显示进行加权。这使得识别不包含相同词根的搜索词之间的相似性成为可能，从而创建语义聚类。

实体在解释搜索查询中的作用

谷歌希望找出问题中所指的实体是什么。Google可以通过查看搜索词中的实体以及它们之间的关系上下文来识别它正在寻找的实体。

即使结果有所不同，Google也会搜索“比尔·鲍维尔曼”和“菲尔·奈特”实体，即使名称没有显示在搜索查询中。无论我问一个含蓄的问题，比如“创始人耐克”，还是一个明确的问题，都没有区别。实体“耐克”和关系背景“创始人”就够了。

这个功能经常被错误地归因于RankBrain和/或谷歌的机器学习技术。不过其实是源于蜂鸟的功能，和知识图谱一起。因此:在RankBrain出现之前，谷歌就能做到这一点。

早在2009年，谷歌就推出了首个解释搜索条件的语义技术，其“相关搜索”。这项技术的发明者OriAllon为谷歌用户准备了对排名影响较大的底层技术。Allon开发的技术专利可以在这里找到。

该专利主要处理搜索查询的解释和微调。这意味着RankBrain可能会在稍后使用其机器学习技术来构建。自从RankBrain(如果不是更早的话)以来，谷歌已经能够使用机器学习来对搜索查询进行可扩展的语义解释。

根据该专利，搜索查询的微调涉及经常一起出现在原始搜索查询或同义词的排名文件中的特定实体。

RankBrain之前的问题是在寻找实体并将它们存储在知识图中时缺乏可伸缩性。知识图主要基于来自维基数据的信息，这些信息由维基百科实体进行验证——这意味着它是人工规划的，因此它是一个静态的、不可扩展的系统。

“维基百科通常被用作实体映射系统的基准。如第3.5小节所述，这将产生足够好的结果，我们认为，如果在这一领域的进一步努力将导致合理的收益，那将是令人惊讶的。”
来源:从Freebase到Wikidata——大迁移

谷歌越来越好(还是很棒？)

可以有把握地认为，至少从2007年开始，谷歌就一直致力于开发具有语义影响力的搜索引擎，以便更好地理解搜索查询和文档的含义。

到目前为止，在知识图谱和机器学习等语义结构方面，谷歌似乎已经非常接近前副总裁玛丽莎·梅(MarissaMae)表达的目标，即从单纯基于关键词的搜索引擎转向基于概念或背景的搜索引擎。

“现在，谷歌非常擅长关键词，这是一个我们认为搜索引擎应该能够随着时间的推移而克服的限制。人们应该能够提出问题，我们应该理解他们的意思，或者他们应该能够在概念层面上谈论事情。我们看到很多基于概念的问题——不是页面上显示的是哪些单词，而是更像“怎么回事？"."

而且，事实上，谷歌是时候实现这个目标了——如果你认为语音搜索正在走向全球化，搜索查询变得越来越复杂。

搜索引擎优化指南：Google如何解读搜索查询

发表评论

评论列表（0条）