从2016年到现在,IT领域大的技术提升应该是人工智能。不仅在最近一年多的时间里,人们在最后一个人们认为自己的设备难以击败的娱乐项目上彻底被炸了,而且在几天前,绝世的AlphaGoZero也出现了。完全没必要去效仿人的专业知识,自学三天就超越了人。
人工智能行业最好的企业是海外的谷歌和国内的百度搜索。都是百度搜索引擎。也许这不是偶然。只是百度搜索引擎是最适合开发设计人工智能的企业。他们拥有最多的数据信息,包括文字、照片、视频、地形图、实时路况、用户应用数据等。
百度搜索引擎公司的AI成果在很多方面应用于其关键业务流程——检索?也没有坚定的对外开放,这说明,正如从搜索技术工程师的零碎发言中猜测的那样,至少在现阶段,还没有大规模的应用,搜索算法的基础还没有改变。毕竟虽然人工智能的定义已经存在了几十年,但实际效果却是近几年才快速发展起来的,还没有出现普适的人工智能。在中国围棋等简单建立标准的行业,牛X要转移到标准模糊的系统软件,比如搜索,还需要一段时间。
但我认为人工智能的规模应用于搜索算法是迟早的事。之前听说百度搜索的大搜索单元和人工智能/深度神经网络单元有些区别。现在吴恩达离开了百度搜索,齐鲁对百度搜索进行了多次人事变动,搜索单位对人工智能的抵触情绪可能会大大降低。
其实人工智能早就用在搜索算法上了。举两个例子。
百度搜索DNN实体模型几个月前看到一篇关于百度搜索朱演讲《AI赋能搜索与对话交互》的报道。许多年以前,我采访过朱·。当时他是谷歌的首席系统架构师,也是知名的小熊猫优化算法的关键参与者之一。现在是百度搜索的顶级系统架构师。演讲内容很多,搜索感兴趣的话题就能找到整篇文章,非常非常值得深入阅读。因此,很少有人在长期的SEO领域注意到这些关于搜索算法的有价值的公开信息,这是非常出人意料的。
演讲中提到了百度搜索在2013年发布的DNN实体模型,大大提高了词义相关性的判别类别和准确率。2013年百度搜索相关性提升34%来自DNN实体模型,2014年全年相关性提升25%来自DNN实体模型。DNN实体模型以深度神经网络的方式应用。根据100亿用户点击数据信息训练实体模型,主要参数超过1亿个。下面详细介绍的Google RankBrain是2015年发布的,所以搜索百度是全球第一家将人工智能应用于具体搜索算法的企业。
下图是DNN训练的计划:
简单来说,就是对于同一个查询词,实体模型分析真实用户点击的页面的标题和没有点击的页面的标题,从而更深入的了解用户需要什么标题。经常会出现这样的情况,一个页面的标题不包含查询词,但是用户更喜欢点击这个页面,说明这个页面考虑到了用户的要求。即使不包含查询词,该页面的标题也与查询词的含义相关。不能用经典的页面-关键词相关性优化算法来计算。
演讲中提到的例子:
在DNN发布之前,用户搜索“吉卜力全前置车牌”的时候,因为基本信息很少,很少有页面以这个查询词为标题或者这个关键词出现在页面上,所以百度的搜索质量不高。传统的搜索算法只是通过关键词匹配返回了吉卜力的一些基本信息,基本没有“全前置车牌”的信息内容。
DNN发布后的百度搜索是这样的:
可以看到,百度搜索中仍然没有标题为“把车牌放在吉卜力车前面”的页面,但是已经解决了用户的需要。优化算法明白“前”“前”“车头”是一个意思,放哪里,怎么放,怎么挂,“什么都放”是一个意思,所以“
这种相关度的知识不是传统的基于关键词匹配的搜索算法计算出来的,而只是由真实用户点击数据信息而获知的。用户在搜索“吉卜力前面的所有车牌”时,经常会点击“吉卜力的车牌怎么挂”和“吉卜力前面的车牌怎么装”的页面。经过训练,DNN的立体模型知道这个词的意思是相关的。
GoogleRankBrain2015年发布的Google RankBrain也处理了查询词的深度理解问题,尤其是长尾关键词的词。寻找这些与用户查询词不完全匹配,但实际上对用户查询响应非常好的页面。这与百度搜索DNN非常相似。谷歌其实并没有展示RankBrain的训练方法,可能类似于百度搜索DNN。
2015年RankBrain发布时,15%的查询词被RankBrain解决。2016年,所有的查询词都被RankBrain解决了。
谷歌自己经常引用RankBrain的例子作为查询:
食物链最高层的消费者的头衔是什么
这个查询词是很长尾的关键词,彻底匹配的结果很少,查询中很多词很容易歧义。比如消费者一般是指顾客,食品 连锁也可以理解为连锁餐饮,但是这个详细查询和大型商场、顾客、餐厅之类的含义没有关系。RankBrain能理解用户实际上问的是权力最高层人口的名字。同样,百度搜索也无法按照传统的关键词匹配来解决。
这种长尾关键词查询的总数非常大,Google每天收到的查询中有15%是以前从未出现过的。这种查询通过关键词匹配找不到高质量的页面,而且总数太少,甚至没有。但是,如果你知道查询的意思和意图,你可以找到考虑用户要求的、关键词不完全匹配的页面。
对SEO的危害后面会详细写。这里只是简单提醒一下:页面要包含关键词,这一点在现阶段关键词推广的整个过程中是确定的。现在百度搜索引擎都能理解,几个不同的词,意思是一样的。写完或者编完页面内容,还需要收录关键词吗?
创建者:Zac@SEO一天一贴
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)