烟台seo:跨语言信息搜索是怎么做的?
跨语言信息搜索是信息搜索制造业的一个研究课题。在过去的102年里,由于大数据技术的飞速发展,这一水平的科学研究受到了学术界的广泛重视。将这一核心技术应用于检索,可以帮助你检索到很多合理的信息,比如外国语学校相关网页、多语种网页、语言无关资源(比如照片)。考虑到客户满意度的各种规定,这种信息可以极大地改变搜索结果。在跨语言信息检索的科学研究中,有些研究成果已经健全,可以应用。事实上,雅虎和谷歌在五六年前就开始提供多语言搜索工具。毫无疑问,他们在这个水平上早就走在了世界前列。目前网页搜索的各种智能化工作流程已经如火如荼,这也是跨语言专业的一个去处。相信在不久的将来,它会在智能检索的过程中起到特别重要的博弈作用。拜托,你得弄清楚。 如果你搜索“中菲黄岩岛粘在一起”,如果你是客户,你需要了解的是这个事件的历史渊源和发展趋势;如果你是文艺范客户,你需要掌握的可能是我国愤青的爱国爱党观。一切正常。现阶段的中文搜索引擎完全可以满足你的要求。 但是,如果你是XX的客户,你不认同国内网站的内容,你很想知道国外的新闻媒体是怎么报道的,海外的人是怎么讨论这个事件的。那么对不起,中文百度搜索百度搜索引擎已经黔驴技穷了。就是因为中文百度搜索百度搜索引擎都是建立在中文基础上的。一般只包括网站的中文数据信息,只考虑到来中国人的特点,只对来中国的用户数量有规定。然而,当人们想要进行跨语言检索时,检索变得越来越困难。别说我们没捕捉到那么多外语数据。即使你有数据信息,由于不同语言的巨大差异和各国各种互联网技术的潜意识,你也无法准确检索到相关的外文信息。也就是说,语言的差异造成了检索的壕沟。 这么说,这条沟是过不去了?当然不是。事实上,很多年前,大家就开始充分考虑这个问题了。在学术界,这个问题有一个专业术语,叫做CPORSS-SenguBlueInformation检索号。早在20世纪60年代,今日信息搜索的创始人、美国康奈尔大学索尔顿权威专家就发表了一篇文章《Office语言文档的自动处理》,首次打开了跨语言信息搜索的大门。但由于没有哪个阶段的大数据技术,科研只停留在简单的实验阶段,甚至连跨语言信息搜索的定义都没有公布和明确指出。20世纪90年代,美国国家标准专业研究所(nationalinstituteofprofessionalresearchanddevelopmentandtechnology)和美国情报机构高级新产品开发文化艺术文化活动中心(TheU.s.departmentanddefEnse)合作举办了信息搜索和制造业最重要的交流会——“TREC”交流会(意为“TREC”)。20世纪90年代,在荷兰举行的SIGIR-96会议中,出现了第一个以跨语言搜索为科研主题元素的研讨会。2001年,欧盟创建了“跨语言鉴定论坛”,每年按时举办跨语言检索研讨会,推动跨语言检索的专业鉴定。从此,跨语言信息搜索成为信息搜索制造业的一个研究课题,无数英雄纷纷报名参加。 事不宜迟,大家该进入文章的主题了:如何解决跨语言信息搜索中的难点?接下来,我们一起来揭开它的面具。 在讲跨语言信息搜索之前,我们先来回顾一下经典的信息搜索是怎么做的,如下图所示。图1:首先,对于客户的查询,我们要对其应用svm算法,使其变成一个矩阵的特征值,用于匹配文本文档。其次,对于捕获时间较长的文本文档,我们也对其应用svm算法,赋予这些特征一定的权重来表示其重要程度。再次,我们计算查询的特征和文本文档的特征之间的相似度,以区分哪些文本文档与查询相关,哪些不相关。信息搜索最常见的相似度度量方法是求余弦,其他的可以从语义主题元素的角度来描述相似度,不做详细解释。有了相似度,就可以根据相似度对文本文档进行排序,取最相关的作为搜索结果。对于搜索结果,客户会提供一些反馈,比如客户的点击。这种反馈可以告诉大家,客户在网页搜索中需要什么。这种信息可用于考虑搜索的预期效果,并进一步改进搜索的3D建模。 在信息搜索的过程中,你可以看到跨语言搜索的难度:当查询的语言和文本文档的语言不同时,在室内空设计中查询和文本文档的特征是不同的。中文特征融合(一个中文句子是否出现)和英文特征融合(一个英文句子是否出现)的并集很少,导致原有的跨语言相似度计算方法失效。 那么如何应对这个困难呢? 对于跨语言,大家想到的方法之一就是:中文翻译。可以按照中文翻译的方式,把一种语言的句子投射到另一种语言,让查询和文本文档在同一个设计室空,然后使用单语言的三维建模进行搜索和排序,这样就可以维护跨语言搜索。 查询的中文翻译——将查询中文翻译成文本文档的语言,然后使用这种中文翻译的查询在文本文档中进行搜索。对于查询中的句子,可以选择几种可能的中文翻译来扩大召回范围。这可以用作查询扩展。 文档翻译——将文档翻译成查询的语言,然后使用原始查询搜索中文翻译文本文档。文件的中文翻译通常是从左到右。通过自动中文翻译(如翻译机)将源语言的文本文档转换成目标语言的文本文档。 这两种方法可以保证跨语言搜索的目的。联系实际,我们应该采用哪种方法?我们来分析一下这两种方式的优缺点: 从上面的优缺点对比可以看出,文档翻译可能提供更准确的中文翻译,但是需要大量的营销处理时间和存储空,所以应用类型较差。正因为如此,无论是学术界还是工业生产行业,普遍采用查询的中文翻译方式。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)