)使用搜狗搜索引擎如何对知乎内容进行垂直搜索

)使用搜狗搜索引擎如何对知乎内容进行垂直搜索,第1张

搜索引擎的整个工作过程视为三个部分:一是蜘蛛在互联网上爬行和抓取网页信息,并存入原始网页数据库;二是对原始网页数据库中的信息进行提取和组织,并建立索引库;三是根据用户输入的关键词,快速找到相关文档,并对找到的结果进行排序,并将查询结果返回给用户。以下对其工作原理做进一步分析:

一、网页抓取

Spider每遇到一个新文档,都要搜索其页面的链接网页。搜索引擎蜘蛛访问web页面的过程类似普通用户使用浏览器访问其页面,即B/S模式。引擎蜘蛛先向页面提出访问请求,服务器接受其访问请求并返回HTML代码后,把获取的HTML代码存入原始页面数据库。搜索引擎使用多个蜘蛛分布爬行以提高爬行速度。搜索引擎的服务器遍布世界各地,每一台服务器都会派出多只蜘蛛同时去抓取网页。如何做到一个页面只访问一次,从而提高搜索引擎的工作效率。在抓取网页时,搜索引擎会建立两张不同的表,一张表记录已经访问过的网站,一张表记录没有访问过的网站。当蜘蛛抓取某个外部链接页面URL的时候,需把该网站的URL下载回来分析,当蜘蛛全部分析完这个URL后,将这个URL存入相应的表中,这时当另外的蜘蛛从其他的网站或页面又发现了这个URL时,它会对比看看已访问列表有没有,如果有,蜘蛛会自动丢弃该URL,不再访问。

二、预处理,建立索引

为了便于用户在数万亿级别以上的原始网页数据库中快速便捷地找到搜索结果,搜索引擎必须将spider抓取的原始web页面做预处理。网页预处理最主要过程是为网页建立全文索引,之后开始分析网页,最后建立倒排文件(也称反向索引)。Web页面分析有以下步骤:判断网页类型,衡量其重要程度,丰富程度,对超链接进行分析,分词,把重复网页去掉。经过搜索引擎分析处理后,web网页已经不再是原始的网页页面,而是浓缩成能反映页面主题内容的、以词为单位的文档。数据索引中结构最复杂的是建立索引库,索引又分为文档索引和关键词索引。每个网页唯一的docID号是有文档索引分配的,每个wordID出现的次数、位置、大小格式都可以根据docID号在网页中检索出来。最终形成wordID的数据列表。倒排索引形成过程是这样的:搜索引擎用分词系统将文档自动切分成单词序列-对每个单词赋予唯一的单词编号-记录包含这个单词的文档。倒排索引是最简单的,实用的倒排索引还需记载更多的信息。在单词对应的倒排列表除了记录文档编号之外,单词频率信息也被记录进去,便于以后计算查询和文档的相似度。

三、查询服务

在搜索引擎界面输入关键词,点击“搜索”按钮之后,搜索引擎程序开始对搜索词进行以下处理:分词处理、根据情况对整合搜索是否需要启动进行判断、找出错别字和拼写中出现的错误、把停止词去掉。接着搜索引擎程序便把包含搜索词的相关网页从索引数据库中找出,而且对网页进行排序,最后按照一定格式返回到“搜索”页面。查询服务最核心的部分是搜索结果排序,其决定了搜索引擎的量好坏及用户满意度。实际搜索结果排序的因子很多,但最主要的因素之一是网页内容的相关度。影响相关性的主要因素包括如下五个方面。

(1)关键词常用程度。经过分词后的多个关键词,对整个搜索字符串的意义贡献并不相同。越常用的词对搜索词的意义贡献越小,越不常用的词对搜索词的意义贡献越大。常用词发展到一定极限就是停止词,对页面不产生任何影响。所以搜索引擎用的词加权系数高,常用词加权系数低,排名算法更多关注的是不常用的词。

(2)词频及密度。通常情况下,搜索词的密度和其在页面中出现的次数成正相关,次数越多,说明密度越大,页面与搜索词关系越密切。

(3)关键词位置及形式。关键词出现在比较重要的位置,如标题标签、黑体、H1等,说明页面与关键词越相关。在索引库的建立中提到的,页面关键词出现的格式和位置都被记录在索引库中。

(4)关键词距离。关键词被切分之后,如果匹配的出现,说明其与搜索词相关程度越大,当“搜索引擎”在页面上连续完整的出现或者“搜索”和“引擎”出现的时候距离比较近,都被认为其与搜索词相关。

(5)链接分析及页面权重。页面之间的链接和权重关系也影响关键词的相关性,其中最重要的是锚文字。页面有越多以搜索词为锚文字的导入链接,说明页面的相关性越强。链接分析还包括了链接源页面本身的主题、锚文字周围的文字等。

百度搜索引擎

地图引擎

新浪搜索引擎

网典搜索引擎

搜狐搜索引擎

天网搜索引擎

搜盟搜索引擎

哇塞搜索引擎

搜虎搜索引擎

司南搜索引擎

飞华搜索引擎

焦点搜索引擎

新方搜索引擎

微软搜索引擎

药猴搜索引擎

聚富搜索引擎

网图搜索引擎

网天搜索引擎

白银搜索引擎

网易搜索引擎

精品网页搜索引擎

月光宝盒搜索引擎

万方数据搜索引擎

搜鼠中文搜索引擎

新星时空搜索引擎

台湾金金搜索引擎

21世纪搜索引擎

聚富网-搜索引擎

香港中心搜索引擎

21cn搜索引擎

nas汇迅搜索引擎

瀛海威搜索引擎大观

台湾知诸网搜索引擎

top88搜索引擎

搜嫫搜索引擎集成组

台湾发现者搜索引擎

天网中英文搜索引擎

中国车网-搜索引擎

fm365搜索引擎

若比邻中文搜索引擎

考研加油站--搜索引擎

excite中文搜索引擎

openfind搜索引擎

中国食品科技网-搜索引擎

另类搜索引擎之学习资源站

kidsnook搜索引擎

印度asiaco搜索引擎

singseek搜索引擎

菲律宾yehey搜索引擎

globepage搜索引擎

sun100科技中心搜索引擎

digisearch搜索引擎

all-in-one搜索引擎

马来西亚asiaco搜索引擎

eefind数码图像搜索引擎

温州绮梦电器有限公司搜索引擎

modernnet搜索引擎大全

桌面搜索引擎-enet软件下载

infinisearch搜索引擎

easy seardh2搜索引擎

若比邻搜寻引擎

找到啦搜寻引擎

上华扬搜寻引擎

搜寻家搜寻引擎

中华网调查引擎

赛诺引擎商务网

茉莉之窗搜寻引擎

中国导航搜寻引擎

深圳康克模型引擎

台湾友发搜寻引擎

台湾诺贝尔搜寻引擎

新世纪连结搜寻引擎

台湾超人气搜寻引擎

excite搜寻引擎

台湾税务规划搜寻引擎

东方网景中文地址引擎

一百分mp3搜寻引擎

ablook搜寻引擎

和信哇塞中文搜寻引擎

广东商盟第一调查引擎

Google搜索引擎

如意搜索引擎

友发搜索引擎

悠游搜索引擎

搜索引擎观察

熊猫搜索引擎

奔腾搜索引擎

搜罗搜索引擎

另类搜索引擎

日出搜索引擎

雨点搜索引擎

北极星搜索引擎

常春藤搜索引擎

若比邻搜索引擎

指南针搜索引擎

常青藤搜索引擎

看中国搜索引擎

超人气搜索引擎

新百网搜索引擎

新浪网搜索引擎

孙悟空搜索引擎

名捕搜索引擎大全

安全漏洞搜索引擎

旅加之路搜索引擎

房产地图搜索引擎

cseek搜索引擎

网路指南针搜索引擎

中国139搜索引擎

梦想热讯-搜索引擎

中文搜索引擎若比邻

你好万维网搜索引擎

opens搜索引擎

中国油漆网搜索引擎

搜灯一站式搜索引擎

中国风网-搜索引擎

excite搜索引擎

华好网景中文搜索引擎

莎士比亚全集搜索引擎

商都影视音乐搜索引擎

金山词霸在线搜索引擎

台湾gais搜索引擎

北京大学天网中英文搜索引擎

天门向阳中文搜索引擎排行榜

chinacore搜索引擎

altavista搜索引擎

图像词典-图像搜索引擎

searchx多元搜索引擎

profusion搜索引擎

中国化工在线---搜索引擎

菲律宾asiaco搜索引擎

indiafocus搜索引擎

搜狐引擎

网易引擎

搜盟引擎

哇塞引擎

金色引擎

网络引擎

引擎登记

恐龙引擎

搜易引擎

生物引擎

全球华人寻人引擎

冰哥的傻瓜引擎站

悠游中文搜寻引擎

深圳生物引擎公司

台湾新浪搜寻引擎

heat游戏引擎

悠游中文搜寻引擎

数字引擎企业网络

中国专业市场引擎

博大调查引擎系统

小城故事引擎大全

锐驰在线调查引擎

cseek搜寻引擎

网路指南针搜寻引擎

中国139探索引擎

netease引擎

ein中文查找引擎

台湾小蕃薯搜寻引擎

台湾168搜寻引擎

台湾上华扬搜寻引擎

迷路啦搜索引擎

找到啦搜索引擎

搜索引擎大观园

搜索引擎登录器

搜豹-搜索引擎

一路发搜索引擎

精武门搜索引擎

上华扬搜索引擎

广州视窗搜索引擎

碧海银沙搜索引擎

网易中文搜索引擎

茉莉之窗搜索引擎

中国热点搜索引擎

软件速递搜索引擎

网易笑话搜索引擎

搜罗中文搜索引擎

美国世页搜索引擎

中国指南搜索引擎

中软英特搜索引擎

搜索引擎站点集锦

我是佳虎超级搜索引擎

熊猫美丽搜索引擎

文新网-图书搜索引擎

it罗盘垂直搜索引擎

kaoyan搜索引擎

sleuth搜索引擎

三峰中文搜索引擎指南

网易--搜索引擎帮助

netease搜索引擎

奇摩搜索引擎之医疗信息

中华网-外经贸搜索引擎

医弧健康与医药搜索引擎

sunup日出搜索引擎

sgame游戏搜索引擎

亿峰网络-搜索引擎大全

三九健康网--搜索引擎

尤里卡中文智能搜索引擎

hytrend搜索引擎

dogpile搜索引擎

e68产品信息搜索引擎

设计引擎

人才引擎

智者引擎

傻瓜引擎站

天网搜寻引擎

中文查寻引擎

点子交友引擎

飞狐可视引擎

凯希查询引擎

华扬搜寻引擎

设计引擎

人才引擎

智者引擎

傻瓜引擎站

天网搜寻引擎

中文查寻引擎

点子交友引擎

飞狐可视引擎

凯希查询引擎

华扬搜寻引擎

时空引擎-中国贵州省

台北税务规划搜寻引擎

x-files搜寻引擎

中国互联网状况统计引擎

excite中文搜寻引擎

openfind搜寻引擎

igd ftp 检索引擎

雅发超联结url登录引擎

globepage搜寻引擎

gowhere中文搜寻引擎

中国139探索引擎免费频道

台湾ivse全文检索资料引擎

explorer绿界探索引擎

look4u全球华人寻人引擎

pricedj商品比价搜寻引擎

使用搜狗搜索引擎对知乎内容进行垂直搜索。

1、打开手机搜狗浏览器app。

2、进入浏览器首页,点击右下角的菜单。

3、在d出的窗口,点击右下角的设置按钮。

4、在搜索引擎页面,找到知乎选项并勾选。

5、勾选完成,最后回到搜狗浏览器首页。

搜索方式是搜索引擎的一个关键环节,大致可分为四种:全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎,它们各有特点并适用于不同的搜索环境。所以,灵活选用搜索方式是提高搜索引擎性能的重要途径。

全文搜索引擎是利用爬虫程序抓取互联网上所有相关文章予以索引的搜索方式;元搜索引擎是基于多个搜索引擎结果并对之整合处理的二次搜索方式;垂直搜索引擎是对某一特定行业内数据进行快速检索的一种专业搜索方式;目录搜索引擎是依赖人工收集处理数据并置于分类目录链接下的搜索方式。

1、全文搜索引擎

一般网络用户适用于全文搜索引擎。这种搜索方式方便、简捷,并容易获得所有相关信息。但搜索到的信息过于庞杂,因此用户需要逐一浏览并甄别出所需信息。尤其在用户没有明确检索意图情况下,这种搜索方式非常有效。

2、元搜索引擎

元搜索引擎适用于广泛、准确地收集信息。不同的全文搜索引擎由于其性能和信息反馈能力差异,导致其各有利弊。元搜索引擎的出现恰恰解决了这个问题,有利于各基本搜索引擎间的优势互补。而且本搜索方式有利于对基本搜索方式进行全局控制,引导全文搜索引擎的持续改善。

3、垂直搜索引擎

垂直搜索引擎适用于有明确搜索意图情况下进行检索。例如,用户购买机票、火车票、汽车票时,或想要浏览网络视频资源时,都可以直接选用行业内专用搜索引擎,以准确、迅速获得相关信息。

4、目录搜索引擎

目录搜索引擎是网站内部常用的检索方式。本搜索方式指在对网站内信息整合处理并分目录呈现给用户,但其缺点在于用户需预先了解本网站的内容,并熟悉其主要模块构成。总而观之,目录搜索方式的适应范围非常有限,且需要较高的人工成本来支持维护。

工作方式

搜索引擎为一组项目提供了一个接口,使用户能够指定关于感兴趣的项目的标准,并让引擎找到匹配的项目,这些标准称为搜索查询。在文本搜索引擎的情况下,搜索查询通常表示为识别一个或多个文档可能包含的期望概念的一组单词。

有多种样式的搜索查询语法在严格性上有差异。它也可以在以前的站点中搜索搜索引擎中的名称。而一些文本搜索引擎要求用户输入由白色空格分隔的两个或三个字,其他搜索引擎可以使用户能够指定整个文档,,声音和各种形式的自然语言。

一些搜索引擎对搜索查询进行改进,以增加通过称为查询扩展的过程提供质量集合的可能性。查询理解方法可用于标准化查询语言。

基于索引的搜索引擎符合查询指定条件的项目列表通常会排序或排名。按相关性排列项目(从最高到最低)减少查找所需信息所需的时间。概率搜索引擎根据相似性度量(每个项目和查询之间,通常以1到0,1的比例最相似)和有时受欢迎程度或权限或使用相关性反馈来评估项目。

布尔搜索引擎通常只返回匹配的项目,而不考虑订单,为了提供根据一些标准快速排序的一组匹配项目,搜索引擎通常将通过称为索引的过程来收集关于所考虑的一组项目的元数据。

索引通常需要较少量的计算机存储,这就是为什么一些搜索引擎仅存储索引的信息而不是每个项目的完整内容,而是提供导航到搜索引擎结果页面中的项目的方法。

或者,搜索引擎可以将每个项目的副本存储在高速缓存中,使得用户可以在索引时或为了归档目的看到该项目的状态,或者使得重复的进程更有效和更快地工作。其他类型的搜索引擎不存储索引。

抓取器或蜘蛛型搜索引擎(也称为实时搜索引擎)可以在搜索查询时收集和评估项目,基于起始项目的内容(称为种子或种子URL)动态考虑附加项目互联网爬虫的情况)。元搜索引擎既不存储索引也不存储缓存,而只是重新使用一个或多个其他搜索引擎的索引或结果来提供聚合的最终结果集。

以上内容参考 百度百科-搜索引擎

以上就是关于IT搜索引擎的环节有哪些全部的内容,包括:IT搜索引擎的环节有哪些、谁能教一教我搜索方面的技巧、)使用搜狗搜索引擎如何对知乎内容进行垂直搜索等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/8873178.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-22
下一篇 2023-04-22

发表评论

登录后才能评论

评论列表(0条)

保存