工作原理
1.爬行:搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。
2.抓取存储:搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。
3.预处理:搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。
搜索引擎是一套程序,或者说完整的系统搜索网站或者说网页只是他的一个功能而已
搜索引擎用蜘蛛,或者说爬虫,把网页的连接都爬下来放入他的数据库
在我们进行搜索的时候,他分析他的数据资源,给我返回我们需要的搜索项,供我们使用。
类似主机的说法太硬件话
他可能有很多台服务器在共同的完成着各个不分的工作
数据库也可能被分到很多台机器上面去
也就是说一张数据库表的内容被分到很多台机器上
这样做是为了提高数据库的检索效率
当然还有很多别的方面的知识,得一点一点学
风靡全球的因特网是全球规模最大的信息源基地,但因特网上的信息像原子裂变迅速膨胀,要想在浩瀚无边的信息海洋中迅速而准确地获取自己需要的信息,如没有专门的搜索工具,任何人只能望网兴叹。在这种情况下,网络搜索引擎应运而生。那么什么是搜索引擎?如何选择搜索引擎?怎样使用搜索引擎?一、什么是搜索引擎搜索引擎其实也是一个网站,只不过该网站专门为你提供信息“检索”服务,它使用特有的程序把因特网上的所有信息归类以帮助人们在浩如烟海的信息海洋中搜寻到自己所需要的信息。搜索引擎按其工作的方式分为两类:一类是分类目录型的检索,把因特网中的资源收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类,人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息;另一类是基于关键词的检索,这种方式用户可以用逻辑组合方式输入各种关键词(Keyword),搜索引擎计算机根据这些关键词寻找用户所需资源的地址,然后根据一定的规则反馈给用户包含此关键字词信息的所有网址和指向这些网址的链接。随着因特网信息按几何式增长,这些搜索引擎利用其内部的一个叫SPIDE(蜘蛛)的程序,自动搜索网站每一页的开始,并把每一页上代表超级链接的所有词汇放入一个数据库,供用户来查询。二、如何选择搜索引擎
现在互联网上大大小小的搜索引擎大约有几百个之多,而且每个都声称自己是最好的。要是随便抓起来就用,只会是事倍功半,甚至 越搜索越糊涂。所以,花一点工夫挑选恰当的搜索工具,是万万省不得的。
那么什么样的搜索工具才称得上恰当呢?一般来说,有以下几条判断标准。
1、快速
查询速度当然是搜索引擎的重要指标,优秀的搜索工具内部应该有一个含时间变量的数据库,能保证所查询的信息都是最新的和最全面的。
2、准确
准确性高是我们使用搜索引擎的宗旨。好的搜索引擎内部应该含有一个相当准确的搜索程序,搜索精度高,查到的信息总能与我们的要求相符。
3、易用
易用也是我们选择搜索引擎的参考标准之一,一个搜索引擎是否能搜索整个互联网,而不仅仅限于万维网?搜索结果出来之后,我们能改变描述的长短或者改变显示结果页面的数量吗?能否实现这些功能,应该是选择搜索引擎的重要考虑因素。
4、强劲
理想的搜索引擎应该既有简单查询的能力,也应该有高级搜索的功能。高级查询最好是图形界面,并带有选项功能的下拉菜单,可以使用像AND(或&号),OR(或|号),NOT(或!号)以及()等 *** 作符来连接词或词组,这样可以缩小搜索范围,甚至可以限定日期、位置、数据类型等。 三、搜索引擎有哪些常用技巧
各个搜索引擎都提供一些方法来帮我们精确地查询内容,使之符合我们的要求。不同的搜索引擎,提供的查找技巧和实现的方法各有不同,但一些常见的技巧是差不多的。
(一)简单信息查找 简单查找是最常用的方法,当我们输入一个关键词时,搜索引擎就把包括关键词的网址和与关键词意义相近的网址一起反馈给我们。例如,查找“科技”一词时,模糊查找就会把“科学”、“科委”、“技术”等内容的网址一起反馈回来;
(二)使用双引号进行精确查找 简单查找往往会反馈回大量不需要的信息,如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来(即在英文输入状态下的双引号),这样得到的结果最少、最精确。例如在搜索引擎的Search(查询)框中输入"电脑技术",就等于告诉搜索引擎只反馈回网页中有“电脑技术”这几个关键字的网址,这会比输入电脑技术得到更少、更好的结果。
(三)使用加减号限定查找 很多搜索引擎都支持在搜索词前冠以加号(+)限定搜索结果中必须包含的词汇,用减号(-) 限定搜索结果不能包含的词汇。 例如:要查找的内容必须同时包括“盐城、信息、网络”3个关键词时,就可用“盐城+信息+网络”来表示;再例如:要查找“电脑”,但必须没有“技术”字样,就可以用“电脑-技术”来表示。
(四)使用逻辑词辅助查找 比较著名的搜索引擎都支持使用逻辑词进行更复杂的搜索设定,常用的有:AND(和)、OR( 或)、NOT(否, 有些是AND NOT)及NEAR(两个单词的靠近程度),恰当应用它们可以使结果非常精确, 另外, 也可以使用括号将搜索词分别组合,如要查找的内容必须同时包括“yancheng、infomation、network”3个关键词时,就可用yancheng AND infomation AND network来表示(注意:输入代表逻辑关系的字符时,一定要用半角)。 四、举例说明如何使用搜索引擎
由于搜索引擎比较多,笔者不能一一在这里介绍,下面就以著名的搜索引擎“中文YAHOO”为例,说明如何具体使用搜索引擎:
当你连接到中文Yahoo主页后,可以看见在Yahoo!标题下方是一个文字输入框,在这里可以输入选定的关键词进行快速查找。页面其它部分的所有文字几乎都以链接方式出现,顶部是一些常用链接,如新闻、财经、天气预报等。底部是Yahoo自身的一些常用链接,如广告指南、如何登录等等。中部是主体,按内容分为文化艺术、商业经济、计算机与Internet、教育、娱乐、政府、医疗卫生、新闻媒体、体育、参考资料、国家与地区、自然科学、社会科学、社会文化十四个部分。目录链接列表按树形结构组织,你可以从点击根链开始,不断深入,最终到达所需的Web页、新闻组、FTP站和其它可由Web访问的资源。这种列表式分层搜寻易于控制,适合浏览性的查找,但因层次内容太多会感到速度太慢,为此Yahoo提供了另一种选择,那就是利用关键词匹配查询。 在Yahoo的主页或任一个查询结果返回顶部和底部,你都会看见一个输入框。如果你很清楚你要找的网站(或新闻)主题,你可以在输入框内键入你想要找的关键字串 (Keyword),然后单击右侧的搜寻按钮后,Yahoo就会从它四个方面的数据库中找出相匹配的记录,它们是:Yahoo目录、Yahoo网点、Yahoo网上事件和谈话、最新新闻。查询结果返回的是一页与关键词匹配的记录列表,最前面的是Yahoo目录链,其后是Yahoo网站,网站记录通常由标题(以链接形式出现)和简介组成。如果在Yahoo目录和网站中都没有相匹配的内容,Yahoo则自动利用其内置的查询机制进行整个WEB范围的文档查找。总之,当我们使用搜索引擎时,应该充分利用它们各自的优点,以得到最佳最快捷的查询结果。 风靡全球的因特网是全球规模最大的信息源基地,但因特网上的信息像原子裂变迅速膨胀,要想在浩瀚无边的信息海洋中迅速而准确地获取自己需要的信息,如没有专门的搜索工具,任何人只能望网兴叹。在这种情况下,网络搜索引擎应运而生。那么什么是搜索引擎?如何选择搜索引擎?怎样使用搜索引擎?一、什么是搜索引擎
搜索引擎其实也是一个网站,只不过该网站专门为你提供信息“检索”服务,它使用特有的程序把因特网上的所有信息归类以帮助人们在浩如烟海的信息海洋中搜寻到自己所需要的信息。搜索引擎按其工作的方式分为两类:一类是分类目录型的检索,把因特网中的资源收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类,人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息;另一类是基于关键词的检索,这种方式用户可以用逻辑组合方式输入各种关键词(Keyword),搜索引擎计算机根据这些关键词寻找用户所需资源的地址,然后根据一定的规则反馈给用户包含此关键字词信息的所有网址和指向这些网址的链接。随着因特网信息按几何式增长,这些搜索引擎利用其内部的一个叫SPIDE(蜘蛛)的程序,自动搜索网站每一页的开始,并把每一页上代表超级链接的所有词汇放入一个数据库,供用户来查询。二、如何选择搜索引擎
现在互联网上大大小小的搜索引擎大约有几百个之多,而且每个都声称自己是最好的。要是随便抓起来就用,只会是事倍功半,甚至 越搜索越糊涂。所以,花一点工夫挑选恰当的搜索工具,是万万省不得的。
那么什么样的搜索工具才称得上恰当呢?一般来说,有以下几条判断标准。
1、快速
查询速度当然是搜索引擎的重要指标,优秀的搜索工具内部应该有一个含时间变量的数据库,能保证所查询的信息都是最新的和最全面的。
2、准确
准确性高是我们使用搜索引擎的宗旨。好的搜索引擎内部应该含有一个相当准确的搜索程序,搜索精度高,查到的信息总能与我们的要求相符。
3、易用
易用也是我们选择搜索引擎的参考标准之一,一个搜索引擎是否能搜索整个互联网,而不仅仅限于万维网?搜索结果出来之后,我们能改变描述的长短或者改变显示结果页面的数量吗?能否实现这些功能,应该是选择搜索引擎的重要考虑因素。
4、强劲
理想的搜索引擎应该既有简单查询的能力,也应该有高级搜索的功能。高级查询最好是图形界面,并带有选项功能的下拉菜单,可以使用像AND(或&号),OR(或|号),NOT(或!号)以及()等 *** 作符来连接词或词组,这样可以缩小搜索范围,甚至可以限定日期、位置、数据类型等。 三、搜索引擎有哪些常用技巧
各个搜索引擎都提供一些方法来帮我们精确地查询内容,使之符合我们的要求。不同的搜索引擎,提供的查找技巧和实现的方法各有不同,但一些常见的技巧是差不多的。
(一)简单信息查找 简单查找是最常用的方法,当我们输入一个关键词时,搜索引擎就把包括关键词的网址和与关键词意义相近的网址一起反馈给我们。例如,查找“科技”一词时,模糊查找就会把“科学”、“科委”、“技术”等内容的网址一起反馈回来;
(二)使用双引号进行精确查找 简单查找往往会反馈回大量不需要的信息,如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来(即在英文输入状态下的双引号),这样得到的结果最少、最精确。例如在搜索引擎的Search(查询)框中输入"电脑技术",就等于告诉搜索引擎只反馈回网页中有“电脑技术”这几个关键字的网址,这会比输入电脑技术得到更少、更好的结果。
(三)使用加减号限定查找 很多搜索引擎都支持在搜索词前冠以加号(+)限定搜索结果中必须包含的词汇,用减号(-) 限定搜索结果不能包含的词汇。 例如:要查找的内容必须同时包括“盐城、信息、网络”3个关键词时,就可用“盐城+信息+网络”来表示;再例如:要查找“电脑”,但必须没有“技术”字样,就可以用“电脑-技术”来表示。
(四)使用逻辑词辅助查找 比较著名的搜索引擎都支持使用逻辑词进行更复杂的搜索设定,常用的有:AND(和)、OR( 或)、NOT(否, 有些是AND NOT)及NEAR(两个单词的靠近程度),恰当应用它们可以使结果非常精确, 另外, 也可以使用括号将搜索词分别组合,如要查找的内容必须同时包括“yancheng、infomation、network”3个关键词时,就可用yancheng AND infomation AND network来表示(注意:输入代表逻辑关系的字符时,一定要用半角)。 四、举例说明如何使用搜索引擎
由于搜索引擎比较多,笔者不能一一在这里介绍,下面就以著名的搜索引擎“中文YAHOO”为例,说明如何具体使用搜索引擎:
当你连接到中文Yahoo主页后,可以看见在Yahoo!标题下方是一个文字输入框,在这里可以输入选定的关键词进行快速查找。页面其它部分的所有文字几乎都以链接方式出现,顶部是一些常用链接,如新闻、财经、天气预报等。底部是Yahoo自身的一些常用链接,如广告指南、如何登录等等。中部是主体,按内容分为文化艺术、商业经济、计算机与Internet、教育、娱乐、政府、医疗卫生、新闻媒体、体育、参考资料、国家与地区、自然科学、社会科学、社会文化十四个部分。目录链接列表按树形结构组织,你可以从点击根链开始,不断深入,最终到达所需的Web页、新闻组、FTP站和其它可由Web访问的资源。这种列表式分层搜寻易于控制,适合浏览性的查找,但因层次内容太多会感到速度太慢,为此Yahoo提供了另一种选择,那就是利用关键词匹配查询。 在Yahoo的主页或任一个查询结果返回顶部和底部,你都会看见一个输入框。如果你很清楚你要找的网站(或新闻)主题,你可以在输入框内键入你想要找的关键字串 (Keyword),然后单击右侧的搜寻按钮后,Yahoo就会从它四个方面的数据库中找出相匹配的记录,它们是:Yahoo目录、Yahoo网点、Yahoo网上事件和谈话、最新新闻。查询结果返回的是一页与关键词匹配的记录列表,最前面的是Yahoo目录链,其后是Yahoo网站,网站记录通常由标题(以链接形式出现)和简介组成。如果在Yahoo目录和网站中都没有相匹配的内容,Yahoo则自动利用其内置的查询机制进行整个WEB范围的文档查找。总之,当我们使用搜索引擎时,应该充分利用它们各自的优点,以得到最佳最快捷的查询结果。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)