什么是搜索引擎_服务器

分类: 电脑/网络 >> 软件
解析:

搜索引擎

搜索引擎的概念

搜索引擎是指以一定的策略搜集互联网上的信息，在对信息进行组织和处理后，为用户提供检索服务的系统。从使用者的角度看，搜索引擎提供一个包含搜索框的页面，在搜索框输入词语，通过浏览器提交给搜索引擎后，搜索引擎就会返回跟用户输入的内容相关的信息列表。互联网发展早期，以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护，精选互联网上的优秀网站，并简要描述，分类放置到不同目录下。用户查询时，通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站成为搜索引擎，但从严格意义上，它并不是搜索引擎。

搜索引擎的工作原理
可以分为三个部分

1、抓取网页

每个独立的搜索引擎都有自己的网页抓取程序（spider）。Spider顺着网页中的超链接，连续地抓取网页。由于互联网中超链接的应用很普遍，理论上，从一定范围的网页出发，就能搜集到绝大多数的网页。

2、处理网页

搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中，最重要的就是提取关键词，建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。

3、提供检索服务

用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页；为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息。

搜索引擎的发展历史

1990年，加拿大麦吉尔大学（University of McGill）计算机学院的师生开发出Archie。当时，万维网（World Wide Web）还没有出现，人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息，提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索，Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页（HTML文件），但和搜索引擎的基本工作方式是一样的：自动搜集信息资源、建立索引、提供检索服务。所以，Archie被公认为现代搜索引擎的鼻祖。

Robot（机器人）一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去，因此，搜索引擎的Robot程序被称为spider程序。

1993年Matthew Gray开发了 World Wide Web Wanderer，这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人（Robot）”程序。开始，它仅仅用来统计互联网上的服务器数量，后来也能够捕获网址（URL）。

1994年4月，斯坦福大学（Stanford University）的两名博士生，美籍华人Jerry Yang（杨致远）和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长，Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的，所以不能真正被归为搜索引擎，事实上只是一个可搜索的目录。雅虎于2002年12月23日收购inktomi，2003年7月14日收购包括Fast和Altavista在内的Overture，2003年11月，Yahoo全资收购3721公司。

1994年初，华盛顿大学（University of Washington ）的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日，WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎，在它之前，用户只能通过URL和摘要搜索，摘要一般来自人工评论或程序自动取正文的前100个字。

1994年7月，卡内基·梅隆大学（Carnegie Mellon University）的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中，创建了Lycos。除了相关性排序外，Lycos还提供了前缀匹配和字符相近限制，Lycos第一个在搜索结果中使用了网页自动摘要，而最大的优势还是它远胜过其它搜索引擎的数据量。

1994年底，Infoseek正式亮相。其友善的界面，大量的附加功能，使之和Lycos一样成为搜索引擎的重要代表。

1995年，一种新的搜索引擎形式出现了——元搜索引擎（A Meta Search Engine Roundup）。用户只需提交一次搜索请求，由元搜索引擎负责转换处理，提交给多个预先选定的独立搜索引擎，并将从各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户。第一个元搜索引擎，是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。

1995年12月，DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎，第一个实现高级搜索语法的搜索引擎（如AND, OR, NOT等)。用户可以用AltaVista搜索新闻组（Newsgroups）的内容并从互联网上获得文章，还可以搜索名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎，并能在24小时内上线。AltaVista最有趣的新功能之一，是搜索有链接指向某个URL的所有网站。在面向用户的界面上，AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式，这些小tip经常更新，这样，在搜索过几次以后，用户会看到很多他们可能从来不知道的的有趣功能。这系列功能，逐渐被其它搜索引擎广泛采用。1997年，AltaVista发布了一个图形演示系统LiveTopics，帮助用户从成千上万的搜索结果中找到想要的。

1995年9月26日，加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi，1996年5月20日，Inktomi公司成立，强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上，所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。

1997年8月，Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一，它没有Stop Words，它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法，第一个支持对搜索结果进行简单的自动分类。

1998年10月之前，Google只是斯坦福大学（Stanford University）的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计，于1997年9月15日注册了google的域名，1997年底，在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下，BachRub开始提供Demo。1999年2月，Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别（Pagerank）为基础，判断网页的重要性，使得搜索结果的相关性大大增强。Google公司的奇客（Geek）文化氛围、不作恶（Don’t be evil）的理念，为Google赢得了极高的口碑和品牌美誉。2006年4月，Google宣布其中文名称“谷歌”，这是Google第一个在非英语国家起的名字。

Fast（Alltheweb）公司创立于1997年，是挪威科技大学(NTNU)学术研究的副产品。1999年5月，发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎，几年来庶几近之。Fast（Alltheweb）的网页搜索可利用ODP自动分类，支持Flash和pdf搜索，支持多语言搜索，还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索，拥有极其强大的高级搜索功能。（2003年2月25日，Fast的互联网搜索部门被Overture收购）。

1996年8月，sohu公司成立，制作中文网站分类目录，曾有“出门找地图，上网找搜狐”的美誉。随着互联网网站的急剧增加，这种人工编辑的分类目录已经不适应。sohu于2004年8月独立域名的搜索网站“搜狗”，自称“第三代搜索引擎”。

Openfind 创立于1998年1月，其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎，鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎，但2000年后市场逐渐被Baidu和Google瓜分。2002年6月，Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版，推出多元排序(PolyRankTM)，宣布累计抓取网页35亿，开始进入英文搜索领域。

2000年1月，两位北大校友，超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇（加州伯克利分校博士后）在北京中关村创立了百度（Baidu）公司。2001年8月发布Baidu搜索引擎Beta版（此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎），2001年10月22日正式发布Baidu搜索引擎，专注于中文搜索。Baidu搜索引擎的其它特色包括：百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划（Blitzen Project）开始后，技术升级明显加快。后推出贴吧、知道、地图、国学、百科等一系列产品，深受网民欢迎。2005年8月5日在纳斯达克上市，发行价为USD 2700，代号为BIDU。开盘价USD 6600，以USD 12254收盘，涨幅35385%，创下了5年以来美国股市上市新股当日涨幅最高纪录。

2003年12月23日，原慧聪搜索正式独立运做，成立了中国搜索。2004年2月，中国搜索发布桌面搜索引擎网络猪10，2006年3月中搜将网络猪更名为IG(Inter Gateway) 。

2005年6月，新浪正式推出自主研发的搜索引擎“爱问”。

搜索引擎的商务模式

在搜索引擎发展早期，多是作为技术提供商为其他网站提供搜索服务，网站付钱给搜索引擎。后来，随着2001年互联网泡沫的破灭，大多转向为竞价排名方式。

现在搜索引擎的主流商务模式（百度的竞价排名、Google的AdWords）都是在搜索结果页面放置广告，通过用户的点击向广告主收费。这种模式最早是比尔·格罗斯（Bill Gross）提出的。他于1998年6月创立GoTo公司（后于2001年9月更名为Overture）,实施这种模式，取得了很大的成功，并且申请了专利。这种模式有两个特点，一是点击付费（Pay Per Click），用户不点击则广告主不用付费。二是竞价排序，根据广告主的付费多少排列结果。 2001年10月，Google推出AdWords，也采用点击付费和竞价的方式。2002年，Overture起诉Google侵犯了其专利。2004年8月，和Yahoo！（Yahoo！于2003年7月收购Overture）达成和解，向后者支付了270万普通股（合3亿美元不到）作为和解费。

AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的的第三方网页发布者进入Google庞大的广告商网络。Google在这些第三方网页放置跟网页内容相关的广告，当浏览者点击这些广告时，网页发布者能获得收入。AdSense在blogger中很受欢迎。同时，Google武断地删除一些帐号，引起部分人的不满。类似的广告方式，其他搜索引擎也先后推出。雅虎的广告方式是YPN(Yahoo Publisher Neork)，YPN 除了可以在网页上显示与内容相关的广告以外，还可以通过在 RSS 订阅中来显示广告。微软的广告计划叫AdCenter。百度也推出主题推广。

18962 Cartman-2000's Minecraft Server mcservercartman-2000net:25565 3/10
18944 Windoom Smp 188165192166:25565 17/40
18937 MineRealm [24/7] [Legit] - Founded Oct, 2010 gameminerealmcom:25565 56/150
18926 [AUS] Mikeland Survival jiwacomau:25565 66/100
18923 CloudCraft SMP [Multiworlds/Creative/Survival/R mccloudcraftfunnet:25565 22/40
18922 █★█ NyanCRAFT ◄|► 173|RPG|TOWNY|1000+ MEMBERS nyancraftcom:25565 N/A
1891 SoftEggLand 7117823250:25565 N/A
18897 [AUS] Mikeland Factions jiwacomau:25567 36/100
18885 Dirkocraft - Friendly, fun, legit Check us out! dirkocraftcom:25565 16/70
18885 [AUS]Mikeland Creative jiwacomau:25566 7/60
18882 USZRT Main uszrtcom:25565 17/40
18872 RinicCraft - German Survival[17][RPG] rinicde:25565 5/45
18871 mcPlugPayPlaycom || [SMP] [Bukkit] [200 Slot mcPlugPayPlaycom:25565 5/200
1887 Helicraft Reloaded shinyheliwrnet:25565 0/15
18869 ›™iCraftSMP™ introducing›Towny~Jobs~Max= 30 :] icraftsmpcom:20023 0/20
18861 Dynamo MC 17 Brand New! [Ded] [24/7] [modified sc5servercraftco:7059 2/30
18858 The Minecrafter Server [Survival] sminecraftercom:25565 2/200
18841 ULTIMATEMINECRAFT | 24/7 DEDICATED SERVER | NO ultimateminecraftnet:25565 21/70
18828 «» World of Minecraft «» PVP-Arena «» 60 Slots minenopolyde:25565 3/60
18821 Hollowworld - Medieval / Fantasy Themed minecrafthollowworldcouk:1701 9/40
18814 Frantic Me! [Vanilla][Build Rights][24/7][17] mcfranticmecom:25565 13/64
18811 ░▒▓█JustGamer's RPG Server - [24/7][Ventrilo][ jgrpgdyndnsorg:25565 11/50
18807 simplicitypet▲Pseudo-vanilla anarchy▲Griefi simplicitypet:25565 4/35
18804 Mr Minecraft's PVP Server pvpmrminecraftnet:25565 11/50
18798 ██►█ Creative NO-signup Factions█◄██ 696439248:25565

网络安全风险与对策1

摘要：要使网络信息在一个良好的环境中运行，加强网络信息安全至关重要。

必须全方位解析网络的脆弱性和威胁，才能构建网络的安全措施，确保网络安全。

本文在介绍网络安全的脆弱性与威胁的基础上，简述了网络安全的技术对策。

关键词：网络安全脆弱性威胁技术对策

一、网络安全的脆弱性

计算机网络尤其是互连网络，由于网络分布的广域性、网络体系结构的开放性、信息资源的共享性和通信信道的共用性，使计算机网络存在很多严重的脆弱性。

1不设防的网络有许多个漏洞和后门

系统漏洞为病毒留后门，计算机的多个端口、各种软件，甚至有些安全产品都存在着或多或少的漏洞和后门，安全得不到可靠保证。

2电磁辐射

电磁辐射在网络中表现出两方面的脆弱性：一方面，网络周围电子电气设备产生的电磁辐射和试图破坏数据传输而预谋的干扰辐射源;另一方面，网络的终端、打印机或其他电子设备在工作时产生的电磁辐射泄露，可以将这些数据(包括在终端屏幕上显示的数据)接收下来，并且重新恢复。

4串音干扰

串音的作用是产生传输噪音，噪音能对网络上传输的信号造成严重的破坏。

5硬件故障

硬件故障可造成软件系统中断和通信中断，带来重大损害。

6软件故障

通信网络软件包含有大量的管理系统安全的部分，如果这些软件程序受到损害，则该系统就是一个极不安全的网络系统。

7人为因素

系统内部人员盗窃机密数据或破坏系统资源，甚至直接破坏网络系统。

8网络规模

网络规模越大，其安全的脆弱性越大。

9网络物理环境

这种脆弱性来源于自然灾害。

10通信系统

一般的通信系统，获得存取权是相对简单的，并且机会总是存在的。

一旦信息从生成和存储的设备发送出去，它将成为对方分析研究的内容。

二、网络安全的威胁

网络所面临的威胁大体可分为两种：一是对网络中信息的威胁;二是对网络中设备的威胁。

造成这两种威胁的因有很多：有人为和非人为的、恶意的和非恶意的、内部攻击和外部攻击等，归结起来，主要有三种：

1人为的无意失误

如 *** 作员安全配置不当造成的安全漏洞，用户安全意识不强，用户口令选择不慎，用户将自己的账号随意转借他人或与别人共享等都会对网络安全带来威胁。

2人为的恶意攻击

这是计算机网络所面临的最大威胁，黑客的攻击和计算机犯罪就属于这一类。

此类攻击又分为以下两种：一种是主动攻击，它是以各种方式有选择地破坏信息的有效性和完整性;另一类是被动攻击，它是在不影响网络正常工作的情况下，进行截获、窃取、破译以获得重要机密信息。

这两种攻击均可对计算机网络造成极大的危害，并导致机密数据的泄漏。

3网络软件的漏洞和后门

网络软件不可能是百分之百的`无缺陷和漏洞的。

然而，这些漏洞和缺陷恰恰是黑客进行攻击的首选目标，黑客攻入网络内部就是因为安全措施不完善所招致的苦果。

另外，软件的后门都是软件公司的设计编程人员为了自便而设置的，一般不为外人所知，但一旦后门洞开，其造成的后果将不堪设想。

三、网络安全的技术对策

一个不设防的网络，一旦遭到恶意攻击，将意味着一场灾难。

居安思危、未雨绸缪，克服脆弱、抑制威胁，防患于未然。

网络安全是对付威胁、克服脆弱性、保护网络资源的所有措施的总和。

针对来自不同方面的安全威胁，需要采取不同的安全对策。

从法律、制度、管理和技术上采取综合措施，以便相互补充，达到较好的安全效果。

技术措施是最直接的屏障，目前常用而有效的网络安全技术对策有如下几种：

1加密

加密的主要目的是防止信息的非授权泄露。

网络加密常用的方法有链路加密、端点加密和节点加密三种。

链路加密的目的是保护网络节点之间的链路信息安全;端点加密的目的是对源端用户到目的端用户的数据提供保护;节点加密的目的是对源节点到目的节点之间的传输链路提供保护。

信息加密过程是由形形色色的加密算法来具体实施的，加密算法有许多种，如果按照收发双方密钥是否相同来分类，可分为常规密码算法和公钥密码算法，但在实际应用中人们通常将常规密码算法和公钥密码算法结合在一起使用，这样不仅可以实现加密，还可以实现数字签名、鉴别等功能，有效地对抗截收、非法访问、破坏信息的完整性、冒充、抵赖、重演等威胁。

因此，密码技术是信息网络安全的核心技术。

2数字签名

数字签名机制提供了一种鉴别方法，以解决伪造、抵赖、冒充和篡改等安全问题。

数字签名采用一种数据交换协议，使得收发数据的双方能够满足两个条件：接受方能够鉴别发送方宣称的身份;发送方以后不能否认他发送过数据这一事实。

数据签名一般采用不对称加密技术，发送方对整个明文进行加密变换，得到一个值，将其作为签名。

接收者使用发送者的公开密钥签名进行解密运算，如其结果为明文，则签名有效，证明对方省份是真实的。

3鉴别

鉴别的目的是验明用户或信息的正身。

对实体声称的身份进行唯一地识别，以便验证其访问请求、或保证信息来自或到达指定的源目的。

鉴别技术可以验证消息的完整性，有效地对抗冒充、非法访问、重演等威胁。

按照鉴别对象的不同，鉴别技术可以分为消息源鉴别和通信双方相互鉴别。

鉴别的方法很多;利用鉴别码验证消息的完整性;利用通行字、密钥、访问控制机制等鉴别用户身份，防治冒充、非法访问;当今最佳的鉴别方法是数字签名。

利用单方数字签名，可实现消息源鉴别，访问身份鉴别、消息完整性鉴别。

4访问控制

访问控制是网络安全防范和保护的主要对策，它的目的是防止非法访问，访问控制是采取各种措施保证系统资源不被非法访问和使用。

一般采用基于资源的集中式控制、基于源和目的地址的过滤管理、以及网络签证技术等技术实现。

5防火墙

防火墙技术是建立在现代通信网络技术和信息安全技术基础上的应用性安全技术，越来越多地应用于专用网络与公用网络的互连环境中。

在大型网络系统与因特网互连的第一道屏障就是防火墙。

防火墙通过控制和监测网络之间的信息交换和访问行为来实现对网络安全的有效管理，其基本功能为：过滤进、出网络的数据;管理进出网络的访问行为：封堵某些禁止行为;记录通过防火墙的信息内容和活动;对网络攻击进行检测和和告警。

随着计算机技术和通信技术的发展，计算机网络将日益成为工业、农业和国防等方面的重要信息交换手段，渗透到社会生活的各个领域。

因此，认清网络的脆弱性和潜在威胁，采取强有力的安全对策，对于保障网络的安全性将变得十分重要。

参考文献：

[1]张世永网络安全原理与应用北京：科学出版社，2003

[2]崔国平国防信息安全战略北京：金城出版社，2000

网络安全风险评估的仿真与应用2

摘要伴随着互联网的普及和应用，网络安全问题日益突出，在采用防火墙技术、入侵检测和防御技术、代理技术、信息加密技术、物理防范技术等一系列网络安全防范技术的同时，人们开始采用网络安全风险评估的方法辅助解决网络安全问题。

为提高网络安全风险评估准确率，本文提出了一种基于支持向量机的评价模型，通过仿真分析，得出采用该模型进行网络安全风险评估具有一定可行性，值得应用。

关键词网络安全安全风险评估仿真

当今时代是信息化时代，计算机网络应用已经深入到了社会各个领域，给人们的工作和生活带来了空前便利。

然而与此同时，网络安全问题也日益突出，如何通过一系列切实有效的安全技术和策略保证网络运行安全已成为我们面临的重要课题。

网络安全风险评估技术很早前就受到了信息安全领域的关注，但发展至今，该技术尚需要依赖人员能力和经验，缺乏自主性和实效性，评价准确率较低。

本文主要以支持向量机为基础，构建一个网络安全风险评估模型，将定性分析与定量分析相结合，通过综合数值化分析方法对网络安全风险进行全面评价，以期为网络安全管理提供依据。

1网络安全风险评估模型的构建

网络安全风险模型质量好坏直接影响评估结果，本文主要基于支持向量机，结合具有良好泛化能力和学习能力的组合核函数，将信息系统样本各指标特征映射到一个高维特征空间，构成最优分类超平面，构造网络信息安全风险二分类评估模型。

组合核函数表示为：

K(x，y)=d1Kpoly(x，y)+d2KRBF(x，y) d1+d2=1

Kpoly为多项式核函数，KRBF为径向基核函数。

组合核函数能够突出测试点附近局部信息，也保留了离测试点较远处的全局信息。

本文主要选用具有良好外推能力的d=2，d=4阶多项式。

另外一方面，当%l=1时，核函数局部性不强，当%l=05时，核函数则具有较强局部性，所以组合核函数选用支持向量机d=2，%l=05的组合进行测试。

2仿真研究

21数据集与实验平台

构建网络安全风险评估模型前，需要在深入了解并归纳网络安全影响因素的基础上，确定能够反映评估对象安全属性、反映网络应对风险水平的评估指标，根据网络安全三要素，确定资产(通信服务、计算服务、信息和数据、设备和设施)、威胁(信息篡改、信息和资源的破坏、信息盗用和转移、信息泄露、信息丢失、网络服务中断)和脆弱性(威胁模型、设计规范、实现、 *** 作和配置的脆弱性)为网络安全风险评估指标，从网络层、传输层和物理层三方面出发，构建一个完整的网络安全评估指标体系。

将选取的网络安全风险评价指标划分为可忽略的风险、可接受的风险、边缘风险、不可接受的分享、灾变风险五个等级。

在此之后，建立网络评估等级，将网络安全风险评估等级定为安全、基本安全、不安全、很不安全四个等级。

确定评价指标后，构造样本数据集，即训练样本集和测试样本集。

为验证模型可行性和有效性，基于之前研究中所使用的有效的网络实验环境，构建实验网络，在实验网络中设计网络中各节点的访问控制策略，节点A为外网中的一台PC机，它代表的是目标网络外的访问用户;节点B网络信息服务器，其>

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/13434578.html

什么是搜索引擎

发表评论

评论列表（0条）