主流搜索引擎算法【分布式索引】

主流搜索引擎算法【分布式索引】,第1张

当搜索引擎需要处理的 文档集合太多 的时候,就需要考虑分布式解决方案。每台机器维护整个索引的一部分,有多台机器协作来完成索引的建立和对查询的响应。

将整个文档集合切割成若干个子集合,而每台机器负责对某个文档子集合建立索引,并响应查询请求。

每个索引服务器负责 词典中部分单词 的倒排列表的建立和维护。

工作原理:一次一个单词。假设查询包含A、B、C三个单词,查询服务器接收到查询后,将查询转发到包含单词A倒排列表的索引服务器节点1,索引服务器节点1提取A的倒排列表,并累计计算搜索结果的中间的分,然后将查询和中间结果传递给包含单词B倒排列表的索引服务器节点,索引服务器节点2也是类似处理,并继续到索引服务器节点3。然后将最终结果返回给查询分发服务器,查询分发服务器计算得分最高的K个文档作为搜索结果输出。

两种方案比较

- 按文档比较常用,按单词划分只在特殊应用场合才使用。

- 按单词划分的不足:

可扩展性

搜索引擎处理的文档是经常变动的。如果按文档来对索引划分,只需要增加索引服务器, *** 作起来很方便。但如果是按单词进行索引划分,则对几乎所有的索引服务器都有直接影响,因为新增文档可能包含所有词典单词,即需要对每个单词的倒排列表进行更新,实现起来相对复杂。

负载均衡

常用单词的倒排列表非常庞大,可能会达到几十M大小。如果按文档划分,这种单词的倒排列表会比较均匀地分布在不同的索引服务器上,而按单词进行索引划分,某个常见单词的倒排列表全部内容都由一台索引服务器维护。如果该单词同时是一个流行词汇,那么该服务器会成为负载过大的性能瓶颈。

容错性

假设某台服务器出现故障。如果按文档进行划分,那么只影响部分文档子集合,其他索引服务器仍然能响应。但如果按单词进行划分,若索引服务器发生故障,则某些单词的倒排列表无法访问,用户查询这些单词的时候,会发现没有搜索结果,直接影响用户体验。

对查询处理方式的支持

按单词进行索引一次只能查询一个单词,而按文档划分的不受此限制。

选择合适的服务器可以提高游戏体验,以下是一些选择服务器的建议:1 选择最近的服务器:选择距离自己最近的服务器可以减少网络延迟,让游戏运行更流畅。2 选择人数较多的服务器:选择人数较多的服务器可以增加游戏的乐趣,因为玩家之间的互动会更多,且服务器管理更为稳定。3 选择游戏类型相符的服务器:不同的服务器可能提供不同的游戏模式或者内容,选择合适的服务器可以更好地享受游戏乐趣。4 选择游戏运营稳定的服务器:选择游戏运营稳定的服务器可以保证游戏的质量和稳定性,并且减少可能存在的BUG和服务器故障等问题。5 选择活跃度高的服务器:选择活跃度高的服务器可以让玩家在游戏中获得更多的参与感和乐趣,同时也可以增加交友机会。

鼎捷ERP的数据承载能力取决于多种因素,例如硬件配置、软件版本、数据库类型、系统设置等等。一般来说,鼎捷ERP可以处理较大规模的企业数据,但具体的数据承载能力需要参考官方文档或咨询厂商以获取更准确的信息。
鼎捷ERP V65版本的单服务器最大可支持数据量为200GB左右(包括数据库和文件存储),同时可以支持1000个以上的用户并发访问。如果需要处理更大的数据量或提高系统性能,可以采用分布式部署、负载均衡等方案进行优化。
需要注意的是,数据量并非唯一决定系统性能的因素,还需要综合考虑其他因素,例如系统稳定性、网络带宽、业务流程等等。因此,在使用鼎捷ERP处理大规模数据时,建议仔细评估系统的整体性能和稳定性,并进行适当的优化和调整。

1 实验目的与要求
(1) 学会安装和配置文件服务器
(2) 学会服务器端共享文件夹的配置和管理。
(3) 学会客户端访问共享文件夹的方法。
(4) 学会分布式文件系统的设置方法。
(5) 实验学时:2
2 实验相关理论与知识
计算机网络的基本功能是在计算机间共享信息,文件共享可以说是最基本、最普遍的一种网络服务。虽然越来越多的用户购置专用文件服务器(如NAS),但是通用 *** 作系统提供的文件服务器功能也非常实用,完全能满足一般的文件共享需求,下面主要介绍Windows Server 2003文件服务器的配置、管理和应用。
文件服务器负责共享资源的管理和传送接收,管理存储设备(硬盘、光盘、磁带)中的文件,为网络用户提供文件共享服务,也称文件共享服务器。除了文件管理功能之外,文件服务器还要提供配套的磁盘缓存、访问控制、容错等功能。部署文件服务器,主要要考虑以下3个因素。
·存取速度:快速存取服务器上的文件,例如可提供磁盘缓存加速文件读取。
·存储容量:要有足够的存储空间以容纳众多网络用户的文件,可使用磁盘阵列。
·安全措施:实现网络用户访问控制,确保文件共享安全。
文件服务器主要有两类解决方案,一类是专用文件服务器,另一类是使用PC服务器或PC计算机组建的通用文件服务器。
专用文件服务器是专门设计成文件服务器的专用计算机,以前主要是运行 *** 作系统、提供网络文件系统的大型机、小型机,现在的专用文件服务器则主要指具有文件服务器的网络存储系统,如NAS和 SAN。NAS独立于 *** 作系统平台,可支持多种 *** 作系统和网络文件系统,提供集中化的网络文件服务器和存储环境,比一般的文件服务器的功能更强大,可看作是专用存储服务器,可为那些访问和共享大量文件系统数据的用户提供高效、性能价格比优异的解决方案。SAN全称存储区域网络,是一种用户存储服务的特殊网络,通常由磁盘阵列、光盘库、磁带库和光纤交换机组成。NAS可作为独立的文件服务器,提供文件级的数据访问功能,更适合文件共享。而SAN提供数据块级的数据访问功能,更适合数据库和海量数据。
目前一般用户使用PC服务器或PC计算机,通过网络 *** 作系统来提供文件服务,UNIX、Linux、Novell、 Windows等 *** 作系统都可提供文件共享服务。Windows网络 *** 作系统,如Windows NT Server、Windows2000 Server和最新的Windows Server 2003由于 *** 作管理简单、功能强大,在中小用户群中的普及率非常高,许多文件服务器都运行Windows网络 *** 作系统。下面将重点以Windows Server 2003为例介绍文件服务器的配置、管理和应用。
3 实验环境与设备
C/S模式的网络环境,包括一台Windows XP客户机和一台Windows Server 2003服务器。
两种可选的物理拓扑(交叉线连接或通过集线器/交换机用直连线连接)。
4 实验内容与步骤
40 服务器的基本网络配置,包括IP地址为“192168105XX”、网关为“192168105254”等。(注:“XX”代表你配置机器的主机编号,“nXX”代表你的服务器主机名,例如你坐在5号机上则“XX”代表“05”,“1XX”代表“105”,配置此机的IP地址为“1921681055”、主机名为“n05”,下同)。
41 安装和配置文件服务器
文件服务器提供网络上的中心位置,可供存储文件并通过网络与用户共享文件。当用户需要重要文件时,可以访问文件服务器上的文件,而不必在各自独立的计算机之间传送文件。如果网络用户需要对相同文件和可通过网络访问的应用程序的访问权限,就要将该计算机配置为文件服务器。默认情况下,在安装Windows Server 2003系统时,将自动安装“Microsoft网络的文件和打印共享”网络组件。如果没有该组件,可通过网络连接属性对话框安装。
1.准备工作
在部署文件服务器之前,应当做好以下准备工作。
 ·划出专门的硬盘分区(卷)用于提供文件共享服务,而且要保证足够的存储空间,必要时使用磁盘阵列。
·磁盘分区(卷)使用NTFS文件系统,因为FAT32缺乏安全性,而且不支持文件和文件夹压缩、磁盘配额、文件加密或单个文件权限等重要特性。
 提示:使用Windows Server 2003自带的工具即可将FAT32转换成NTFS格式。该工具名为Convertexe,位于Windows安装目录下的System32目录中。在命令行状态运行该工具即可,如Convert E:/FS:NTFS。
·确定是否要启用磁盘配额,以限制用户使用的磁盘存储空间。
·确定是否要使用索引服务,以提供更快速、更便捷的搜索服务。
2.配置文件服务器
只要将Windows Server 2003计算机上的某个文件夹共享出来,就会自动安装文件服务器,也可通过“配置您的服务器向导”工具来安装文件服务器角色。这两种方法的差别是,第二种方法提供更多的选项,并在程序菜单中提供文件服务器管理台工具。这里介绍采用第二种方法的基本步骤。
(1) 启动“配置您的服务器向导”工具。默认情况下,登录Windows Server 2003时将自动启动“管理您的服务器”(也可从控制面板中选择管理工具→管理您的服务器),单击添加或删除角色。另一种方法是直接从控制面板中选择管理工具→管理您的服务器→配置您的服务器向导。单击下一步按钮。
(2) 在配置选项界面中选择自定义配置,单击下一步按钮。
(3) 在服务器角色界面中,如果文件服务器的已配置状态为“否”,就单击文件服务器,然后单击下一步。
注意:如果文件服务器的已配置状态为“是”,就单击文件服务器,再单击下一步按钮打开角色删除确认界面,并选择删除文件服务器角色复选框,即可删除文件服务器角色,这样该服务器上的文件和文件夹就不再共享,依赖于这些共享资源的网络用户、程序或宿主都将无法与它们连接。
(4) 出现文件服务器磁盘配额对话框中,为服务器上所有NTFS分区设置默认的磁盘配额。勾选为此服务器的新用户设置默认磁盘空间配额和拒绝将磁盘空间给超过配额限制的用户。单击下一步按钮。默认情况下是没有启用磁盘配额。
(5) 出现文件服务器索引服务对话框,确定是否要使用索引服务。单击下一步按钮。一般情况下不需索引服务,只有在用户要经常搜索该服务器上的文件内容时才启用它。
(6) 出现选择总结对话框,查看和确认已经选择的选项,单击下一步按钮。
本例中有“设置默认磁盘配额”、“安装文件服务器管理”和“运行共享文件夹向导来添加一个新的共享文件夹或共享已有文件夹”等选项。
(7) 自动完成相关配置后,出现共享文件夹向导,根据提示配置共享文件夹以供其他用户共享。只有配置了共享文件夹之后,文件服务器才能建立。
(8) 单击下一步按钮,出现文件夹路径对话框,指定要共享的文件夹路径。可通过浏览在C盘目录下新建一个FileShare作为共享目录,此时文件夹路径输入框中将出现C:\FileShare(如果C盘中已经建立过此文件夹,才可以在此输入框中直接输入)。
(9)单击下一步按钮,出现名称、描述和设置对话框,指定共享名。
(10) 单击下一步按钮,出现权限对话框,指定共享权限为管理员有完全访
问权限;其他用户有只读访问权限,单击完成按钮。这里提供了几种预置的权限,也可以自定义权限。
(11)共享成功对话框中显示共享成功,给出新建共享文件夹的信息。如果要继续设置其他共享文件夹,则选中下面的复选框。单击关闭按钮,完成。
至此文件服务器配置就完成了。接下来可执行各项文件管理任务。
3.文件服务器管理工具(以下方法至少掌握一种)
Windows Server 2003提供了用于文件服务器配置管理的多种工具。
·文件服务器管理控制台:打开“管理您的服务器”工具,在文件服务器区域单击管理此文件服务器,打开该控制台。要使用“配置您的服务器向导”工具安装文件服务器,可从程序菜单中选择管理工具→文件服务器管理命令打开该控制台。
·“共享文件夹”管理工具:也可通过“计算机管理”工具中的“共享文件夹”管理工具来执行共享文件夹的配置管理,从程序菜单中选择管理工具→计算机管理,展开共享文件夹节点即可。
·Windows资源管理器:可直接将文件夹配置为共享文件夹。
·命令行工具:如net share可显示有关本地计算机上全部共享资源的信息。

(1)方案一(数据库保存所有服务器索引信息)
全对称结构,没有中央服务器
web方案:
只从本地数据库检索符合条件的记录,给出结果
每次检索都要从本地服务器的海量数据中进行
数据库方案:
数据库保存所有服务器的索引内容
缓存命中率高的记录,减少检索时间
服务器负载分析:
服务器负载假设:
一百个结点,每结点一百人同时使用,每个结点一万条记录
web服务器:同时一百线程在本地数据库服务器检索
数据库服务器:每次接收一百个查询请求;每个请求要从一百万条索引中检索(最坏的情况);缓冲机制可以稍微减轻负担
数据更新 *** 作:
同时更新所有数据库/只更新本地,服务器间相互同步
方案二(数据库保存本地索引及少量缓冲)
每高校作为一个结点
所有结点全对称结构,网络中没有一个中央服务器
web方案:
接收到请求时同时多线程向其它服务器同时搜索(服务器压力问题?)
数据库方案:
数据库保存本地数据
数据库保存一定量缓冲数据,
服务器负载分析:
服务器负载假设:
一百个结点,每结点一百人同时使用
则每个web服务器同时发起一万个线程向其它数据服务器搜索(oops!)
每个数据库服务器会同时接收到一万个查询请求(oops!)
采用学习过程只能少量减少查询请求和web服务器搜索线程
数据更新 *** 作:
只更新本地
方案三(中央服务器方案一)
每高校一个结点
每结点结构相同,连接到同一个中央服务器
web方案
每个查询向中央服务器进行,由中央服务器实行检索,中央服务器返回检索结果
数据库方案
中央数据库保存所有索引信息
每结点可以只用小型数据库保存本地用户和其它信息即可
服务器负载分析:
服务器负载假设:
一百个结点,每结点一百人同时使用,每结点资料记录一万条
web服务器:同时发起一百个进程向中央数据库查询
数据库服务器(中央):同时接收一万条查询请求并返回大容量结果
数据库服务器(结点):少量工作
数据更新 *** 作:
只更新中央服务器
方案四(中央服务器方案二)
每高校一个结点
每结点结构相同,连接到同一中央服务器
web方案:
每个查询向中央服务器进行,由中央服务器根据查询内容进行转发到结点数据库,再由结点数据库返回结果
数据库方案:
中央服务器保存各结点分类信息,根据页面请求的分类转发查询到相应服务器
服务器负载分析:
服务器负载假设:
一百个结点,每结点一百人同时使用,每结点资料记录一万条,每结点一百个类别
web服务器:同时一百个进程向中央数据库查询
数据库服务器(中央):同时接收一万条请求并转发
数据库服务器(结点):从中央服务器接收查询请求,最坏情况下每结点接收到一万条查询请求
数据更新 *** 作:
只更新本地服务器
分类变化时更新中央服务器

此处应该填写对等。

即原话为计算机网络有两种基本的工作模式,它们是对等模式和客户/服务器模式。

对等模式(P2P,peer-to-peer)是一种通信模式,其中每一方都拥有相同的功能,任何一方都可以启动通信会话。

客户/服务器模式(Client–server model)简称C/S结构,是一种网络架构,它把客户端 (Client) 与服务器 (Server) 区分开来。每一个客户端软件的实例都可以向一个服务器或应用程序服务器发出请求。

拓展:

两者特点:

对等网络:简单方便,但是难于管理,且安全性能比较差。

客户/服务器:更安全,更稳定,但相对也更复杂。

参考资料:

对等网络 百度百科

客户/服务器方式 百度百科


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/13416982.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-08-01
下一篇 2023-08-01

发表评论

登录后才能评论

评论列表(0条)

保存