腾讯和百度的数据库那么那么大!!!!数据在硬盘里只能保存3年至5年或10年,他们如何维护这些数据?

腾讯和百度的数据库那么那么大!!!!数据在硬盘里只能保存3年至5年或10年,他们如何维护这些数据?,第1张

首先他们用的是企业级硬盘,寿命更长,其次,他们使用硬盘阵列(也就是好多好多硬盘按照一定规则进行组合,而且有备份),再其次,他们的硬盘支持热拔插,可以随时开机更换,最后,他们有许多分布在各地的服务器组成

每天大概6亿次,根据2010Q4中国网页搜索请求量规模达640.2亿次,百度份额继续上涨达83.6%计算得出,当然现在可能有增加。

百度是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、腾讯、263、21cn、上海热线、广州视窗、新华网、北方时空、西部时空、重庆热线、吉林信息港、大庆信息港、东方热线、湖南信息港、南阳信息港、顺德信息网。

百度搜索引擎体系结构图

百度搜索引擎由四部分组成:蜘蛛程序、监控程序、索引数据库、检索程序。

门户网站只需将用户查询内容和一些相关参数传递到百度搜索引擎服务器上,后台程序就会自动工作并将最终结果返回给网站。

百度搜索引擎使用了高性能的“网络蜘蛛”程序自动的在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。百度在中国各地和美国均设有服务器,搜索范围涵盖了中国大陆、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。百度搜索引擎拥有目前世界上最大的中文信息库,总量超过8亿页以上,并且还在以每天几十万页的速度快速增长

理论上是每个礼拜更新二次,一般是礼拜四一次小更新,礼拜六一次大的更新,今天是礼拜四,百度应该会有一次小的更新,你可以明天早上10点钟以后再搜索看看,如果是更新的话应该就看不到了,因为百度不可能把都已经删除的信息还缓存到数据库里面;


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9233686.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-26
下一篇 2023-04-26

发表评论

登录后才能评论

评论列表(0条)

保存