百度蜘蛛上一次升级也要追溯到2010年。
当时互联网资源大幅扩张,从100亿元到1000亿元,于是蜘蛛系统软件重建,从单机互联到分布式计算系统软件。
但是有一个非常大的缺陷:开庭时间比较严重!
本次改造是将离线、全量计算为主的系统软件更新改造为实时、增加计量的实时智能监控系统。万亿级的数据信息可以瞬间读写,可以包含90%的网页,速度提升80%!
一张图片来覆盖它:
首先,连接发现级别
现在sipder每天新发现的连接数量在500亿左右,在百度站长工具中提交连接效率更高。正因如此,技术工程师建议站长们不必提交太多的连接,尤其是低质量的连接,这样可以实现更强更即时的记录实际效果。
第二,连接抓取级别
作为对策,开发和设计了更强的深度学习实体模型来预测和分析连接的质量。数据库中的所有连接都是全局排列的,有用连接的均方误差提高了95%!
架构上,测量特性的强大提升,每天新增的百亿级控制模块的连接,实时测量,开庭时间不到一秒;设计了更强大的分布式存储,应该能保证万亿级数据信息的即时读写能力。
第三,网页时效性的页面层次
中长尾关键词站的福利!对于时效性强的资源,从原来优先抓取Sina.com、网易游戏等重要新闻站,到快速抓取新闻报道、博客、社区论坛等覆盖各大网站的网站,所有大小站都可以获得优惠。
摆脱旧的稳定抓取实体模式,选择按需抓取系统,对有时效性的新资源保证秒级抓取。
目前每日采集的时效性资源规模已经扩大到原来的3倍,达到近亿量级!
第四,死链层面
全新的死链识别实体模型,可以识别协议死链、内容死链、自动跳转死链等各类低质量网页。
其中,低质量网页的故障(如网站被黑),根据百度搜索百度站长工具提交,可以加快搜索和屏蔽的全过程。
第五,数据库建设水平
数据库呈现的时效性提高了,从10天到10天,现在提高了40%~80%。
注:阅读相关网站基本建设方法的文章,请移至网站建设教程频道栏目。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)