为什么要存原始数据保存原始数据是提高数据质量的前提原始数据存储方案题外话小结
为什么要存原始数据在实现一个生产环境可用的网络爬虫时,有一个问题几乎是无法绕过的,那就是网页原始数据的存储。
在比较简单的使用场景下,是不需要考虑如何保存原始网页的。例如,用户只想要某个网站的数据,而且只要达到某个数据量就可以了。如果在处理某个特殊页面时发生了异常,直接跳过这个页面也是可以接受的。
但是,一旦用户有数据质量的要求,就需要更加严肃而且完整的技术方案。在这些技术方案中,原始数据的存储和交换,都是必选项。也许有人认为,原始网页保存在网站那里就好了,需要的时候再去采集就好了。这个时候,就需要和用户沟通需求,如果用户认可,那就可以这么做。但根据个人的项目经验,把数据搜集全,是很刚性的需求,不太容易商量。
以易用性作为卖点的爬虫框架,会让使用者产生一些对于数据搜集技术的误解,因为他们屏蔽了太多技术细节。使用者只看到了基本流程:1、下载网页;2、抽取所需的数据;3、然后把这些抽取数据保存下来。却忽略了数据质量的需求。
为了实现较高的数据质量,就必须投入额外的成本,有时候这个成本会很高,但同时也就意味着高质量数据服务更值钱。
保存原始数据是提高数据质量的前提简单说两个理由:
一、保存原始数据可以在网站改版的时候,保证数据不丢失,只要修改抽取规则,对原始网页重新处理即可。
二、原始数据是网页信息抽取模块的输入,原始数据可以让研发迭代信息抽取算法,优化用户使用体验。
既然原始数据如此重要,我们需要怎么存储呢?
有这样一些技术方案,大致可以分为文件系统和数据库两大类,具体如下:
一、单机文件系统。
优点:简单。缺点:无法支撑大规模应用,数据可靠性无法保障。
二、用分布式文件系统。
优点:解决了文件存储容量和扩展问题。缺点:要选择分布式文件系统,有额外的成本。
三、把网页保存到关系数据库。
优点:可以存关联的信息,也方便访问。缺点:大规模存储和归档都不好做,需要投入维护或者购买成本。
四、把网页保存到NoSQL,比如Hbase、ES等。
优点:可以存关联的信息,也方便扩展。缺点:要购买或维护NoSQL集群。
五、用对象存储。
优点:接口简单易用。缺点:要购买或维护对象存储集群。
上面的存储方案,需要根据项目的具体情况进行选择。如果项目中已经使用了某些存储系统,就尽量复用。
在使用文件系统存储原始数据时,最好保存WARC格式的文件,而不是HTML文件。
题外话在真实项目中,很难用一种存储技术支撑用户的多种使用场景。一般搜索会选择Solr或者Elasticsearch;图片和视频数据会选择分布式文件系统或者对象存储;原始网页一般会选择Hbase或者MongoDB;原始数据归档会选择大文件。
小结原始网页数据的存储是很重要的,需要根据用户需求和项目情况,选择合适的技术方案。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)