火车头采集器,怎么查看已经抓取的数据?

火车头采集器,怎么查看已经抓取的数据?,第1张

你的问题是模版出问题了,你可以尝试把模版删除,然后再发布一次。

采集的文件是存储在

access数据

里,你可以右键任务,然后打开任务文件即可查看access数据库。

良心推荐前嗅大数据的ForeSpider数据采集系统。

在通用性爬虫中,ForeSpider爬虫的采集速度和采集能力是最强的,支持登录、Cookie、Post、https、验证码、JS、Ajax、关键词搜索等等技术的采集,采集效率在普通台式机上,可以达到500万条数据/每天。这样的采集速度是一般的通用性爬虫的8到10倍。

对于一些反爬虫的网站,除了验证码本身,一般反爬虫措施也比较多,比如国家自然基金会网站、全国企业信息公示系统等,最高难度的网站完全没有问题。可以使用ForeSpider内部自带的爬虫脚本语言系统,简单几行代码就可以采集到高难度的网站。对于大量的网站采集需求而言,ForeSpider爬虫可以在规则模板固定之后,开启定时采集。支持数据多次清洗。

对于关键词搜索的需求而言,ForeSpider爬虫支持关键词搜索和数据挖掘功能,自带关键词库和数据挖掘字典,可以有效采集关键词相关的内容。

可以去下载免费版,免费版不限制采集功能。有详细的 *** 作手册可以学习。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10017906.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-04
下一篇 2023-05-04

发表评论

登录后才能评论

评论列表(0条)

保存