火车采集器是一款专业的互联网数据抓取、处理、分析,挖掘软件,
可以灵活迅速地抓取网页中大量非结构化的文本,图片等资源信息,
然后通过一系列的分析处理,准确挖掘出所需数据。
并可以选择发布到网站后台、导入数据库或者保存在本地Excel,Word等格式的文件中。
火车采集器历经十年的升级更新,积累了大量用户和良好口碑,是目前最受欢迎的网页数据采集软件。
火车采集器V9程序目录
-Configuration用户配置保存目录
-Synonym用户同义词保存目录
-CategoryDir模块网站栏目
--LoginConfig.ini登陆用户账号信息
--config.db3任务规则配置文件
-Data采集数据保存目录
-1、2、3等任务采集数据存储目录
-History_1,2,3任务采集网址库存储目录
-ModuleWeb发布模块及数据库发布模块目录
-Pluginsc#和PHP插件存储目录
-System系统文件目录
-Logs程序错误日志
--LocoySpider.exe火车采集器启动文件
--CodeEditor.exe源码编辑器
--DatabaseManager.exe数据库发布配置管理工具
--HttpPostGet.exeHTTP请求测试工具
--LocoyProxy.exe二级代理程序
--WebPostManager.exeWeb发布配置管理工具
--uninst.exe卸载程序
--UpdateToV9.exeV7,V8升级到V9程序
循环设置当需要 采集 同样格式的多条数据时,可以根据其中一条信息格式进行设置,然后使用循环匹配。
来获取获取它的主题内容和回复内容。
查看源代码,分析得到:
主题内容开始字符串为id="postmessage_649823">因为不同的帖子,ID不同,
所以我们把649823这个数字设置为(*)通配符。
即开头字符串为id="postmessage_(*)">
结尾字符串为</td></tr></table>
然后勾选下图中的循环匹配,即可实现主题和回复的内容采集。
循环设置——添加为新记录
此方式采集到的每条记录都为单独的行存储在 数据库 中
循环设置——用分隔符连接在上条记录后
此方式采集到的多条记录用分隔符(默认###,可自行修改)连接在一起存储在一个字段内,如下图:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)