火车采集器如何使用 火车头采集器使用教程

火车采集器如何使用 火车头采集器使用教程,第1张

网络数据信息的挖掘少不了一款强大的“挖土机”,火车采集器就是一款专业的采集工具,可以轻松从网页上抓取文字、图片、文件等任何资源。那么火车采集器如何使用?

1、首先在在线下载频道下载该软件

2、安装下载好的安装文件

3、等待安装完毕

4、 打开后进入主火车头主页面

5、 然后点击任务小三角,新建一个新的任务,新建好任务后,将进入任务主页面,填写好任务名。

6、 然后添加网址了,下面我们来看一看,添加网址的规则,(网址不给显示,以防广告)。

7、 完成好上面一步后,我们就进行下一步,多级网址获取规则

8、 到了这一步网址的选择已经做好了,下面就是内容的标签修改了,意思就是采你想要采集的内容。

9、 要采哪些内容就把内容前的字符和内容后的字符,以次放到下面表格中,打开网址,右击页面,就可以查看网页源代码了

前沿:

如果你对火车头一点都不知道,你还是去网上自学一点火车头采集的知识,我也不是什么大师,硬着头皮写的,至少能用,在这里我不会教你如何写采集规则,因为写法种类太多,你问我我也不知道,火车头相关文件夹里提供的发布接口内置了马甲发布文章,并且支持远程图片抓取本地化,和发布文章时间设置(10-70分钟随机)。用户只需关注火车头标题和内容即可,参数值标题(title),内容(content)。

第一步:站点设置里设置下火车头免登录发布接口的全局变量值:

第二步:将发布接口上传覆盖程序根目录:

第三步:登录火车头软件后导入发布模块"

下图更多处下拉--选择导入:

导入后:

上图中,数字1处填写你在网站后台设置的全局变量值。

2 处选择 utf-8 编码。

3 处填写你网站域名,不要带 反斜杠'/'.

4处选择不需要登录

5 处点击获取列表--选择你需要入库的分类

6 随便给当前这个发布模块写个名字,后续采集任务模块会用到。

最后点击保存配置按钮。

---------

下面讲解导入采集任务:

新建任务分组后,在该分组下导入任务规则(导入任务至该分组):

选择我们的采集任务规则(.ljobx文件):

下一步:双击规则项

点击第三步:修改发布内容设置

修改下你发布的分类:

最后保存即可:

然后右键开始任务采集:

貌似无法避免,只能从标签的抓取规则上来想办法。

想办法让你的标签抓取内容不为空,比如你可以把抓取内容的规则设置大一点,就算这个标签为空,不要设置标签的代码过滤,应该可以抓些代码,让这个标签内容不为空,那么采集器就会正确匹配了。至于代码的干扰,后期可以通过数据的批量处理来删除。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/11309748.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-15
下一篇 2023-05-15

发表评论

登录后才能评论

评论列表(0条)

保存