1、首先在在线下载频道下载该软件
2、安装下载好的安装文件
3、等待安装完毕
4、 打开后进入主火车头主页面
5、 然后点击任务小三角,新建一个新的任务,新建好任务后,将进入任务主页面,填写好任务名。
6、 然后添加网址了,下面我们来看一看,添加网址的规则,(网址不给显示,以防广告)。
7、 完成好上面一步后,我们就进行下一步,多级网址获取规则
8、 到了这一步网址的选择已经做好了,下面就是内容的标签修改了,意思就是采你想要采集的内容。
9、 要采哪些内容就把内容前的字符和内容后的字符,以次放到下面表格中,打开网址,右击页面,就可以查看网页源代码了
前沿:
如果你对火车头一点都不知道,你还是去网上自学一点火车头采集的知识,我也不是什么大师,硬着头皮写的,至少能用,在这里我不会教你如何写采集规则,因为写法种类太多,你问我我也不知道,火车头相关文件夹里提供的发布接口内置了马甲发布文章,并且支持远程图片抓取本地化,和发布文章时间设置(10-70分钟随机)。用户只需关注火车头标题和内容即可,参数值标题(title),内容(content)。
第一步:站点设置里设置下火车头免登录发布接口的全局变量值:
第二步:将发布接口上传覆盖程序根目录:
第三步:登录火车头软件后导入发布模块"
下图更多处下拉--选择导入:
导入后:
上图中,数字1处填写你在网站后台设置的全局变量值。
2 处选择 utf-8 编码。
3 处填写你网站域名,不要带 反斜杠'/'.
4处选择不需要登录
5 处点击获取列表--选择你需要入库的分类
6 随便给当前这个发布模块写个名字,后续采集任务模块会用到。
最后点击保存配置按钮。
---------
下面讲解导入采集任务:
新建任务分组后,在该分组下导入任务规则(导入任务至该分组):
选择我们的采集任务规则(.ljobx文件):
下一步:双击规则项
点击第三步:修改发布内容设置
修改下你发布的分类:
最后保存即可:
然后右键开始任务采集:
貌似无法避免,只能从标签的抓取规则上来想办法。想办法让你的标签抓取内容不为空,比如你可以把抓取内容的规则设置大一点,就算这个标签为空,不要设置标签的代码过滤,应该可以抓些代码,让这个标签内容不为空,那么采集器就会正确匹配了。至于代码的干扰,后期可以通过数据的批量处理来删除。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)