1、修改火车头的PHP环境
由于火车头采集器软件内置的PHP环境有问题,在使用PHP插件之前需要先修改火车头的PHP环境。修改的方法很简单,打开火车头网站采集软件的安装目录“System/PHP”,找到phpini文件打开,并找到如下代码。
找到 php_curldll 把前面的分号去掉改成:
修改前:
;extension=php_curldll
修改后:
extension=php_curldll
也就是将最前面的分号“;”删除并保存即可,这样火车头数据采集器就可以正常运行这个PHP仿写插件了。
2、插件要统一放到火车头插件目录
例如我本机是:D:\火车采集器V9\Plugins
问:这个插件主要功能是什么?
回答:火车头是一个采集器。采集后,如果开了插件,会把采集到的内容通过插件处理后再保存,我们的插件是伪原创,所以采集的内容会伪原创后保存。
3、调试方法
首先按原来的方式,先确保采集规则能正常运行。
然后,在正常运行的基础上,选择伪原创插件。
这个是可以实现的,可以在获取一级页面的时候在规则上添加标签,然后在根据顺序抓取二级页面,制定二级页面抓取内容的规则。
此图就是在一级页面添加标签的方法和规则。
0级页面就是起始网址的页面,而1级页面就是起始网址页面内的一个子页面。
所以你想采集的其实是0级网址,在设置里可以设置为0级网址。
如何设置的话我就没法说了,就是火车头的一个功能,建议你把使用说明再看一遍。火车头采集器我使用,可以采集文章,基本上 你在网上看到的任何东西 都可以采集,还可以方便的插入到你的网站!你想更多的了解,可以去火车头采集器的官方网站,里面有帮助文档,我就是在那里学会的!用八爪鱼采集器采集的数据发布到帝国CMS。
下载发布到帝国CMS接口文件
1、打开jiekouphp,修改第二行代码 $pw='123456'; //为了安全,验证密码请自行修改
2、接口文件jiekouphp放置在 站点目录\e\admin\目录下,放在其他目录下需要更改接口源码。
3、配置抓取规则
包含一些必选字段,字段映射说明见文档末尾
4、规则配置完毕后,运行单机采集
5、采集到数据后,选择发布到网站
6、发布向导中,填写一些发布的必要信息
发布的地址: >discux是可以用火车头采集的。
DiscuzX火车头采集器免登陆发布模块是一款专为DiscuzX34论坛而开发的采集器,它能够在不需要登录的情况下,采集网络上的优质文章,并发布到论坛中。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)