火车头如何自动采集

火车头如何自动采集,第1张

说下我做采集的方式哈,我这边主要有两种方式,第一个,常规站点,内容很全,那就先找一个采集源,然后爬取整站数据,注意,这种方式,如果源站小说比较多的话,会非常耗时,按火车头十个进程来计算的话,一个进程可以开十个线程,也就是一个火车头最多可以跑100个线程,平均采集一章大概时间为1秒(加上列表采集所耗时间进行平均),10万本书的站,大概5000万加的章节,数据采集完毕大概需要一周时间,这是在你服务器配置比较好的情况下。然后就是发布,发布不能多线程,那么时间就得翻倍,也就是差不多两个多月时间吧。这也是为什么有人说火车采集小说比较慢的原因了。原始内容采集完了,然后每天就采集更新了,方式如第二点。

那么第二个,就是直接采集每日更新,以前的旧书就不采集了。这样的话,速度会比较快。当时就能用。火车头设置好定时任务,自动触发。

这是火车头采集小说网站的传统方式。

我研究火车头采集一个月,找到一个比较合适的快速采集方式,经多方位,多客户测试,采集10万本书,发布完毕,大概就是两天的时间。

具体时间跟服务器配置有一定的关系,比如,硬盘读写速度快慢、网络带宽(火车头放在服务器上的可以忽略)等,测试2H4G美国服务器,10万本大概两天加几个小时,采集需要花几个小时,发布大概接近两天时间。然后每日定时更新即可。

可百度搜索“九七阅读”查看站点,有书库频道,时间一看就知道了。

1、运行火车头软件,点击发布到发布窗口界面

2、点击添加,依次选择发布接口,选择网站编码、填写后台路径、(因为是免登陆接口)选择不需要登录&http请求,然后获取列表看看是否成功,成功后请保持配置。

(注意:如果无法获取列表说明没有配置成功,检测接口文件是否上传,后台路径是否正确等)

3、如果你需要同时发布到多个网站,请重复2 *** 作,原则上可以发布N个。

4、配置完发布接口后回到火车头界面,双击你要发布的采集规则,进入采集规则 编辑任务窗口,切换到第三步:发布内容配置

5、点击 启用 Web在线发布到网站,然后添加发布配置,在d出Web发布配置窗口选择你你的发布配置,点击添加,多个网站发布可以多选

6、双击你添加的网站发布,点击获取列表 绑定你要发布到网站的指定栏目的栏目ID,保存规则,到此你的采集规则发布到网站已经配置好了

7、如果你要一条采集规则多个网站发布就重复第6步,原则上可以发布N个站。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/bake/11617427.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-17
下一篇 2023-05-17

发表评论

登录后才能评论

评论列表(0条)

保存