Dedecms织梦采集功能的使用教程-含有分页的普通文章的采集(三)

Dedecms织梦采集功能的使用教程-含有分页的普通文章的采集(三),第1张

概述前言:本文是含有分页的普通文章的采集方法的第三节,在前两节的基础上,将会对如何采集指定节点和如何导出采集内容做详细的介绍。为了与前文保持一致,本文将延续使用前文的章节标记。 上接第二节。 3.1采集指定节点 单击保存并开始采集后,将会进入采集指

前言:本文是“含有分页的普通文章的采集方法“的第三节,在前两节的基础上,将会对“如何采集指定节点”和“如何导出采集内容”做详细的介绍。为了与前文保持一致,本文将延续使用前文的章节标记。

上接第二节。

 

3.1采集指定节点

单击“保存并开始采集“后,将会进入”采集指定节点“界面,如(图29)所示,

图29-采集指定节点

 

每页采集:这是设置每页所需采集的条数,并可根据网站是否有防刷新功能,设置采集间隔时间。

 

特殊选项:设置是否检测重复图片,默认为“检测”。

 

附加选项:此选项一共有3种采集模式可供选择:第一种为“监控采集模式(检测当前或所有节点是否有新内容)”,选取后,系统只会采集指定节点中更新的内容;第二种为“重新下载全部内容”,选取后,系统会采集指定节点中的全部内容;第三种为“下载种子网站的未下载内容”,选取后,系统只会采集指定节点中未下载过的内容,包括以前没下载的和更新的内容。

 

设置完成并确定无误后,可单击“开始采集网页”或者“查看种子网址”。此时,如果单击“查看种子网址”会看到列表是空的,这是因为新建立的采集节点从未采集过,如(图30)所示,

图30-查看节点的种子网址

 

单击“开始采集网页”后,系统便会开始采集节点中设置的网址,并出现相关提示,如(图31)所示,

图31-采集进程中提示信息

 

采集结束后,再次单击“查看种子网址”或者单击页面右上角的“查看已下载”,便可看到已采集到的网址信息,如(图32)所示,

图32-查看节点的种子网址

 

成功采集以后,可以根据实际需要选择页面右上角的单击“采集节点管理”或者“导出数据”。单击“导出数据“后,便可进入” 采集管理> 采集内容导出“界面,如(图33)所示,

图33-采集内容导出

 

“默认导出栏目“:设置要把采集到的内容导入到的栏目

 

“批量采集选项”:如果在采集规则中已指定栏目ID,则可使用此功能,若指定的栏目ID为0,系统会把采集内容导入到“默认导出栏目”所选择的栏目中。

 

“发布选项“:有发布成“普通文档”和“保存为草稿”可供选择。

 

“每批导入“:设置每批导入的条数,此数不宜过大。

 

“附带选项“:此处为多选。如果不希望采集到重复的文章标题,可选中“排除重复标题”;如果希望被采集到的内容直接生成HTML的话,可选中“完成后自动生成导入内容HTML”;如果希望系统在采集列表页时自动识别标题名,可选中“使用列表索引的标题”,一般不建议勾选。

 

“随机推荐”:填入一个数字,代表文档篇数。在所填入的文档篇数内随机出现一篇推荐文档,若填入“0”,则表示为不推荐。

 

设置完成后,可单击“确定”,就可以把下载的导入到所选的栏目中了,如(图34)所示,

图34-设置完成后的采集内容导出页面

 

同时,系统将会有导出进程提示,如(图35)所示,

图35-采集内容导出中的提示信息

 

导出采集内容提示“完成所有栏目列表更新”后,单击“浏览栏目”,便可进入网站的相关页面查看到采集到的文章列表及其具体内容。也可在后台管理界面的主菜单中单击“核心”,然后单击“普通文章”,进入“文档列表”页面,查看所采集到的文章列表,如(图36)所示,

图36-文档列表

 

在文档列表中,单击“用最简单网络 学习IP和ARP协议”的预览按钮,可打开文章内容页面,找到页面的换页部分,如(图37)所示,

图37-分页

 

由此可知,含有分页文章内容已经被成功采集到了。

总结,本文详细地叙述了如何采集一个含有分页的普通文章类型的页面,并简单地涉及到了过滤规则。对于采集更为复杂的普通文章类型的页面和使用过滤规则,将会在今后文章中介绍。

 

本文的采集规则:

{dede:Listconfig}{dede:noteinfo notename="采集测试(二)" channelID="1" macthtype="string"    refurl="http://www.bitscn.com/network/protocol/201105/193110.HTML" sourcelang="gb2312" cosort="asc"  isref="no" exptime="10" usemore="0" /}{dede:Listrule sourcetype="batch" RSSurl="http://" regxurl="http://www.bitscn.com/network/protocol/List_(*).HTML"startID="1" endID="1" addv="1" urlrule="area" musthas="" nothas="" Listpic="1" usemore="0"}    {dede:addurls}{/dede:addurls}    {dede:batchrule}{/dede:batchrule}    {dede:regxrule}{/dede:regxrule}    {dede:areastart}			

总结

以上是内存溢出为你收集整理的Dedecms织梦采集功能的使用教程-含有分页的普通文章的采集(三)全部内容,希望文章能够帮你解决Dedecms织梦采集功能的使用教程-含有分页的普通文章的采集(三)所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/1049155.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-25
下一篇 2022-05-25

发表评论

登录后才能评论

评论列表(0条)

保存