phpcms怎样配置采集模块

phpcms怎样配置采集模块,第1张

概述phpcms怎样配置采集模块 位置:内容 > 内容发布管理 > 采集管理 >模块常用 *** 作 *** 作名说明采集流程详述无其它功能说明无说明:文章的采集功能是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。文章采集系统颠覆传统采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技 术规则,只需选中自己想要采集的文章列表, 今天给大家介绍一下PHPCMS中采集模块的用法,这个属于PHPCMS的后台基础 *** 作,PHPCMS在开源程序中一直是佼佼者,我们必须要学会怎样使用

@H_404_2@位置: 内容 > 内容发布管理 > 采集管理 >

模块常用 *** 作

*** 作名 说明
采集流程详述
@H_404_2@其它功能说明 @H_404_2@无

@H_404_2@说明:

 文章的采集功能是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。 

 文章采集系统颠覆传统采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技 术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集 *** 作。    @H_404_2@一、采集流程   简单的讲有三个步骤: 1、添加采集点,填写采集规则。 2、采集网址,采集内容 3、发布内容到指定栏目   以采集新浪新闻(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.sHTML)为例,作一下详细流程介绍。   @H_404_2@实例说明:   目标:采集新浪新闻到V9系统 国际新闻 栏目中。  目标网址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.sHTML     1、添加采集点   1.1 网址规则配置  

                           添加采集点 - 网址规则配置图1     查看要采集的目标网址源代码,查找到要采集网址的开始点和结束点(这二个点要有在整个源代码里具有唯一性)。更进一步缩小采集网址搜索范围。  

                        添加采集点 - 网址规则配置图2   测试你的网址采集规则是否正确,如下图所示  

    1.2 内容规则配置    内容规则这里看起来比较复杂,其实也很简单,为了便于说明,我们只采集标题、内容两个字段。采集内容网址:
http://news.sina.com.cn/w/2010-12-01/135121565455.sHTML 的内容采集规则,请你打开这个网址,然后页面空白处右键->查看源文件搜索标题和内容的开始边界。   @H_404_2@标题采集配置: 从网页<Title></Title>里取标题,并去除不需要的字符。如下图  

  内容采集配置:   新浪新闻最终页,新闻内容都包含在 <!-- 正文内容 begin --> <!-- 正文内容 end --> 之间,而且这二个结点,在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图    

  1.3 自定义规则   1.4 高级配置   可设置是否把图片下载到服务器上,是否打水印等配置。  

  @H_404_2@2、采集网址,采集内容   采集规则配好以后,即可进行网址的采集,然后进行内容的采集。  


      @H_404_2@3、发布内容到指定栏目    


   

  选择导入的栏目  



  设置 采集内容与数据库的字段对应关系.提交进行数据入库,在此期间请耐心等待, 完成后会自动转向。至此一个简单的采集流程就 *** 作完成。   其它更多功能,期待你发掘。               总结

以上是内存溢出为你收集整理的phpcms怎样配置采集模块全部内容,希望文章能够帮你解决phpcms怎样配置采集模块所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/998376.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-21
下一篇 2022-05-21

发表评论

登录后才能评论

评论列表(0条)

保存