如何利用WP-AutoPost进行网页采集,自动更新到wordpress

如何利用WP-AutoPost进行网页采集,自动更新到wordpress,第1张

一、安装WP-AutoPost

您可以通过从您的WP-AutoPost.ORG帐户下载ZIP文件手动安装WP-AutoPost。

如果您想手动安装WP-AutoPost,请按照下列步骤 *** 作:

登录您的WP-AutoPost.ORG帐户。

转到“账户”部分。

下载您需要的WP-AutoPost插件(ZIP 文件)。

将下载的 ZIP 文件上传到您网站的’wp-contents/plugins’目录。

解压该ZIP 文件。这将创建一个目录。

登录到您的网站,转到“插件”,并启用它。

二、创建任务及基本设置

创建任务

点击“新建任务”后,输入任务名称,即可创建新任务,创建好新任务之后可以在任务列表中查看到该任务,就可对该任务进行更多设置。

基本设置

点击 “设置” 之后,可在 “基本设置选项卡” 下,进行如下设置:

任务名称:修改任务名称

分类目录:该任务采集文章发布到的分类目录

作者:该任务采集文章的发布作者,必须是wordpress里的注册用户

更新时间间隔:间隔多长时间检测一次该采集任务下是否有新文章可以更新

字符集:采集目标网站的字符集编码,默认为UTF8,如果目标网页字符集编码不是UTF8,抓取的网页会出现乱码,设置正确的字符集即可解决该问题(如何正确设置字符集)

下载远程图片:如果该任务下采集的文章里包含图片,可以选择是否下载远程图片到本地服务器,选择下载远程图片可以做以下更多设置:

将下载的图片保存到wordpress媒体库中

将图像保存到 Flickr

将图像保存到七牛云存储

将下载的第一张图片自动设为特色图片

下载的图片自动添加水印,可添加文本水印或图片水印

选择设置图片地址的属性 (如果包含源图片地址的属性不是src,可以在这里做设置)

下载远程附件:如果该任务下采集的文章里包含其他类型附件,可以选择是否下载这些附件文件到本地服务器,选择下载后可以做以下更多设置:

将下载的附件信息保存到wordpress媒体库中

自动标签:选择是否使用自动标签

标签列表:使用自动标签后如果文章包含列表里的关键词,将自动添加标签

匹配完整的单词:该设置对英文文章有效,中文文章请勿启用该设置

自动摘要:可自动将文章中第一段或前面几段文字设为摘要

发表状态:采集发布后文章的状态,可以是:已发布,草稿,等待复审

手动选择性采集:选择是,将手动选择哪些文章可以采集并发布

三、文章来源设置

文章来源设置

在该选项卡下我们需要设置文章来源的 文章列表网址 及 具体文章的匹配规则

按照MetaStudio使用手册加载样本页面后,要等待,观察MetaStudio内嵌浏览器窗口,等待被提取的QQ聊天记录都显示后,点击文件->刷新DOM菜单,这样可以将AJAX/Javascript动态生成的新增内容显示在DOM树中。否则,使用反向选择功能定位网页内容时会遇到错误提示:Cannot find the node.

为QQ群聊天记录定义网页内容提取规则和超链接提取规则的方法与普通网页的做法相同

在上载信息结构和聊天记录提取规则之前,需要察看选项菜单配置->自动套用的状态,不应该勾选,以示与普通页面的区别

使用MetaStudio加载并修改信息结构的 *** 作方法也不同,由于没有勾选配置->自动套用,此类信息结构加载时并没有自动套用信息结构以分析样本页面是否符合提取规则,而是提示用户“信息结构加载和分析延后执行”,所以用户需要点击菜单文件->后续分析,以完成网页DOM的刷新和信息结构的套用分析。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11626738.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-17
下一篇 2023-05-17

发表评论

登录后才能评论

评论列表(0条)

保存