通过 RSSHub 订阅不支持 RSS 的网站

通过 RSSHub 订阅不支持 RSS 的网站,第1张

没有遗漏地收取信息 ——像少数派首页新的文章、教务系统新的通知等,都是我不希望有遗漏的信息。

集中地收取信息 ——我是个很怕麻烦的的人,要我时不时地打开微博、Twitter、Instagram、YouTube、哔哩哔哩……去翻看我所有关注的人有没有更新,实在是一件痛苦的事。

RSS 服务就契合了这两个需求,我只需要打开阅读器就能接收所有信息,而「未读」标记则可以提醒我遗漏了哪些重要的信息。

但 RSS 并不是完美无缺,一个最大的问题就是 RSS 从来都不是一个信息发布的主流方式,除了部分新闻类网站,大多数的网站都是缺少官方的 RSS 来源(比如以上列举的大部分网站)。

不过问题的解决并不困难,我之前的方案是使用 Huginn 、 Feed43 之类的工具,通过抓取网站页面特定段落的更新,来生成 RSS 订阅源。这些工具大多只需要有一定的 HTML 和 Linux 基础就能使用,但毕竟还有一定门槛,本文要介绍的就是将这一门槛抹平的新兴工具—— RSSHub 。

与 Huginn、Feed43 等工具类似,RSSHub 在大部分网站上也是通过抓取网页的方式获得订阅源,不同的是在 RSSHub 中,已经完成了对抓取规则的编写,只需要用户简单的编辑下地址即可。

比如我希望订阅 YouTube 上 Linus Tech Tips 的视频,我在网页上找到 LTT 的用户名是「LinusTechTips」,根据 RSSHub 的 官方文档 ,我只需要在 >1、Pubg(绝地求生),在进入steam文件夹按ctrl+F搜索ClientRegistryblob这个文件并删除,打开steam,steam会自行更新,然后就可以正常使用了。1、ClientRegistryblob是Steam记录登录信息和更新信息的一个重要文件,当此文件被删除或者损坏的时候,Steam会自动生成新的ClientRegistryblob,并且重新扫描更新和寻找Steam服务器。2、大家在出现不能登录Steam的时候,就可以通过替换这个文件来解决(主要是更换不同的Steam服务器和线路),也可以直接删除这个文件让Steam重新扫描更新和寻找Steam服务器!

微信已然成了国内最流行的社交软件,甚至成了人们的一种生活方式,依托于这个平台的微信公众号自然是新媒体传播的最佳途径,是获取资讯的最佳场所,有很多优质的微信公众号都是值得订阅的。但是,在微信内订阅与阅读公众号文章的体验却是极差的,这个我想大家应该都是有目共睹的。

在聚合类APP里,我觉得即刻做得是最棒的。我是从2015年开始使用这个APP的,应该是最早的那批用户,从刚开始只有一些人工筛选的主题到现在用户可以自定义主题,即刻的功能越来越强大,我在之前的文章中就安利过多次。在30版本以后,即刻加入了自定义主题功能,用户 可以通过APP提供的追踪机器人创建自定义主题(提醒) ,这个功能的加入让我对这个APP更加刮目相看,因为这个功能在别的APP中是找不到的。

轻芒阅读是另一款信息聚合类APP,就是以前的豌豆荚一览,现在已经从豌豆荚里分离出来了。在这个APP里可以 阅读一些应用以及公众号的文章 ,使用体验很不错,高效且优雅。我搜索了上面的三个公众号,没有搜索到 MXPRESSO ,可能是因为没有收录吧。在内容更新上, Warfarcon 的文章都有更新,包括前天的文章,但是 木西AlexanDENG 中昨天发布的文章就没有更新。

一览是一款国内的RSS阅读器(免费版只支持系统提供的数据源), 支持订阅微信公众号和知乎 ,还可以将文章推送至Kindle,有网页版和APP客户端。我再次测试了一下上面的三个公众号,很遗憾,只能搜到 Warfalcon ,其他两个公众号都没有收录。在内容更新上, warfarcon 五月份发布的文章暂时没有更新。

我在 干货信息大爆炸时代,该如何高效阅读 中就介绍过将微信公众号转化成RSS的方法,推荐了大家使用微广场,但是,最近微广场正式关闭,这个方法已经彻底失效,甚至,连微口网这种提供摘要型RSS的方法都已经失效了。我在网上重新搜索了一下,貌似还有 今天看啥 还在提供RSS服务,但好像也是个人提供的付费服务,不知道能坚持到什么时候。因此,为了应对这种情况,我不得不祭出大招- Huginn ,这也是我一直在推崇的方法, 利用Huginn可以订阅一切网站的更新 ,当然也包括微信公众号,通过它,我们就可以将公众号变成RSS,而且更新速度快,阅读体验只取决于你的RSS阅读器(RSS阅读器的选择可依据你的喜好来)。

安装部署Huginn的方法请参见我前面的文章- Huginn 安装教程—建立你自己的 IFTTT ,更多安装部署方法可参见我们的 Huginn中文网 。如果你想更深入地了解Huginn,请参见我之前的文章- 使用 Huginn 打造自动化云端信息助手 ,或者来我们的 论坛 上进行交流。

下面我来详细说一下如何通过Huginn将微信公众号转化成RSS,因为Huginn必须依托网页源才能制作RSS,所以我们先要有获取微信公众号文章的网址,你可以使用已有的微信公众号聚合网站,比如, 传送门 、 启蒙 ,等等。但是,最全、更新最及时地莫过于搜狗微信,大部分聚合网站基本上也是通过爬搜狗微信获取公众号的全文,下面以将木西大神的 木西AlexanDENG 为例。

在上面的Agent,我并没有直接获取对应文章的链接地址,因为微信全文对应的链接地址不是永久地址,如果也放到上面的Agent中的话,会导致无效的触发,继续使用 Website Agent ,具体选项如下:

在获得最新文章对应的链接地址后,就可以获取文章的全文,下面继续使用 Website Agent 解析获得文章的全文,具体的选项如下:

最后,只需要使用 Data Output Agent 输出RSS即可,具体设置如下:

通过上面的设置,你就可以在你的Data Output Agent 界面的Summary上获得对应的RSS地址,将这个RSS地址放进你的RSS阅读器吧!!!

因为搜狗上有反爬虫机制,所以你的Agent的触发间隔最好长一点,像木西大神的这个公众号最多一天也就更新一篇文章,因此我就设置成了一天触发一次。如果你想将触发间隔设置短一些,又不会触发到反爬虫机制,你可以使用 Phantomjscloud 提供的API,借助云端模拟浏览器进行爬取,这个方式是最棒的。最新版本的Huginn可以直接使用 Phantom Js Cloud Agent,老版本的Huginn可参见这篇教程- Browser Emulation Using PhantomJs Cloud 。

更新

通过Phantom JsCloud Agent的流程如下:

详细设置的使用文件见 链接

总结一下上面提供的四种方法:

不知道上面这几种方法有没有适合你的,有任何不明白的或好的想法,随时欢迎与我交流。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/13440213.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-08-06
下一篇 2023-08-06

发表评论

登录后才能评论

评论列表(0条)

保存