求一款简单的批量提取网页文字的工具,合乎问题追加10分满意追加20分

求一款简单的批量提取网页文字的工具,合乎问题追加10分满意追加20分,第1张

用Replace Pioneer可以。

第一步,生成下载列表:

1. ctrl-h打开replace 窗口

点击Advanced页,在Insert Begin Text输入:

join('\n',map{"http://……/read_74877_$_.html,text"}(5625..5665))

2. 点击Replace,完成,按ctrl-s保存为a.txt

第二步,导入a.txt并下载

3. 打开Tools->Batch Runner菜单

4. 点击Import List把a.txt导入

5. 选中Set output filename,把右边的${FILENAME}改为需要的新名字,比如#.txt表示递增的序号1.txt, 2.txt,...。

6. 点击Copy/Download即下载完毕

第三步,合并

7. 打开Tools->Batch Runner菜单

8. 点击Pick Files选择下载好的1.txt, 2.txt, ...

9. 点击File Merge,输入结果文件,完成合并

注:

* 如希望下载为html格式,而举岁稿不是text格式,第一步的",text"可以去掉。

* 如希望把不必正孝要的内容去掉,第6步可以选择Fast Replace按钮代替copy/download按钮,按add按钮输入多条替换规则,比如:

search输入"^.*?abc"(不带双引号), replace不填,就能把开头到abc的内容全部去掉。

search输雀指入"def.*?$"(不带双引号), replace不填,就能把从def到结尾的内容全部去掉。

加完后点击start即可。

介绍你几个网页下载工具,你可以试试看,下载链接我就不放出了,审核太麻烦

1、智能化的网页保存工具——网童

弘一网童(WebPortero)是一款智能化的保存网页工具,让你松保存网页。上网找资料免不了要保存文章、图片,在保存网页的过程中经常会遇到网页保存失败,网页不能拷贝的烦恼。通常需要保存的仅是网页的正文部分,只能采用\"拷贝\"、\"粘贴\"方法,将所需的正文内容复制到WORD或记事本中然后再\"保存\",这样很慢也很麻烦,而且粘贴到WORD后经常会留下一堆去不掉的格式。有没有想象过只要点一下鼠标即可完成保存你需要的正文部分,不用你手工\"拷贝\"、\"粘贴\"呢?

用网童即可实现一键保存网页正文,网童最大的特点在于它的智能化轮租禅,能够自动识别并提取正文内容,由此免去了繁杂的“拷贝粘贴”,只保存网页正文,生成的文件干净、清爽,没有垃圾。可谓是小智慧大方便。

网童还可以一次性保存网页的所有“下一页”,也可批量保存网页内容,免去逐腊尘一拷贝的烦恼;可以将网页保存成HTM、TXT、MHT、WORD多种格式;解决了不能“拷贝”的网页的内容获取;还可以批量保

2、网络蜘蛛

网络蜘蛛是一个自动搜索 HTML 页面并下载指定文件的软件。最初设计它是为了下载网站上的图片,想想看,面对那些动辄拥有数百幅图片的网站,你是否有耐心和时间一一点击查看和下载?而且在目前上网费用如此高昂的年代,在网站上慢慢地手工浏览和下载图片是不是太过奢侈了一点?如果你是一个图片收集爱好者得话,建议你试一试网络蜘蛛这个软件。它可以从你指定的地址开始,自动搜索网站并下载图片或其它软件。听起来似乎有点象离线浏览器或网站下载软件是吗?其实它们还是有些差别的,网络蜘蛛的设计目标主要是针对图片等一些比较零碎的、尺寸不是很大的文件的下载,并高度强调自动化工作和高可靠性。

3、Offline Explorer

Offline Explorer是相当方便使用的离线浏览工具,可排定抓取时间、设定Proxy,也可选择抓取的项目及大小,可自设下载的存放位置、及存放的空间限制。它内置浏览程序、可直接浏览或是使用自己喜欢的浏览器来浏览、且更可直接以全浏览窗切换来作网上浏览,另它对于型厅抓取的网站更有MAP的提供、可更清楚整个网站的连结及目录结构。

pyspider 是国人开发的相当好用的爬虫框架。虽然网上教程不是很多,但是文档详细, *** 作简单,非常适合用来做爬虫练习或者实现一些抓取数据的需求。

本文就以抓取起点中文小说网的小说作品基础信息作为差侍配目标,讲解如何使用pyspider框架采集数据。

关于为何要选择起点作为目标,其一、笔者作为网文爱好者,也想收集起点小说作品信息,找些热门小说看;其二、起点作为比较成熟的小说网站,再反爬虫方面应该有对应策略,刚好练习一下爬虫怎么规避这些策略。

在阅读本文之前,建议先看一下文档及框架作者本人写的中文教程

pyspider 爬虫教程(一):HTML 和 CSS 选择器

pyspider 爬虫教程(二):AJAX 和 HTTP

pyspider 爬虫教程(三):使用 PhantomJS 渲染带 JS 的页面

安装很简单,如果已安装pip,直接执行命令

由于目前很多网站都是动态js生成页面,需要安装 PhantomJS 来获得js执行后的页面,而不是原本静态的html页面,我们再来装一下

待安装完成后,谈氏我们先看一下pyspider对应的可执行命令

在这里我们直接执行如下命令启动,更复杂的命令参看 文档

首先看一下启动成功后,浏览器访问127.0.0.1:5000地址的界面如下

点击Create,新建项目

点击生成的项目名,进入脚本编写&调试页面

先看一下对应的爬虫脚本

1.测试抓取时,运行一段时间后出现所有抓取链接均FetchError的报错,抓取失败

失败原因:未设置User-Agent 及 抓取速率太快,导致IP被封禁

解决办法:

1) 设置User-Agent,调整速率从1->0.7

2) 使用代理IP,防止被封禁,这里笔者尝试使用搭建 简易免费代理IP池 ,但是由于免费代理大多不可用,会导致抓取不稳定,还是决定放弃使用

2.笔者本来是打算通过不断抓取下一页的链接,来遍历所有小说作品的,可是由于这部分是JS动态生成的,虽然使虚指用phantomjs,能解决这个问题(具体见作者教程3),但是使用phantomjs会导致抓取效率变低,后来还是选择采用固定首尾页数(PAGE_START,PAGE_END)的方法

3.当使用css选择器有多个数据时,怎么获取自己想要的

比如在小说详细页,有字数,点击数,推荐数三个

其css selector均为 .book-info >p >em,要获取对应的次数只能使用pyquery的.eq(index)的方法去获取对应的文本数据了

4.如果遇到抓取的链接是https,而不是http的,使用self.crawl()方法时,需要加入参数validate_cert =False,同时需要确保pyspider --version 版本再0.3.6.0之上

具体解决方法,可以查看如下链接:

PySpider HTTP 599: SSL certificate problem错误的解决方法

简单数据分析之二

采用 SCWS 中文分词 对所有作品名字进行分词统计,得到出现频率最高的排行

看起来如果写小说,起个『重生之我的神魔异世界』这类标题是不是吊炸天

简单数据分析之三

简单统计一下起点作者的作品数排序

武侠精品应该是起点的官方作者号吧,不然194本作品也太恐怖了

也发现了不少熟悉的大神,比如唐家三少,流浪的蛤蟆,骷髅精灵等,有些作品还是可以看看的


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12387118.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-25
下一篇 2023-05-25

发表评论

登录后才能评论

评论列表(0条)

保存