如何批量提取网站所有的URL链接

如何批量提取网站所有的URL链接,第1张

额。。提取全部网址链接的话

试试这个吧

批量提取链接的工具:ht-tps://godtool.gitlab.io/zh-cn/link-finder/?f=d5

网址前面是错的,自己改一下吧

用法:复制网页内容,粘贴到这个工具中,链接就全部一次性批量提取出来了

是不是很方便?

下面方法可行已测试:

Offline Explorer Pro (Enterprise也可)

安装运行,新建项目,项目-地址中填写

http://bbs.gongzhou.com/thread-97531-{:1..2301}-1.html

下面的级别限制为1

其他的视频等可选择不要,只要文本,图像,其他。不改也没关系,不过是下载时间会长些。

在OE右边的内部浏览器窗口输入那个帖子页面地址,并登录一次。没有用户名的话注册一个。

运行下载,等待结束。

结束后图片其实均已下载,如果你的目的只是弄到那些图,那只要到下载目录(默认是c:\download\bbs.gongzhou.com)去把它们移出来就可以了。

如果你是一定要所有的页面在本地浏览时正常显示图片,那么再要装一个TextPipe软件。Offline Explorer在工具-数据挖掘里可以和TextPipe连动,不过也可以手动运行TextPipe。

安装TextPipe并运行。向导里下一步下一步不用改,过滤器里选择查找和替换,添加,完成。在查找里填

<img src="images/common/none.gif" file="([^\.]*).jpg"

查找类型选择

模式(Perl)

在替换里填

<img src="$1.jpg"

选择c:\download\bbs.gongzhou.com\目录下

从thread-97531-1-1.html

到thread-97531-2301-1.html

的所有html文件,拖到TextPipe的要处理文件里

按下面的开始-真正运行。

等待结束后即可。

我测试了前三页没有问题。

加了一些限制排除掉些不要的文件,OE下载了1000多个文件,要是过滤限制再紧一点应该可以再减少。打包发送是困难了,按他每页10张照片共1.5M来算,2千页就有3G以上了。

几点PS,不看也可

1 登陆论坛的目的是为了搞到他下载版本的1.jpg 2.jpg等等,不登陆也应该可以直接弄到帖子里贴的图

2 下载后页面不显示图是因为他帖子里贴图用的是img src=" images/common/none.gif"-这个是空的图 file=真实地址的标签,所以用替换把src改成实际地址就能显示

3 不一定要用TextPipe,随便一个支持批量 *** 作且能用正则表达式查找替换的文本处理软件也可以。我那正则写的不好,比如.该用\.的,算了能用就行


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11803244.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-18
下一篇 2023-05-18

发表评论

登录后才能评论

评论列表(0条)

保存