如何运用java取得某一链接网址中所有的链接网址并存储？然后我再调用HttpURLConnection判断链接有效性？

广西柳州地图 • 2023-5-27 • 安全 • 阅读 31

根据java网络编程相关的内容，使用jdk提供的相关类可以得到url对应网页的html页面代码。

针对得到的html代码，通过使用正则表达式即可得到我们想要的内容。

比如，我们如果想得到一个网页上所有包括“java”关键字的文本内容，就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容，只得到包括“java”这个关键字的内容的效果。

从网页上爬取的流程和爬取内容的流程基本相同，但是爬取的步骤会多一步。

需要先用img标签的正则表达式匹配获取到img标签，再用src属性的正则表达式获取这个img标签中的src属性的url，然后再通过缓冲输入流对象读取到这个url的信息，配合文件输出流将读到的信息写入到本地即可。

欢迎分享，转载请注明来源：内存溢出

内容标签正则表达式链接网页

打赏

微信扫一扫

支付宝扫一扫

上一篇 2023-05-27

下一篇 2023-05-27

登录后才能评论