Java使用jsoup爬取网页数据

Java使用jsoup爬取网页数据,第1张

前置说明

虽然可以爬取数据,但是不能获取网页的视频(tika包可以)、音乐、Ajax数据,只能获取页面渲染出的元素和数据。必须联网。

1、引入maven包

  org.jsoup</groupId>
  jsoup</artifactId>
  1.14.3</version>
</dependency>
2、链接网页及抓取代码
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.URL;

public class JsoupTest {

    public static void main(String[] args) throws IOException {
        String url="https://blog.csdn.net/wohaipagui?type=blog";
        Document document= Jsoup.parse(new URL(url),30000);
        Elements divElements= document.getElementsByClass("mainContent");
        Element divElement=divElements.get(0);
        Elements articles=divElement.getElementsByTag("article");

        for (Element article:articles) {
           String text= article.getElementsByClass("blog-list-box-top").get(0).getElementsByTag("h4").get(0).text();
            System.out.println(text);
        }
    }
}
3、执行的结果

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/916348.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-16
下一篇 2022-05-16

发表评论

登录后才能评论

评论列表(0条)

保存