虽然可以爬取数据,但是不能获取网页的视频(tika包可以)、音乐、Ajax数据,只能获取页面渲染出的元素和数据。必须联网。
1、引入maven包
org.jsoup</groupId>
jsoup</artifactId>
1.14.3</version>
</dependency>
2、链接网页及抓取代码
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
import java.net.URL;
public class JsoupTest {
public static void main(String[] args) throws IOException {
String url="https://blog.csdn.net/wohaipagui?type=blog";
Document document= Jsoup.parse(new URL(url),30000);
Elements divElements= document.getElementsByClass("mainContent");
Element divElement=divElements.get(0);
Elements articles=divElement.getElementsByTag("article");
for (Element article:articles) {
String text= article.getElementsByClass("blog-list-box-top").get(0).getElementsByTag("h4").get(0).text();
System.out.println(text);
}
}
}
3、执行的结果
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)