Jsoup怎样从Html文件中提取正文内容_框架

Jsoup从Html文件中提取正文内容\x0d\示例代码：\x0d\Fileinput=newFile("/tmp/inputhtml");\x0d\Documentdoc=Jsoupparse(input,"UTF-8","/examplecom/");\x0d\\x0d\Elementcontent=docgetElementById("content");\x0d\Elementslinks=contentgetElementsByTag("a");\x0d\for(Elementlink:links){\x0d\StringlinkHref=linkattr("href");\x0d\StringlinkText=linktext();\x0d\}\x0d\jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的 *** 作方法来取出和 *** 作数据。\x0d\jsoup的主要功能如下：\x0d\1从一个URL，文件或字符串中解析HTML；\x0d\2使用DOM或CSS选择器来查找、取出数据；\x0d\3可 *** 作HTML元素、属性、文本；

1从url加载一个页面：Document doc = Jsoupconnect(" >

根据java网络编程相关的内容，使用jdk提供的相关类可以得到url对应网页的html页面代码。

针对得到的html代码，通过使用正则表达式即可得到我们想要的内容。

比如，我们如果想得到一个网页上所有包括“java”关键字的文本内容，就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容，只得到包括“java”这个关键字的内容的效果。

从网页上爬取的流程和爬取内容的流程基本相同，但是爬取的步骤会多一步。

需要先用img标签的正则表达式匹配获取到img标签，再用src属性的正则表达式获取这个img标签中的src属性的url，然后再通过缓冲输入流对象读取到这个url的信息，配合文件输出流将读到的信息写入到本地即可。

Jsoup从Html文件中提取正文内容

示例代码：

File input = new File("/tmp/inputhtml");

Document doc = Jsoupparse(input, "UTF-8", "/examplecom/");

Element content = docgetElementById("content");

Elements links = contentgetElementsByTag("a");

for (Element link : links) {

String linkHref = linkattr("href");

String linkText = linktext();

}

jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的 *** 作方法来取出和 *** 作数据。

jsoup的主要功能如下：

1 从一个URL，文件或字符串中解析HTML；

2使用DOM或CSS选择器来查找、取出数据；

3 可 *** 作HTML元素、属性、文本；

以上就是关于Jsoup怎样从Html文件中提取正文内容全部的内容，包括:Jsoup怎样从Html文件中提取正文内容、Jsoup 抓取网页，字符是乱码，怎么转换跪求拜托了各位谢谢、java爬虫抓取指定数据等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/9298871.html

Jsoup怎样从Html文件中提取正文内容

发表评论

评论列表（0条）