从HTML Java提取文本

从HTML Java提取文本,第1张

概述我正在开发一个下载HTML页面的程序,然后选择一些信息并将其写入另一个文件. 我想提取段落标签之间的int信息,但我只能得到段落的一行.我的代码如下: FileReader fileReader = new FileReader(file);BufferedReader buffRd = new BufferedReader(fileReader);BufferedWriter out = n 我正在开发一个下载HTML页面的程序,然后选择一些信息并将其写入另一个文件.

我想提取段落标签之间的int信息,但我只能得到段落的一行.我的代码如下:

fileReader fileReader = new fileReader(file);BufferedReader buffRd = new BufferedReader(fileReader);BuffereDWriter out = new BuffereDWriter(new fileWriter(newfile.txt));String s;while ((s = br.readline()) !=null) {    if(s.contains("<p>")) {        try {            out.write(s);        } catch (IOException e) {        }    }}

我试图添加另一个while循环,这将告诉程序继续写入文件,直到该行包含< / p>标签,说

while ((s = br.readline()) !=null) {    if(s.contains("<p>")) {        while(!s.contains("</p>") {            try {                out.write(s);            } catch (IOException e) {            }        }    }}

但这不行.有人可以帮忙.

解决方法 Jsoup

我真正喜欢使用的另一个HTML解析器是jsoup.你可以得到所有的< p>元素在2行代码中.

document doc = Jsoup.connect("http://en.wikipedia.org/").get();Elements ps = doc.select("p");

然后再写一个文件到另一个文件

out.write(ps.text());  //it will append all of the p elements together in one long string

或者如果您希望它们在不同的行上,您可以遍历元素并单独写入它们.

总结

以上是内存溢出为你收集整理的从HTML Java提取文本全部内容,希望文章能够帮你解决从HTML Java提取文本所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1100815.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-28
下一篇 2022-05-28

发表评论

登录后才能评论

评论列表(0条)

保存