我想提取段落标签之间的int信息,但我只能得到段落的一行.我的代码如下:
fileReader fileReader = new fileReader(file);BufferedReader buffRd = new BufferedReader(fileReader);BuffereDWriter out = new BuffereDWriter(new fileWriter(newfile.txt));String s;while ((s = br.readline()) !=null) { if(s.contains("<p>")) { try { out.write(s); } catch (IOException e) { } }}
我试图添加另一个while循环,这将告诉程序继续写入文件,直到该行包含< / p>标签,说
while ((s = br.readline()) !=null) { if(s.contains("<p>")) { while(!s.contains("</p>") { try { out.write(s); } catch (IOException e) { } } }}
但这不行.有人可以帮忙.
解决方法 Jsoup我真正喜欢使用的另一个HTML解析器是jsoup.你可以得到所有的< p>元素在2行代码中.
document doc = Jsoup.connect("http://en.wikipedia.org/").get();Elements ps = doc.select("p");
然后再写一个文件到另一个文件
out.write(ps.text()); //it will append all of the p elements together in one long string
或者如果您希望它们在不同的行上,您可以遍历元素并单独写入它们.
总结以上是内存溢出为你收集整理的从HTML Java提取文本全部内容,希望文章能够帮你解决从HTML Java提取文本所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)