java怎样读取html文件

java怎样读取html文件,第1张

java可以使用jsoup、htmlparser等工具进行html的读取和解析,以下是详细说明:

1、jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的 *** 作方法来取出和 *** 作数据。据说它是基于MIT协议发布的。

jsoup的主要功能如下:

从一个URL,文件或字符串中解析HTML;

使用DOM或CSS选择器来查找、取出数据;

可 *** 作HTML元素、属性、文本;

示例代码

Document doc = Jsoup.parse(input, "UTF-8", "http://www.dangdang.com")

Element content = doc.getElementById("content")

Elements links = content.getElementsByTag("a")

for (Element link : links) {

String linkHref = link.attr("href")

String linkText = link.text()

}

2、htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。 据说htmlparser就是目前最好的html解析和分析的工具。无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞。

在线文档: http://www.osctools.net/apidocs/apidoc?api=HTMLParser;http://htmlparser.sourceforge.net/project-info.html

示例代码:

Parser parser = new Parser ("http://www.dangdang.com")

NodeList list = parser.parse (null)

Node node = list.elementAt (0)

NodeList sublist = node.getChildren ()

System.out.println (sublist.size ())

代码规范性有两种方法:

1、在线检查:http://validator.w3.org/;

2、工具检查,例如:Html Validator。

Html Validator是Firefox的一个附加组件,以前看《精通CSS》提到的一些工具都因为不方便而没使用,每次都是在W3C在线验证查看代码是否规范。虽说过于追求标准有时没必要,但可能就因为有这种“标准癖”,没通过验证总觉得代码还是有问题。这个扩展真是解决了我不少问题。

Html Validator验证起来很方便。本地验证速度比W3C的在线网页要快很多,页面打开就能查看存在多少个问题,几处错误几处警告都一目了然。

它的验证方式有3种:HTML 、Tidy、SGML解析器和连续。前两种分别适合HTML和XHTML的验证,第三种为两种模式各验证一遍。

款很棒的 HTML5 视频播放器作为下一代的网页语言,HTML5 拥有很多让人期待已久的新特性,其中之一就是 video 标签,让开发者可以在网页中和添加图片一样简单的方式添加视频。1、VideoJSVideoJS 是最流行的 HTML5 视频播放器,免费、开源,可使用 CSS 轻松定制皮肤,支持全屏,在不支持的浏览器自动切换为 Flash 播放。2、SublimeVideoSublimeVideo 是一个独特的基于云概念的 HTML5 视频播放器,功能强大,可惜不是免费的。3、Open Standard Media (OSM) Player由 Alethia Inc 开发,是集全功能于一体的网络播放器,非常不错。4、Video for EverybodyVideo for Everybody 让你在网页中嵌入一小段代码就能支持 HTML5 视频,在不支持的浏览器中自动切换为 Flash 播放。5、Kaltura HTML5Kaltura 的 HTML5 视频解决方案 – 兼容所有主流浏览器,采用独特的 fallback 机制。6、FlareVideoFlareVideo 由 Alex MacCaw 开发,他是一位Ruby/JS开发者,FlareVideo主要特色:在不支持 HTML5 视频的情况,用Flash作为替代方案可轻松自定义主题支持全屏完全开源和免费用于商业用途7、Projekktor全文


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/6217042.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-18
下一篇 2023-03-18

发表评论

登录后才能评论

评论列表(0条)

保存