java怎样读取html文件_随笔

java可以使用jsoup、htmlparser等工具进行html的读取和解析，以下是详细说明：

1、jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的 *** 作方法来取出和 *** 作数据。据说它是基于MIT协议发布的。

jsoup的主要功能如下：

从一个URL，文件或字符串中解析HTML；

使用DOM或CSS选择器来查找、取出数据；

可 *** 作HTML元素、属性、文本；

示例代码：

Document doc = Jsoup.parse(input, "UTF-8", "http://www.dangdang.com")

Element content = doc.getElementById("content")

Elements links = content.getElementsByTag("a")

for (Element link : links) {

String linkHref = link.attr("href")

String linkText = link.text()

}

2、htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或提取html。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0。　据说htmlparser就是目前最好的html解析和分析的工具。无论你是想抓取网页数据还是改造html的内容，用了htmlparser绝对会忍不住称赞。

在线文档： http://www.osctools.net/apidocs/apidoc?api=HTMLParser；http://htmlparser.sourceforge.net/project-info.html

示例代码：

Parser parser = new Parser ("http://www.dangdang.com")

NodeList list = parser.parse (null)

Node node = list.elementAt (0)

NodeList sublist = node.getChildren ()

System.out.println (sublist.size ())

1. 首先定义一个File 的变量

2.然后用

FILE *fopen(

const char *filename,

const char *mode

)

这个函数读入 html 文件

3.用这个读入文件内容

size_t fread(

void *buffer,

size_t size,

size_t count,

FILE *stream

)

4.之后进行字符数组的处理

你的逻辑是不是不对啊，

“if(cookies != null){ ”这句好像不对啊，应该是：“if(cookies == null){ ”，是不是

另外再请教你一下，if(getConfig("COOKIESECURE").equalsIgnoreCase("On"))

这里面的getConfig是什么类里面的啊，在这个地方起来什么作用，没有看懂

-----------------------------------------------------------

偶得好，IE和FF兼容，LZ你怎么不给点分呢

/****************************************

function SetCookie

function GetCookie

function DelCookie

****************************************/

function SetCookie(cookieName, cookieValue, path, domain, secure){

var expires = new Date()

expires.setTime(expires.getTime() + 100000000)

document.cookie = escape(cookieName) + '=' + escape(cookieValue)

+ (expires ? 'expires=' + expires.toGMTString() : '')

+ (path ? 'path=' + path : '/')

+ (domain ? 'domain=' + domain : '')

+ (secure ? 'secure' : '')

}

function GetCookie(name){

var cookie_start = document.cookie.indexOf(name)

var cookie_end = document.cookie.indexOf("", cookie_start)

return cookie_start == -1 ? '' : unescape(document.cookie.substring(cookie_start + name.length + 1, (cookie_end >cookie_start ? cookie_end : document.cookie.length)))

}

function DelCookie(cookieName, cookieValue, path, domain, secure){

var cookieValue="hello"

var expires = new Date()

expires.setTime(expires.getTime() - 100000)

document.cookie = escape(cookieName) + '=' + escape(cookieValue)

+ (expires ? 'expires=' + expires.toGMTString() : '')

+ (path ? 'path=' + path : '/')

+ (domain ? 'domain=' + domain : '')

+ (secure ? 'secure' : '')

}

//使用方法：

SetCookie("haha","1234")

GetCookie("haha")

DelCookie("haha")

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/7588307.html

java怎样读取html文件

发表评论

评论列表（0条）