java怎样读取html文件

java怎样读取html文件,第1张

java可以使用jsoup、htmlparser等工具进行html的读取和解析,以下是详细说明:

1、jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的 *** 作方法来取出和 *** 作数据。据说它是基于MIT协议发布的。

jsoup的主要功能如下:

从一个URL,文件或字符串中解析HTML;

使用DOM或CSS选择器来查找、取出数据;

可 *** 作HTML元素、属性、文本;

示例代码:

Document doc = Jsoup.parse(input, "UTF-8", "http://www.dangdang.com")

Element content = doc.getElementById("content")

Elements links = content.getElementsByTag("a")

for (Element link : links) {

String linkHref = link.attr("href")

String linkText = link.text()

}

2、htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。 据说htmlparser就是目前最好的html解析和分析的工具。无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞。

在线文档: http://www.osctools.net/apidocs/apidoc?api=HTMLParser;http://htmlparser.sourceforge.net/project-info.html

示例代码:

Parser parser = new Parser ("http://www.dangdang.com")

NodeList list = parser.parse (null)

Node node = list.elementAt (0)

NodeList sublist = node.getChildren ()

System.out.println (sublist.size ())

1. 首先定义一个File 的变量

2.然后用

FILE *fopen(

const char *filename,

const char *mode

)

这个函数读入 html 文件

3.用这个读入文件内容

size_t fread(

void *buffer,

size_t size,

size_t count,

FILE *stream

)

4.之后进行字符数组的处理

你的逻辑是不是不对啊,

“if(cookies != null){ ”这句好像不对啊,应该是:“if(cookies == null){ ”,是不是

另外再请教你一下,if(getConfig("COOKIESECURE").equalsIgnoreCase("On"))

这里面的getConfig是什么 类里面的啊,在这个地方起来什么作用,没有看懂

-----------------------------------------------------------

偶得好,IE和FF兼容,LZ你怎么不给点分呢

/****************************************

function SetCookie

function GetCookie

function DelCookie

cookie

****************************************/

function SetCookie(cookieName, cookieValue, path, domain, secure){

var expires = new Date()

expires.setTime(expires.getTime() + 100000000)

document.cookie = escape(cookieName) + '=' + escape(cookieValue)

+ (expires ? 'expires=' + expires.toGMTString() : '')

+ (path ? 'path=' + path : '/')

+ (domain ? 'domain=' + domain : '')

+ (secure ? 'secure' : '')

}

function GetCookie(name){

var cookie_start = document.cookie.indexOf(name)

var cookie_end = document.cookie.indexOf("", cookie_start)

return cookie_start == -1 ? '' : unescape(document.cookie.substring(cookie_start + name.length + 1, (cookie_end >cookie_start ? cookie_end : document.cookie.length)))

}

function DelCookie(cookieName, cookieValue, path, domain, secure){

var cookieValue="hello"

var expires = new Date()

expires.setTime(expires.getTime() - 100000)

document.cookie = escape(cookieName) + '=' + escape(cookieValue)

+ (expires ? 'expires=' + expires.toGMTString() : '')

+ (path ? 'path=' + path : '/')

+ (domain ? 'domain=' + domain : '')

+ (secure ? 'secure' : '')

}

//使用方法:

SetCookie("haha","1234")

GetCookie("haha")

DelCookie("haha")


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/7588307.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-07
下一篇 2023-04-07

发表评论

登录后才能评论

评论列表(0条)

保存