java中怎么把xml文件转换为html_随笔

java中利用HtmlAgilityPack API就可以把html解析成xml了。在HtmlAgilityPack中常用到的类有HtmlDocument、HtmlNodeCollection、 HtmlNode和HtmlWeb等。其流程一般是先获取HTML，这个可以通过HtmlDocument的Load()或LoadHtml()来加载静态内容，

我给你些我的建议吧

HTML的语法格式比XML宽松多了，真正XML格式的网页是XHTML，也就是下一代HTML，他的格式和XML差不多，很严谨的。

如果你不想利用某些HTML和XML互转工具，自己编的话，有一定难度。

1.HTML的节点可以没末节点，你需要不停扫描<,>,/,这三个符号以检查是否漏掉末节点，并补充。

2.HTML节点还可以不规则嵌套，你需要对已读入节点进行顺序存储，或用栈的数据结构来存储，并验证其层次正确性，最终正确顺序的节点，期间还得缓存节点值，或属性值。

3.HTML不同于XML，许多HTML节点有特殊的意义，许多HTML节点比如<b>,<hr/>都需要经过特殊处理才行。

在技术上，为保证性能，还要在一下方面有加强。

1.强大的字符串扫描，和解析器，此工作也巨大，但网上源码很多，建议到google英文里搜索，HTML

parser，XML

parser（解析器），有很多c#，java，c++的源代码可以利用，没有强大的解析器，跟本无法读懂文件。

2.System.Xml空间的详细运用，除了简单的XMLWriter，还必须学会XMLDocument，XmlNode，能够动态 *** 控XML。还有Xpath技术， *** 作XMl很有效率。

3.适当还会运用到正则表达式，来处理字符串匹配问题，尤其是节点的 *** 作，即使是再好的字符串查找算法，有时也不如正则表达式，因此system.Text

中的Regex类要掌握好。

4.会控制WinForm中的WebBrower控件

当然，即使你不打算自己做，或已找到了源代码，要想读懂，也必须要以上的知识。

至于工具，网上有，源码还哪找，有java的，但下载不下来。

这是著名的W3C（Html，xml等技术的创始组织）的转换工具，里面也有一些介绍，相信会有用的。

有一个用C#编的转换器，但付费后才可看到源代码

还有一些软件，stylus的产品不错！

C程序里可以利用libxml2库去解析xml文档。利用libxml2可以很轻松的解析，生成xml文件。

这里演示一个小例子，包含了遍历节点，获取节点属性与值，以及获取CDATA里面的内容。

测验的xml文件：

<?xml version="1.0" encoding="utf-8"?>

<pro id="moonApple"><![CDATA[<say>i still have lots to work on</say>]]></pro>

<detail name="singing">poor , just listen</detail>

<detail name="eating"><![CDATA[<food>candy</food>]]></detail>

</details>

</content>

</root>

test.c文件：

#include<stdio.h>

#include<string.h>

#include<libxml/parser.h>

#include<libxml/tree.h>

int parse_xml_file(char *buf,int len){

xmlDocPtr doc

xmlNodePtr root,node,detail

xmlChar *name,*value

doc=xmlParseMemory(buf,len)//parse xml in memory

if(doc==NULL){

printf("doc == null\n")

return -1

}

root=xmlDocGetRootElement(doc)

for(node=root->childrennodenode=node->next){

if(xmlStrcasecmp(node->name,BAD_CAST"content")==0)

break

}

if(node==NULL){

printf("no node = content\n")

return -1

}

for(node=node->childrennodenode=node->next){

if(xmlStrcasecmp(node->name,BAD_CAST"pro")==0){ //get pro node

name=xmlGetProp(node,BAD_CAST"id")

value=xmlNodeGetContent(node)

printf("this is %s:\n%s\n",(char*)name,(char*)value)//get value, CDATA is not parse and don't take into value

xmlFree(name)

xmlFree(value)

}else if(xmlStrcasecmp(node->name,BAD_CAST"details")==0){ //get details node

for(detail=node->childrendetaildetail=detail->next){ //traverse detail node

if(xmlStrcasecmp(detail->name,BAD_CAST"detail")==0){

name=xmlGetProp(detail,BAD_CAST"name")

value=xmlNodeGetContent(detail)

if(strlen((char*)value)!=0){

printf("%s : %s\n",(char*)name,(char*)value)

}else{

printf("%s has no value\n",(char*)name)

}

xmlFree(name)

xmlFree(value)

}

xmlFreeDoc(doc)

return 0

}

int main(void){

char *content

unsigned long filesize

FILE *file

if((file=fopen("testxml","r"))==NULL){

perror("openf file error")

}

fseek(file,0,SEEK_END)

filesize=ftell(file)

rewind(file)

content=(char *)malloc(filesize+1)

memset(content,0,filesize+1)

fread(content,1,filesize,file)

fclose(file)

printf("content:\n%s\n",content)

if(parse_xml_file(content,filesize)<0){

perror("parse xml failed")

}

return 0

}

输出结果：

this is moonApple:

<say>i still have lots to work on</say>

dancing : like it

singing : poor , just listen

laugh has no value

eating : <food>candy</food>

这里主要关注XML文件里面的CDATA里面的内容

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/7255502.html

java中怎么把xml文件转换为html

发表评论

评论列表（0条）