怎么用libxml2 默认解析器解析HTML文件

怎么用libxml2 默认解析器解析HTML文件,第1张

C程序里可以利用libxml2库去解析xml文档。利用libxml2可以很轻松的解析,生成xml文件

这里演示一个小例子,包含了遍历节点,获取节点属性与值,以及获取CDATA里面的内容。

测验的xml文件:

<?xml version="1.0" encoding="utf-8"?>

<root name="test">

<content>

<pro id="moonApple"><![CDATA[<say>i still have lots to work on</say>]]></pro>

<details>

<detail name="dancing">like it</detail>

<detail name="singing">poor , just listen</detail>

<detail name="laugh"/>

<detail name="eating"><![CDATA[<food>candy</food>]]></detail>

</details>

</content>

</root>

test.c文件:

#include<stdio.h>

#include<string.h>

#include<libxml/parser.h>

#include<libxml/tree.h>

int parse_xml_file(char *buf,int len){

xmlDocPtr doc

xmlNodePtr root,node,detail

xmlChar *name,*value

doc=xmlParseMemory(buf,len)//parse xml in memory

if(doc==NULL){

printf("doc == null\n")

return -1

}

root=xmlDocGetRootElement(doc)

for(node=root->childrennodenode=node->next){

if(xmlStrcasecmp(node->name,BAD_CAST"content")==0)

break

}

if(node==NULL){

printf("no node = content\n")

return -1

}

for(node=node->childrennodenode=node->next){

if(xmlStrcasecmp(node->name,BAD_CAST"pro")==0){ //get pro node

name=xmlGetProp(node,BAD_CAST"id")

value=xmlNodeGetContent(node)

printf("this is %s:\n%s\n",(char*)name,(char*)value)//get value, CDATA is not parse and don't take into value

xmlFree(name)

xmlFree(value)

}else if(xmlStrcasecmp(node->name,BAD_CAST"details")==0){ //get details node

for(detail=node->childrendetaildetail=detail->next){ //traverse detail node

if(xmlStrcasecmp(detail->name,BAD_CAST"detail")==0){

name=xmlGetProp(detail,BAD_CAST"name")

value=xmlNodeGetContent(detail)

if(strlen((char*)value)!=0){

printf("%s : %s\n",(char*)name,(char*)value)

}else{

printf("%s has no value\n",(char*)name)

}

xmlFree(name)

xmlFree(value)

}

}

}

}

xmlFreeDoc(doc)

return 0

}

int main(void){

char *content

unsigned long filesize

FILE *file

if((file=fopen("testxml","r"))==NULL){

perror("openf file error")

}

fseek(file,0,SEEK_END)

filesize=ftell(file)

rewind(file)

content=(char *)malloc(filesize+1)

memset(content,0,filesize+1)

fread(content,1,filesize,file)

fclose(file)

printf("content:\n%s\n",content)

if(parse_xml_file(content,filesize)<0){

perror("parse xml failed")

}

return 0

}

输出结果:

this is moonApple:

<say>i still have lots to work on</say>

dancing : like it

singing : poor , just listen

laugh has no value

eating : <food>candy</food>

这里主要关注XML文件里面的CDATA里面的内容

windows下安装libxml2

(一)首先必须安装libiconv

(1)下载路径http://gnuwin32.sourceforge.net/packages/libiconv.htm,选择“Developer files”,下载。

(2)将libiconv-1.9.2-1-lib.zip解压,然后将解压出来的内容(include和lib)放到F:\sohu_code\p2plive\third\libiconv-1.9.2-1-lib,这个目录是本人存放各种依赖库的地方。

(3)将lib文件下的libiconv.lib,文件重命名为“iconv.lib”。

(二)接下来,安装libxml2

(1)下载libxml2,官网是:http://www.xmlsoft.org/downloads.html,下载地址是:ftp://gd.tuwien.ac.at/pub/libxml/. 最新版本是:libxml2-sources-2.9.0.tar.gz,下载完成后,解压到 F:\sohu_code\p2plive\third\libxml2-2.9.0

(2)进入 Visual Studio 2008 Command Prompt;

(3)cd F:\sohu_code\p2plive\third\libxml2-2.9.0\win32

(4)cscript configure.js help

这个命令是让你熟悉下步骤5里面的一些参数。

(5)cscript configure.js compiler=msvc prefix=F:\sohu_code\p2plive\third\libxml2-2.9.0\local include=F:\sohu_code\p2plive\third\libiconv-1.9.2-1-lib\include lib=F:\sohu_code\p2plive\third\libiconv-1.9.2-1-lib\lib

其中 prefix表示你准备将生成的include和lib文件生成到那个目录,我直接在本文件下生成了一个"local"目录

(6)nmake /f Makefile.msvc

(7)nmake /f Makefile.msvc install

执行完这条语句后,就将bin include lib生成到F:\sohu_code\p2plive\third\libxml2-2.9.0\local目录下了

一,编译之前的准备。

1) 了解代码组织结构。

Chrome source非常庞大,并且在其主目录下还包含有工具和组件,任何一个工具和组件也附带有其源代码。首先得熟悉这些源代码的组织结构,在http://src.chromium.org/svn/中包含如下子目录:releases,曾经发布过的chrome源代码的正式版本;trunk,当前最新的源代码。由于releases中的代码比较旧,这里就不做说明了,只说明trunk的结构。在trunk下面有3个重要的目录,deps包含了chrome编译和运行所需要的全部组件的代码。src里面包含的则是chrome的主程序的代码,tools包含的是下载和配置编译所需要的第三方工具的压缩包和源代码,其中就有svn和python这2个比较重要的工具,后面再详细介绍。暂时做这样一个简单的介绍,因为其组织结构比较负责,以后再作补充斧正。

2)如何下载和同步源代码。

首先谈谈下载:

1,最简单的方法是从chrome官网上直接下载源代码压缩包,地址是http://build.chromium.org/buildbot/archives/chromium_tarball.html。

2,或者采用svn从http://src.chromium.org/svn/trunk/src这个地方heckout,这要求你先在本地建一个源代码的主目录。

3,另外一个办法则是采用google提供的一个部署工具depot_tools。虽然这几种办法都可下载完整的源代码,但目前的情况是:chrome基于Visual Stdio 2005 进行编译,如果顺利完成编译工作,自然少不了sln文件,较早的源代码中包含有现成的sln和vcproject文件,但后来做了修改,这些文件被抛弃掉,Google自己开发了一种脚本工具叫做GYP,这个工具采用python编写,GYP采用了自定义的一套规则,用于生成各种工程文件。而关键的python则包含于depot_tools中,因此不论采用什么方法下载的代码,都得下载depot_tools这个工具,以获得必须的工程文件。

depot_tools位于 http://src.chromium.org/svn/trunk/tools 下面,包括一个目录和一个zip格式的压缩包。

3)关于编译器

前面提到Chrome采用Visual Stdio 2005进行编译,根据http://dev.chromium.org的说明,需进行如下 *** 作正常编译

a, 安装Visual Studio 2005.

b, 安装Visual Studio 2005 Service Packe 1.

c,安装Visual Studio Hotfix 947315.

d, 如果是vista系统,还需安装Visual Studio 2005 Service Packe 1 Update for Windows Vista.

e, 安装Windows 2008 SDK,如果是Visual Studio 2008则不需要这一步。

f, 配置Windows 2008 SDK,使2008 SDK成为首选开发库,以获得一些新功能和特性。办法是在开始->程序->Microsoft Windows SDK v6.1 >Visual Studio Registration >Windows SDK Configuration Tool,选择make current按钮。也可以在VS里面手动配置include和libary路径,效果是一样的。

二,如何配置工程文件

1,如果是采用depot_tools,那么从代码下载到生成sln文件会自动完成。其步骤是

(1)下载depot_tools到本地存储,假设位于d:/depot_tools.

(2)将d:/depot_tools添加到系统环境变量中。

(3)创建一个源代码根目录,假设为 d:/chrome,目录不得包含空格。

(4)在命令行下切换当前目录到d:/chrome。

(5)执行命令 gclient config http://src.chromium.org/svn/trunk/src ,该命令会首先下载svn和python分别到d:/depot_tools/svn_bin和d:/depot_tools/python_bin。

(6)执行命令 gclient sync 这个命令会调用svn同步源代码。这个过程会比较漫长。全部完成之后全部源代码就保存在d:/chrome里面。未编译的代码大约有4个G左右,过程将十分漫长。这样获得的源代码已经包含所有的工程文件,可直接打开。

重点说明一下gclient,它实际上是一个批处理文件,它主要做了如下一些事情,首先设置环境变量,如代码根目录,工具根目录等。其次调用win_tools.bat从服务器下载svn和python。最后调用python.exe对Chrome.gyp进行解析生成所有工程文件。

另外需要说明的是,gclient sync的过程非常漫长,根据命令行的提示来看总共需要同步67个项目(不是工程),期间可能会因为一些原因导致错误而退出这个过程,需要继续调用sync。比如网络出现故障svn会多次进入sleep状态然后重试,如果多次失败就会报错退出,还有的情况是某些子目录的属性问题无法同步,可根据提示进行 *** 作。还有个目前新出现的问题,下面2个目录“src/webkit/data/layout_tests/LayoutTests”和“src/third_party/WebKit/LayoutTests”的源代码是从src.webkit.org签出来的,但是这个网站目前存在问题无法签出代码, 需要屏蔽掉这2个目录,由于里面是测试代码,即使丢弃也不会影响整个工程的编译,方法是打开trunk下面的.gclient文件,向里面添加如下内容

"custom_deps" : {

"src/webkit/data/layout_tests/LayoutTests":None,

"src/third_party/WebKit/LayoutTests":None,

},

这样svn就能完成代码的同步了。最后gclient会调用depot_tools/python_bin/python.exe 对 src/build/gyp_

chromium进行处理,这样就得到了所有的sln和vcproject文件。

2,如果是下载的代码压缩包或者checkout的代码,代码目录里面没有sln文件,这个时候需要调用命令行进入源代码根目录,然后执行命令 gclient runhooks --force,命令执行后会直接对Chrome.gyp进行解析,生成sln文件。

在实际下载过程中,最开始的时候我用TortoiseSVN从http://src.chromium.org/svn/trunk/src checkout源代码,但是得到的代码只有几百兆,执行gclient runhooks --force命令后也没有找到sln文件,具体原因未知,不建议使用此方式。而直接下载代码压缩包的方式没有尝试过,不知道是否可行。因此最稳妥的方法还是使用depot_tools来部署和处理源代码。

三 编译工程

启动Visual Studio 2005打开 src/chrome/browser/chrome.sln,或者打开src/build/all.sln,如果打开的是chrome.sln里面包含480个工程,而all.sln则包含507个工程,一些09年的编译说明提到有300左右的工程,可见chrome的代码变动比较大。对整个解决方案进行编译,打开需要2个小时才能完成编译,视硬件环境而定,内存越大越快,推荐4G以上内存,酷睿2核或者4核。编译完成以后据说会占用30G的空间。编译后的文件位于 d:/chorme/chrome/debug 目录或者 d:/chorme/chrome/release目录下。

四 chrome涉及的开源项目

Chrome 采用了很多开源项目,这里把它们列出来以备后用,目前Chrome涉及25个开源代码:

1、Google Breakpad

/src/breakpad

开源的跨开台程序崩溃报告系统。

2、Google URL

/src/googleurl

Google小巧的URL解析整理库。

3、Skia

/src/skia

矢量图引擎。

4、Google v8

/src/v8

Google开源的JavaScript引擎。V8实现了ECMA-262第三版的ECMAScript规范,可运行于Windows XP 和 Vista, Mac OS X 10.5 (Leopard), 及 Linux等基于IA-32 或 ARM 的系统之上。V8可单独运行也可嵌入到任何C++程序中。

5、Webkit

/src/webki

开源的浏览器引擎

6、Netscape Portable Runtime (NSPR)

/src/base/third_party/nspr

Netscape Portable Runtime (NSPR) 提供了系统级平台无关的API及类似libc的函数。

7、Network Security Services (NSS)

/src/base/third_party/nss

Network Security Services (NSS) 一套用于支持服务器端与客户端安全开发的跨平台函数库。程序通过NSS可支持SSL v2 and v3, TLS, PKCS #5, PKCS #7, PKCS #11, PKCS #12, S/MIME, X.509 v3 认证及其它一些安全标准。

8、Hunspell

/src/chrome/third_party/hunspell

Spell checker and morphological analyzer library and program designed for languages with rich morphology and complex word compounding or character encoding.

9、Windows Template Library

/src/chrome/third_party/wtl

用于开发Windows程序与UI组件的C++ library。WTL扩展了ATL (Active Template Library) 并提供一套用于controls, dialogs, frame windows, GDI objects等开发的类。

10、Google C++ Testing Framework

/src/testing/gtest

Google用于编写C++测试的基于xUnit架构的框架,可用于多种平台上:Linux, Mac OS X, Windows, Windows CE, and Symbian。支持自动测试发现,有一套丰富的Assertions断言,用于可自定义断言,death tests, fatal and non-fatal failures, various options for running the tests, and XML test report generation.

11、bsdiff 与 bspatch

/src/third_party/bsdiff 及 /src/third_party/bspatch

bsdiff 与 bspatch 用于为二进制文件生成补丁。

12、bzip2

/src/third_party/bzip2

bzip2使用Burrows-Wheeler block sorting text compression 算法与Huffman编码压缩文件。

13、International Components for Unicode (ICU)

/src/third_party/icu38

ICU是一套成熟并被广泛使用的C/C++ 及 Java 库,可为软件提供Unicode与全球化支持。

14、libjpeg

/src/third_party/libjpeg

用于处理JPEG (JFIF)图像格式的库。

15、libpng

/src/third_party/libpng

PNG图像格式库。支持绝大部分的PNG特性,可扩展。已经被广泛地使用了13年以上了。

16、libxml

/src/third_party/libxml

C语言的XML解析库。

17、libxslt

/src/third_party/libxslt

C语言的XSLT库。

18、LZMA

/src/third_party/lzma_sdk

LZMA为7-Zip软件中7z格式压缩所使用的压缩算法,有很好的压缩效果。

19、stringencoders

/src/third_party/modp_b64

一系列高性能的c-string转换函数,比如:base 64 encoding/decoding。通常比其标准实现快两倍以上。

20、Netscape Plugin Application Programming Interface (NPAPI)

/src/third_party/npapi

多种浏览器使用的跨平台插件架构。

21、Pthreads-w32

/src/third_party/pthread

用于编写多线程程序的API

22、SCons - a software construction tool

/src/third_party/scons

开源的软件构建工具——下一代的编译工具。可以认为SCons是改进过的跨平台配上autoconf/automake与ccache的Make工具的子系统。

23、sqlite

/src/third_party/sqlite

大名鼎鼎的嵌入式数据库引擎。自管理、零配置、无需服务器、支持事务。

24、TLS Lite

/src/third_party/tlslite

SSL 3.0, TLS 1.0, and TLS 1.1的Python免费实现库。TLS Lite支持这些安全验证方式:SRP, shared keys, and cryptoIDs in addition to X.509 certificates。注:Chrome并不包涵Python。TLS Lite用于Chrome开发过程中的代码覆盖、依赖检查、网页加载时间测试及生成html结果比较等。

25、zlib

/src/third_party/zlib

zlib为一套用于任意平台与机器的无损数据压缩的库,它免费、自由、无任何法律专利问题。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/7305534.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-04
下一篇 2023-04-04

发表评论

登录后才能评论

评论列表(0条)

保存