概述摘要在开发过程中,很有可能会遇到这样的情况,服务端返回的是html的内容,但需要在客户端显示纯文本内容,这时候就需要
解析这些html,拿到里面的纯文本。达到这样的目的可以有很多途径,比如自己写正则表达式,但对于没有什么规则的内容,就有点力不从心了。Html Agility Pack开源组件,可以通过xPath的方式快速的解析html内容。一个例子组件网址:http://htmlagilitypack.codeplex.com/ ,你可以通过Nuget进行安装。比如我们这里解析博客园首页文章列表,查看博客园首页列表html,如图所示:抓取所有文章的名称using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threading.Tasks;using HtmlAgilityPack;namespace HtmlAgilityPackDemo{class Program{static void Main(string[] args){//初始化网络请求客户端HtmlWeb webClient = new HtmlWeb();//初始化文档HtmlDocument doc = webClient.Load("http://www.cnblogs.com/");//查找节点HtmlNodeCollection titleNodes = doc.DocumentNode.SelectNodes("//a[@class='titlelnk']");if (titleNodes != null){foreach (var item in titleNodes){Console.WriteLine(item.InnerText);}}Console.Read();}}}输出记得之前自己写过一个小工具,当时还是自己写的正则来匹配的,和这个组件相比确实很麻烦。在上面的代码中,有[@class='xxx']的设置,它是根据html标签的属性查找node,当然你也可以进行其它的设置,如根据id查找,你可以这样写h3[@id='xxxx']。获取节点的内容,可以通过下面的方式获取node.InnerTextnode.InnerHtmlnode.OuterHtml 摘要
在开发过程中,很有可能会遇到这样的情况,服务端返回的是HTML的内容,但需要在客户端显示纯文本内容,这时候就需要解析这些HTML,拿到里面的纯文本。达到这样的目的可以有很多途径,比如自己写正则表达式,但对于没有什么规则的内容,就有点力不从心了。HTML Agility Pack开源组件,可以通过xPath的方式快速的解析HTML内容。
一个例子
组件网址:href="http://HTMLagilitypack.codeplex.com/" target="_blank">http://HTMLagilitypack.codeplex.com/ ,你可以通过Nuget进行安装。
比如我们这里解析博客园首页文章列表,查看博客园首页列表HTML,如图所示:
抓取所有文章的名称
Main( HTMLWeb webClIEnt = HTMLdocument doc = webClIEnt.Load( HTMLNodeCollection TitleNodes = doc.documentNode.SelectNodes( (TitleNodes != ( item }}
}
输出
记得之前自己写过一个小工具,当时还是自己写的正则来匹配的,和这个组件相比确实很麻烦。
在上面的代码中,有[@class='xxx']的设置,它是根据HTML标签的属性查找node,当然你也可以进行其它的设置,如根据ID查找,你可以这样写h3[@ID='xxxx']。
获取节点的内容,可以通过下面的方式获取
总结 以上是内存溢出为你收集整理的[c#] Html Agility Pack 解析HTML全部内容,希望文章能够帮你解决[c#] Html Agility Pack 解析HTML所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
评论列表(0条)