[c#] Html Agility Pack 解析HTML

[c#] Html Agility Pack 解析HTML,第1张

概述摘要在开发过程中,很有可能会遇到这样的情况,服务端返回的是html的内容,但需要在客户端显示纯文本内容,这时候就需要解析这些html,拿到里面的纯文本。达到这样的目的可以有很多途径,比如自己写正则表达式,但对于没有什么规则的内容,就有点力不从心了。Html Agility Pack开源组件,可以通过xPath的方式快速的解析html内容。一个例子组件网址:http://htmlagilitypack.codeplex.com/ ,你可以通过Nuget进行安装。比如我们这里解析博客园首页文章列表,查看博客园首页列表html,如图所示:抓取所有文章的名称using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threading.Tasks;using HtmlAgilityPack;namespace HtmlAgilityPackDemo{class Program{static void Main(string[] args){//初始化网络请求客户端HtmlWeb webClient = new HtmlWeb();//初始化文档HtmlDocument doc = webClient.Load("http://www.cnblogs.com/");//查找节点HtmlNodeCollection titleNodes = doc.DocumentNode.SelectNodes("//a[@class='titlelnk']");if (titleNodes != null){foreach (var item in titleNodes){Console.WriteLine(item.InnerText);}}Console.Read();}}}输出记得之前自己写过一个小工具,当时还是自己写的正则来匹配的,和这个组件相比确实很麻烦。在上面的代码中,有[@class='xxx']的设置,它是根据html标签的属性查找node,当然你也可以进行其它的设置,如根据id查找,你可以这样写h3[@id='xxxx']。获取节点的内容,可以通过下面的方式获取node.InnerTextnode.InnerHtmlnode.OuterHtml 摘要

在开发过程中,很有可能会遇到这样的情况,服务端返回的是HTML的内容,但需要在客户端显示纯文本内容,这时候就需要解析这些HTML,拿到里面的纯文本。达到这样的目的可以有很多途径,比如自己写正则表达式,但对于没有什么规则的内容,就有点力不从心了。HTML Agility Pack开源组件,可以通过xPath的方式快速的解析HTML内容。

一个例子

组件网址:href="http://HTMLagilitypack.codeplex.com/" target="_blank">http://HTMLagilitypack.codeplex.com/ ,你可以通过Nuget进行安装。

比如我们这里解析博客园首页文章列表,查看博客园首页列表HTML,如图所示:

抓取所有文章的名称

Main( HTMLWeb webClIEnt = HTMLdocument doc = webClIEnt.Load( HTMLNodeCollection TitleNodes = doc.documentNode.SelectNodes( (TitleNodes != ( item }}

}

输出

记得之前自己写过一个小工具,当时还是自己写的正则来匹配的,和这个组件相比确实很麻烦。

在上面的代码中,有[@class='xxx']的设置,它是根据HTML标签的属性查找node,当然你也可以进行其它的设置,如根据ID查找,你可以这样写h3[@ID='xxxx']。

获取节点的内容,可以通过下面的方式获取

总结

以上是内存溢出为你收集整理的[c#] Html Agility Pack 解析HTML全部内容,希望文章能够帮你解决[c#] Html Agility Pack 解析HTML所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1263986.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-08
下一篇 2022-06-08

发表评论

登录后才能评论

评论列表(0条)

保存