解析HTML以使用C#获取内容

解析HTML以使用C#获取内容,第1张

概述我正在编写一个抓取一组网页的应用程序.而不是采取页面的整个源代码,我想采取所有内容并存储,并能够将页面作为纯文本存储在数据库中.内容将在其他应用程序中使用,而不是由用户阅读,因此不需要它完全是人类可读的. 起初,我正在考虑使用正则表达式,但我无法控制网页的有效性,并且很有可能没有正则表达式会给我内容. 如果我在字符串中有源代码,我怎样才能将该源代码串转换为C#中的内容? 它不是100%清楚你想要什 我正在编写一个抓取一组网页的应用程序.而不是采取页面的整个源代码,我想采取所有内容并存储,并能够将页面作为纯文本存储在数据库中.内容将在其他应用程序中使用,而不是由用户阅读,因此不需要它完全是人类可读的.

起初,我正在考虑使用正则表达式,但我无法控制网页的有效性,并且很有可能没有正则表达式会给我内容.

如果我在字符串中有源代码,我怎样才能将该源代码串转换为C#中的内容?

解决方法 它不是100%清楚你想要什么,但我假设你想要文本减去标记;所以:
string HTML;// obtain some arbitrary HTML....using (var clIEnt = new WebClIEnt()) {    HTML = clIEnt.DownloadString("https://stackoverflow.com/questions/2038104");}// use the HTML agility pack: http://www.codeplex.com/HTMLagilitypackHTMLdocument doc = new HTMLdocument();doc.LoadHTML(HTML);StringBuilder sb = new StringBuilder();foreach (HTMLTextNode node in doc.documentNode.SelectNodes("//text()")) {    sb.Appendline(node.Text);}string final = sb.ToString();
总结

以上是内存溢出为你收集整理的解析HTML以使用C#获取内容全部内容,希望文章能够帮你解决解析HTML以使用C#获取内容所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/web/1131857.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-30
下一篇 2022-05-30

发表评论

登录后才能评论

评论列表(0条)

保存