解析HTML以使用C#获取内容_html-js-css

概述我正在编写一个抓取一组网页的应用程序.而不是采取页面的整个源代码,我想采取所有内容并存储,并能够将页面作为纯文本存储在数据库中.内容将在其他应用程序中使用,而不是由用户阅读,因此不需要它完全是人类可读的. 起初,我正在考虑使用正则表达式,但我无法控制网页的有效性,并且很有可能没有正则表达式会给我内容. 如果我在字符串中有源代码,我怎样才能将该源代码串转换为C#中的内容？它不是100％清楚你想要什我正在编写一个抓取一组网页的应用程序.而不是采取页面的整个源代码,我想采取所有内容并存储,并能够将页面作为纯文本存储在数据库中.内容将在其他应用程序中使用,而不是由用户阅读,因此不需要它完全是人类可读的.

起初,我正在考虑使用正则表达式,但我无法控制网页的有效性,并且很有可能没有正则表达式会给我内容.

如果我在字符串中有源代码,我怎样才能将该源代码串转换为C#中的内容？

解决方法它不是100％清楚你想要什么,但我假设你想要文本减去标记;所以：

string HTML;// obtain some arbitrary HTML....using (var clIEnt = new WebClIEnt()) {    HTML = clIEnt.DownloadString("https://stackoverflow.com/questions/2038104");}// use the HTML agility pack: http://www.codeplex.com/HTMLagilitypackHTMLdocument doc = new HTMLdocument();doc.LoadHTML(HTML);StringBuilder sb = new StringBuilder();foreach (HTMLTextNode node in doc.documentNode.SelectNodes("//text()")) {    sb.Appendline(node.Text);}string final = sb.ToString();

总结

以上是内存溢出为你收集整理的解析HTML以使用C#获取内容全部内容，希望文章能够帮你解决解析HTML以使用C#获取内容所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/web/1131857.html

解析HTML以使用C#获取内容

发表评论

评论列表（0条）