c# – 如何从谐音化的HTML提取文本?

c# – 如何从谐音化的HTML提取文本?,第1张

概述我的问题是像 this question,但我有更多的限制: >我知道文件是合理的 他们非常规律(他们都来自同一个来源 >我想要约99%的可见文本 >大约99%的可行性是文本(他们或多或少的RTF转换为HTML) >我不在乎格式化甚至段落. 有没有任何工具设置这样做,或者我最好只是打破RegexBuddy和C#? 我可以使用命令行或批处理工具以及C/C++#/ D库. 你需要使用 HTML Agi 我的问题是像 this question,但我有更多的限制:

>我知道文件是合理的
他们非常规律(他们都来自同一个来源
>我想要约99%的可见文本
>大约99%的可行性是文本(他们或多或少的RTF转换为HTML)
>我不在乎格式化甚至段落.

有没有任何工具设置这样做,或者我最好只是打破RegexBuddy和C#?

我可以使用命令行或批处理工具以及C/C++#/ D库.

解决方法 你需要使用 HTML Agility Pack.

你可能想要使用liNQ ant的后代调用找到一个元素,然后得到它的InnerText.

总结

以上是内存溢出为你收集整理的c# – 如何从谐音化的HTML提取文本?全部内容,希望文章能够帮你解决c# – 如何从谐音化的HTML提取文本?所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1259577.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-07
下一篇 2022-06-07

发表评论

登录后才能评论

评论列表(0条)

保存