C# 正则表达式提取html中的文本

电子邮箱地址 • 2023-3-7 • 随笔 • 阅读 40

static void Main(string[] args)

{

String s = @"<Body>

<div>这里是要取出的文本A <img src=""/>这里是要取出的文本B <a href="">超链接里的文本不取出 </a>这里是要取出的文本C </div>

<body>"

Regex regex = new Regex( "(/?\\w+)[^>]*>([^<]*)<", RegexOptions.IgnoreCase )

MatchCollection ms = regex.Matches( s )

foreach( Match m in ms )

{

string tagName = m.Groups[1].Value.ToLower()

string text = m.Groups[2].Value.Trim()

if( tagName != "a" &&text.Length >0 )

Console.WriteLine( text )

}

结果：

这里是要取出的文本A

这里是要取出的文本B

这里是要取出的文本C

你只是声明了正则，未做匹配，假定那个字符串叫str，在你上面代码的下面写

foreach (Match m in No_a.Matches(str2))

Console.WriteLine(m.Groups[1].Value)//每个m.Groups[1].Value就是你要的内容，自己按需要处理

欢迎分享，转载请注明来源：内存溢出

文本你要正则假定字符串

打赏

微信扫一扫

支付宝扫一扫

上一篇 2023-03-07

下一篇 2023-03-07

登录后才能评论