正则表达式匹配html标签，获取标签内容_随笔

假设我们要获取下面html标签中的内容：

第一段是获取 <p></p>标签内部的数据，第二个是获取 <p><span></span></p>标签中的数据，其中span标签中有style属性值。

使用过正则表达式的同学肯定知道，上面两种情况其实都是一种情况，我们要获取的是尖括号括起来的一对标签中间的数据，起始标签形如<x>，结束标签形如</x>，这里的x表示的html标签。

此外，我们还需要考虑起始标签中包含style的数据，另外特殊的 <br/>标签，对实际获取数据无意义，也需要过滤掉。

通过上面的分析，我们可以如下正则表达式：

在使用正则表达式处理之前，我们先对数据进行预处理，比如style和

标签：

针对多个标签嵌套的情况进行处理，比如 <p><span style="white-space: normal">王者荣耀</span></p>，在经过预处理和正则匹配的后结果是 <span>王者荣耀，需要手工移除掉前面的起始标签，对应的方法如下：

测试方法如下：

output:

(?<=>)[^<>]+(?=<)

假如html标签里面有一句：

String a = "<style type=\"text/css\">div \n" +

"{ margin: 0padding: 0outline: 0}</style>"

我如何把这一句取出来呢，包括标签。

用正则表达式：<style([\\s\\S]*)</style>

扩展资料：

正则表达式匹配HTML标签

方法一：

var str = '<p class="odd" id="odd">123</p>'

var pattern = /<\/?[a-zA-Z]+(\s+[a-zA-Z]+=".*")*>/g

console.log(str.match(pattern))

方法二：

var str = '<p class="odd" id="odd">123</p>'

var pattern = /<[^>]+>/g

console.log(str.match(pattern))

方法三：

var str = '<input type="text" value=">" name="username" />'

var pattern = /<(?:[^"'>]|"[^"]*"|'[^']*')*>/g

console.log(str.match(pattern))

说明：()表示捕获分组，()会把每个分组里的匹配的值保存起来，使用$n(n是一个数字，表示第n个捕获组的内容)

(?:)表示非捕获分组，和捕获分组唯一的区别在于，非捕获分组匹配的值不会保存起来

没有引用的需求的话，采用非捕获性分组，更为简洁；

方法四：

var str = '<input type="text" value=">" name="username" />'

var pattern = /<(?:[^"'>]|(["'])[^"']*\1)*>/g

console.log(str.match(pattern))

</script>

欢迎分享，转载请注明来源：内存溢出

正则表达式匹配html标签，获取标签内容