header('content-type:text/html; charset=utf-8');
$str = '<li><a href="/news1397/" title="1827年3月5日 意大利物理学家伏打逝世">1827年3月5日 意大利物理学家伏打逝世</a> </li>
<li><a href="/news1398/" title="1871年3月5日 波兰女革命家卢森堡诞辰">1871年3月5日 波兰女革命家卢森堡诞辰</a> </li>
<li><a href="/news1399/" title="1886年3月5日 董必武诞辰">1886年3月5日 董必武诞辰</a> (图)</li> ';
preg_match_all('/<a>()<\/a>/im', $str, $matches);
var_dump($matches[1]);
中文可以用正则表达式进行匹配,但是具体匹配方法与中文的编码方式有关:
如果是GBK(GB2312、GB1080),那么中文的编码范围是:
\x80-\xff
如果是UTF-8编码,那么中文的编码范围是:
\u4e00-\u9fa5
那么匹配汉字的正则表达式可以是:
/[\x7f-\xff]+/
或者
/[\u4e00-\u9fa5]+/
例子代码,显示文件中的所有汉字(GBK编码):
<php$s=file_get_contents('1txt');
if (preg_match_all('/[\x7f-\xff]+/', $s, $r)){
for ($i=1;$i<count($r[0]);$i++) echo "$i\t"$r[0][$i]"\n";
}
>
<php
$theurl=">
preg_match_all("/<div\sclass=\"abc\">()<\/div>/s", $arr, $jg); //不过你得确保内层不再有div
以上就是关于php正则表达式截取HTML标签中的内容全部的内容,包括:php正则表达式截取HTML标签中的内容、PHP正则提取中文部分内容,怎么实现呀、用PHP正则表达式提取页面内容等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)