正则提取div数据主要是使用PHP的file_get_content()函数。
具体示例:
HTML代码:
<div class="chartInfo"><div class="line"></div>
<div class="tideTable">
<strong>潮汐表</strong>数据仅供参考
<table width="500" border="0" cellspacing="0" cellpadding="0">
<tbody><tr>
<td width="100"><p><span>潮时 (Hrs)</span></p></td>
<td width="100"><p>00:58</p></td>
<td width="100"><p>05:20</p></td>
<td width="100"><p>13:28</p></td>
<td width="100"><p>21:15</p></td>
</tr>
<tr>
<td><p><span>潮高 (cm)</span></p></td>
<td width="100"><p>161</p></td>
<td width="100"><p>75</p></td>
<td width="100"><p>288</p></td>
<td width="100"><p>127</p></td>
</tr>
</tbody></table>
<h2>时区:-1000 (东10区) 潮高基准面:在平均海平面下174CM</h2>
</div>
<div class="chart">
</div>
</div>
首页先用file_get_content或curl获取内容部分
PHP的正则处理程序:
<?php$ch = curl_init()
curl_setopt($ch, CURLOPT_URL, $url)
curl_setopt($ch, CURLOPT_POST, 1)
curl_setopt( $ch, CURLOPT_HEADER, 0 )
curl_setopt( $ch, CURLOPT_RETURNTRANSFER, 1 )
curl_setopt( $ch, CURLOPT_POSTFIELDS, $data )
$return = curl_exec( $ch )
curl_close( $ch )
$regex4="/<div class=\"tideTable\".*?>.*?<\/div>/ism"
if(preg_match_all($regex4, $return, $matches)){
print_r($matches)
}else{
echo '0'
}
?>
最近在项目中在需要输出浏览器中的源文件需要去掉html中的注释,在网上看了很多的方案,不过很多的答案都是一样的,并不能解决我的问题,于是就自己写正则表达式,也对正则有了更加深刻的理解。首先比较基础的是:
$a
=
'<!--ceshi-->ceshi'
$a
=
preg_replace('#<!--.*-->#'
,
''
,
$a)
var_dump($a)
上面的代码会输出ceshi。
但是如果是下面的字符串的话,就不能达到我们希望的效果了
$a
=
'<!--ceshi-->ceshi<!--ceshi-->'
$a
=
preg_replace('#<!--.*-->#'
,
''
,
$a)
var_dump($a)
于是我们就把匹配规则改成如下的格式
preg_replace('#<!--.*?-->#'
,
''
,
$a)
但是在html中如果有<!--[if
lt
IE
9]>ceshi<![endif]-->这样的代码的话是不能去掉的,所以我们需要改进匹配规则,改成以下的格式
preg_replace('#<!--[^\!\[]*?-->#'
,
''
,
$a)
又接着如果html中有<script><!--ceshi//--></script>的代码,我们又需要改一下我们的匹配规则了,改成了以下格式
preg_replace('#<!--[^\!\[]*?(?<!\/\/)-->#'
,
''
,
$a)
这样的话我基本上就去掉了我需要去掉的html的注释了!
以上就是小编为大家带来的php使用正则表达式去掉html中的注释方法全部内容了,希望大家多多支持脚本之家~
这个问题类似求括号配对. 用正则方法可能不行. 可以这样:1) 字符串分析法求解: 建立一个计数器, 同时从前向后扫描 html 内容, 从要选择的段落开头开始, 每次读到一个 <td ..> 标签, 计数器加一, 每次读到一个 </td> 标签, 计数器减一, 如果 没有意外, 当计数器减为零时, 就找到了配对的 td 结束标签.
2) 用 XmlDocument 读取整段 html, 然后利用 DOM 的一系列方法选择出你要的内容.
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)