PHP html正则提取div数据

PHP html正则提取div数据,第1张

正则提取div数据主要是使用PHP的file_get_content()函数。

具体示例:

HTML代码:

<div class="chartInfo">  

 <div class="line"></div>

 <div class="tideTable">  

     <strong>潮汐表</strong>数据仅供参考

     <table width="500" border="0" cellspacing="0" cellpadding="0"> 

       <tbody><tr>  

  <td width="100"><p><span>潮时 (Hrs)</span></p></td>  

     <td width="100"><p>00:58</p></td>

     <td width="100"><p>05:20</p></td>

     <td width="100"><p>13:28</p></td>

     <td width="100"><p>21:15</p></td>

          </tr>  

       <tr>  

  <td><p><span>潮高 (cm)</span></p></td>  

     <td width="100"><p>161</p></td>  

     <td width="100"><p>75</p></td>  

     <td width="100"><p>288</p></td>  

     <td width="100"><p>127</p></td>  

          </tr>  

     </tbody></table>  

    <h2>时区:-1000 (东10区)  潮高基准面:在平均海平面下174CM</h2>  

       </div>  

 <div class="chart">  

 </div>  

</div>

首页先用file_get_content或curl获取内容部分

PHP的正则处理程序:

<?php

$ch = curl_init()  

curl_setopt($ch, CURLOPT_URL, $url)  

curl_setopt($ch, CURLOPT_POST, 1)  

curl_setopt( $ch, CURLOPT_HEADER, 0 )  

curl_setopt( $ch, CURLOPT_RETURNTRANSFER, 1 )  

curl_setopt( $ch, CURLOPT_POSTFIELDS, $data )  

$return = curl_exec( $ch )  

curl_close( $ch )  

 

$regex4="/<div class=\"tideTable\".*?>.*?<\/div>/ism"  

if(preg_match_all($regex4, $return, $matches)){  

   print_r($matches)  

}else{  

   echo '0'  

}

?>

最近在项目中在需要输出浏览器中的源文件需要去掉html中的注释,在网上看了很多的方案,不过很多的答案都是一样的,并不能解决我的问题,于是就自己写正则表达式,也对正则有了更加深刻的理解。

首先比较基础的是:

$a

=

'<!--ceshi-->ceshi'

$a

=

preg_replace('#<!--.*-->#'

,

''

,

$a)

var_dump($a)

上面的代码会输出ceshi。

但是如果是下面的字符串的话,就不能达到我们希望的效果了

$a

=

'<!--ceshi-->ceshi<!--ceshi-->'

$a

=

preg_replace('#<!--.*-->#'

,

''

,

$a)

var_dump($a)

于是我们就把匹配规则改成如下的格式

preg_replace('#<!--.*?-->#'

,

''

,

$a)

但是在html中如果有<!--[if

lt

IE

9]>ceshi<![endif]-->这样的代码的话是不能去掉的,所以我们需要改进匹配规则,改成以下的格式

preg_replace('#<!--[^\!\[]*?-->#'

,

''

,

$a)

又接着如果html中有<script><!--ceshi//--></script>的代码,我们又需要改一下我们的匹配规则了,改成了以下格式

preg_replace('#<!--[^\!\[]*?(?<!\/\/)-->#'

,

''

,

$a)

这样的话我基本上就去掉了我需要去掉的html的注释了!

以上就是小编为大家带来的php使用正则表达式去掉html中的注释方法全部内容了,希望大家多多支持脚本之家~

这个问题类似求括号配对. 用正则方法可能不行. 可以这样:

1) 字符串分析法求解: 建立一个计数器, 同时从前向后扫描 html 内容, 从要选择的段落开头开始, 每次读到一个 <td ..> 标签, 计数器加一, 每次读到一个 </td> 标签, 计数器减一, 如果 没有意外, 当计数器减为零时, 就找到了配对的 td 结束标签.

2) 用 XmlDocument 读取整段 html, 然后利用 DOM 的一系列方法选择出你要的内容.


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/6100516.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-14
下一篇 2023-03-14

发表评论

登录后才能评论

评论列表(0条)

保存