PHP处理解析HTML字符串的几种方法_随笔

1.strip_tags() 函数：可以过滤掉HTML和PHP标签，返回一个全新的字符串!

用法：

string strip_tags ( string 要处理的字符串 [, string 想保留的标签] )

比如：标签，就这样写，strip_tags($str, “”) ，如果要保留多个标签，则标签之间用空格隔开。

2.用 strpos , substr 混合处理

当我们要截取的字符串，有唯一的标识时，通常可以用这个办法，比如取一个带唯一id的标签abc,只要找到和,中间的内容就都出来了。

3.PHP DOMDocument

DOMDocument 提供的方法是输出没有任何标签的纯文本，如果你只需要文本数据，那用这个方法最简单拉

专业性论述，以下内容引用网络，请参考：

概述

为HTML文档尽早指定字符编码，可以让浏览器立刻开始执行脚本。

细节

HTML文档是作为带有字符编码信息的字节流序列在互联网中传送的。字符编码信息可以在随文档发送的HTTP响应头信息中指定，也可以在文档的 HTML标签中指定。浏览器根据字符编码信息将字节流转换为显示在浏览器上的字符。如果不知道如何构造一个页面的字符，浏览器自然也不能正确地渲染页面。绝大部分浏览器在开始执行任何JavaScript代码或者绘制页面之前都要缓冲一定数量的字节流，缓冲的同时它们也要查找相关的字符编码设定（一个值得注意的例外是IE6/7/8）。

不同浏览器需要缓冲的字节流数量不同，另外如果找不到编码设定，各浏览器默认的编码也不同。但是不管哪一种浏览器，如果在已经缓冲了足够的字节流、开始渲染页面之后才发现指定的编码设定与其默认值不同，都会导致重新解析文档并重绘页面。如果编码的变化影响到了外部资源（例如css\js\media），浏览器甚至会重新对资源进行请求。

为了避免这些延迟，对任何超过1k（精确地说是1024字节，这是我们测试过的所有浏览器的最大缓冲限制）的HTML文档，要尽早指定字符编码。

建议

通过HTTP头信息或meta标签指定编码

为HTML文档指定编码设定有几种方式：

服务器端：通过web服务器的配置来指定编码参数，为所有text/html类型的文档指定带有正确编码信息的Content-Type头信息。例如Content-Type: text/htmlcharset=UTF-8

客户端：在HTML代码中包含http-equiv="content-type"的meta标签，并指定字符编码。例如。

如果可能的话，为你的web服务器做指定字符编码的HTTP头信息配置。某些浏览器（例如Firefox）在执行JavaScript之前会用（比其它浏览器）更短的延迟缓冲来检查头信息中是否指定字符编码。这意味着它们可以跳过对HTML标签的检查，缩短缓冲的字节数和延迟时间。

把meta标签放在head区域的最前面

如果你不能对web服务器配置进行修改，又需要通过meta标签指定编码，要确保你用于指定编码的meta标签是文档中head标签的第一个子元素。浏览器会在文档的前1024字节中寻找字符编码参数，因此为了避免性能损耗，编码参数在文档头部越早出现越好（译注：在IE6以下的版本中，特定情况下，如果该meta标签不是head的第一个子元素，则会被忽略。具体触发情况尚未进行仔细测试，初步估计是与web服务器配置的默认编码或浏览器默认编码有关）。

始终指定文档类型

在浏览器开始检查字符编码设定前，它们必须先检测将被处理的文档是什么类型。如果没有在头信息或meta标签中指定文档类型（content-type），浏览器就会通过很复杂的算法去“嗅探”文档的类型。这个过程会造成额外的延迟，而且还会带来安全漏洞。

务必指定正确的字符编码

你在HTTP头信息或meta标签中指定的字符编码设置一定要和编辑HTML文档时的实际字符编码一致，这非常重要。另外，如果同时通过HTTP头信息和Meta标签两种方式指定了字符编码，它们一定要保持一致。否则浏览器发现两者相互矛盾，会造成页面渲染错误或者为了重绘页面而造成额外的延迟。有关这一点，你可以阅读HTML 4.01规范（英文）中的5.2节：字符编码（英文）。

parser=new DOMParser()htmlDoc=parser.parseFromString(txt, "text/html")//Do whatever you want with htmlDoc.getElementsByTagName('a')

根据MDN，要在Chrome中这样做，如下所示：

parser=new DOMParser()htmlDoc=parser.parseFromString(txt, "text/xml")//Do whatever you want with htmlDoc.getElementsByTagName('a')

Webkit目前不支持它，而且在大多数情况下，在移动浏览器上工作是未知的。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/7053599.html

PHP处理解析HTML字符串的几种方法

发表评论

评论列表（0条）