我有一个页面a.html,把它里面的内容读取到b.text中,我如何过滤掉<html><html>和<body><body>呢?

我有一个页面a.html,把它里面的内容读取到b.text中,我如何过滤掉<html><html>和<body><body>呢?,第1张

具体的 *** 作流程:

先定义一个字符串String,将循环读取的页面信息存入这个值中,并对这个字符串进行处理,

使用indexOf("<body>") 和lastIndexOf("</body>"),获取这两个标识出现的索引号,然后使用方法subString(begin, end)

你可以检测一下,头请求里面是否包含浏览器信息,就是所谓的UA

这个可以过滤掉很多php的访问

file_get_contents 应该可以全部过滤

curl函数访问能过滤一部分,因为php-curl访问是可以伪造UA的


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/7525200.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-06
下一篇 2023-04-06

发表评论

登录后才能评论

评论列表(0条)

保存