如何读curl返回的html linux

如何读curl返回的html linux,第1张

1

2

3

4

5

6

7

8

9

10

指定返回json格式,我们只需要添加头信息即可:

$header = array(

'Accept: application/json, text/javascript, */*q=0.01'

)

curl_setopt($ch, CURLOPT_HTTPHEADER, $header)

指定返回json格式,我们只需要添加头信息即可:

$header = array(

'Accept: application/json, text/javascript, */* q=0.01'

)

curl_setopt($ch, CURLOPT_HTTPHEADER, $header)

请参考我的博客《PHP cURL实现模拟登录与采集使用方法详解》

http://www.zjmainstay.cn/php-curl

里面的“十一、发送与获取json数据”专门讲解json相关内容。

本文承接上面两篇,本篇中的示例要调用到前两篇中的函数,做一个简单的URL采集。一般php采集网络数据会用file_get_contents、file和cURL。不过据说cURL会比file_get_contents、file更快更专业,更适合采集。今天就试试用cURL来获取网页上的所有链接。示例如下:

<?php

/*

* 使用curl 采集hao123.com下的所有链接。

*/

include_once('function.php')

$ch = curl_init()

curl_setopt($ch, CURLOPT_URL, 'http://www.hao123.com/')

// 只需返回HTTP header

curl_setopt($ch, CURLOPT_HEADER, 1)

// 页面内容我们并不需要

// curl_setopt($ch, CURLOPT_NOBODY, 1)

// 返回结果,而不是输出它

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1)

$html = curl_exec($ch)

$info = curl_getinfo($ch)

if ($html === false) {

echo "cURL Error: " . curl_error($ch)

}

curl_close($ch)

$linkarr = _striplinks($html)

// 主机部分,补全用

$host = 'http://www.hao123.com/'

if (is_array($linkarr)) {

foreach ($linkarr as $k =>$v) {

$linkresult[$k] = _expandlinks($v, $host)

}

}

printf("<p>此页面的所有链接为:</p><pre>%s</pre>n", var_export($linkresult , true))

?>

function.php内容如下(即为上两篇中两个函数的合集):

<?php

function _striplinks($document) {

preg_match_all("'<s*as.*?hrefs*=s*(["'])?(?(1) (.*?)\1 | ([^s>]+))'isx", $document, $links)

// catenate the non-empty matches from the conditional subpattern

while (list($key, $val) = each($links[2])) {

if (!empty($val))

$match[] = $val

} while (list($key, $val) = each($links[3])) {

if (!empty($val))

$match[] = $val

}

// return the links

return $match

}

/*===================================================================*

Function: _expandlinks

Purpose: expand each link into a fully qualified URL

Input: $links the links to qualify

$URI the full URI to get the base from

Output: $expandedLinks the expanded links

*===================================================================*/

function _expandlinks($links,$URI)

{

$URI_PARTS = parse_url($URI)

$host = $URI_PARTS["host"]

preg_match("/^[^?]+/",$URI,$match)

$match = preg_replace("|/[^/.]+.[^/.]+$|","",$match[0])

$match = preg_replace("|/$|","",$match)

$match_part = parse_url($match)

$match_root =

$match_part["scheme"]."://".$match_part["host"]

$search = array( "|^http://".preg_quote($host)."|i",

"|^(/)|i",

"|^(?!http://)(?!mailto:)|i",

"|/./|",

"|/[^/]+/../|"

)

$replace = array( "",

$match_root."/",

$match."/",

"/",

"/"

)

$expandedLinks = preg_replace($search,$replace,$links)

return $expandedLinks

}

?>


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/7195194.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-02
下一篇 2023-04-02

发表评论

登录后才能评论

评论列表(0条)

保存