php实现网络爬虫

php实现网络爬虫,第1张

只要包含网络和字符串处理功能的编程语言理论上都可以写爬虫,所以PHP当然完全没问题。如何用PHP写爬虫的前提是你要先调研清楚爬什么内容。这需要你针对要爬取目标做好充分的测试和准备工作,否则会浪费很多时间。

比如一个简单的“传统型”网站,那真的只需要用file_get_contents函数加正则就能搞定。觉的正则匹配数据太麻烦可以上xpath。如果站点有了频率和IP限制,这时就要额外准备好代理IP池了。当发现抓取内容是JS渲染的,可能要考虑引入headlessbrowser这种技术的PHP扩展了。对爬取效率有了要求后,多线程,抓取和解析分离,分布式也是要考虑的了。。。

回到问题本身如何写的问题,我个人觉得爬虫是个定制化比较高的业务需求,需要根据具体的场景来规划。如果是要写一个能解决所有爬虫场景的,那就不用自己写了,成熟的开源软件拿来直接用就行了。非要写的话可以直接参考这些成熟的软件,自己可以少踩很多坑。

本文承接上面两篇,本篇中的示例要调用到前两篇中的函数,做一个简单的URL采集。一般php采集网络数据会用file_get_contents、file和cURL。不过据说cURL会比file_get_contents、file更快更专业,更适合采集。今天就试试用cURL来获取网页上的所有链接。示例如下:

<?php

/*

* 使用curl 采集hao123.com下的所有链接。

*/

include_once('function.php')

$ch = curl_init()

curl_setopt($ch, CURLOPT_URL, 'http://www.hao123.com/')

// 只需返回HTTP header

curl_setopt($ch, CURLOPT_HEADER, 1)

// 页面内容我们并不需要

// curl_setopt($ch, CURLOPT_NOBODY, 1)

// 返回结果,而不是输出它

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1)

$html = curl_exec($ch)

$info = curl_getinfo($ch)

if ($html === false) {

echo "cURL Error: " . curl_error($ch)

}

curl_close($ch)

$linkarr = _striplinks($html)

// 主机部分,补全用

$host = 'http://www.hao123.com/'

if (is_array($linkarr)) {

foreach ($linkarr as $k =>$v) {

$linkresult[$k] = _expandlinks($v, $host)

}

}

printf("<p>此页面的所有链接为:</p><pre>%s</pre>n", var_export($linkresult , true))

?>

function.php内容如下(即为上两篇中两个函数的合集):

<?php

function _striplinks($document) {

preg_match_all("'<s*as.*?hrefs*=s*(["'])?(?(1) (.*?)\1 | ([^s>]+))'isx", $document, $links)

// catenate the non-empty matches from the conditional subpattern

while (list($key, $val) = each($links[2])) {

if (!empty($val))

$match[] = $val

} while (list($key, $val) = each($links[3])) {

if (!empty($val))

$match[] = $val

}

// return the links

return $match

}

/*===================================================================*

Function: _expandlinks

Purpose: expand each link into a fully qualified URL

Input: $links the links to qualify

$URI the full URI to get the base from

Output: $expandedLinks the expanded links

*===================================================================*/

function _expandlinks($links,$URI)

{

$URI_PARTS = parse_url($URI)

$host = $URI_PARTS["host"]

preg_match("/^[^?]+/",$URI,$match)

$match = preg_replace("|/[^/.]+.[^/.]+$|","",$match[0])

$match = preg_replace("|/$|","",$match)

$match_part = parse_url($match)

$match_root =

$match_part["scheme"]."://".$match_part["host"]

$search = array( "|^http://".preg_quote($host)."|i",

"|^(/)|i",

"|^(?!http://)(?!mailto:)|i",

"|/./|",

"|/[^/]+/../|"

)

$replace = array( "",

$match_root."/",

$match."/",

"/",

"/"

)

$expandedLinks = preg_replace($search,$replace,$links)

return $expandedLinks

}

?>


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11434958.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-16
下一篇 2023-05-16

发表评论

登录后才能评论

评论列表(0条)

保存