只要包含网络和字符串处理功能的编程语言理论上都可以写爬虫,所以PHP当然完全没问题。如何用PHP写爬虫的前提是你要先调研清楚爬什么内容。这需要你针对要爬取目标做好充分的测试和准备工作,否则会浪费很多时间。
比如一个简单的“传统型”网站,那真的只需要用file_get_contents函数加正则就能搞定。觉的正则匹配数据太麻烦可以上xpath。如果站点有了频率和IP限制,这时就要额外准备好代理IP池了。当发现抓取内容是JS渲染的,可能要考虑引入headlessbrowser这种技术的PHP扩展了。对爬取效率有了要求后,多线程,抓取和解析分离,分布式也是要考虑的了。。。
回到问题本身如何写的问题,我个人觉得爬虫是个定制化比较高的业务需求,需要根据具体的场景来规划。如果是要写一个能解决所有爬虫场景的,那就不用自己写了,成熟的开源软件拿来直接用就行了。非要写的话可以直接参考这些成熟的软件,自己可以少踩很多坑。
本文承接上面两篇,本篇中的示例要调用到前两篇中的函数,做一个简单的URL采集。一般php采集网络数据会用file_get_contents、file和cURL。不过据说cURL会比file_get_contents、file更快更专业,更适合采集。今天就试试用cURL来获取网页上的所有链接。示例如下:<?php
/*
* 使用curl 采集hao123.com下的所有链接。
*/
include_once('function.php')
$ch = curl_init()
curl_setopt($ch, CURLOPT_URL, 'http://www.hao123.com/')
// 只需返回HTTP header
curl_setopt($ch, CURLOPT_HEADER, 1)
// 页面内容我们并不需要
// curl_setopt($ch, CURLOPT_NOBODY, 1)
// 返回结果,而不是输出它
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1)
$html = curl_exec($ch)
$info = curl_getinfo($ch)
if ($html === false) {
echo "cURL Error: " . curl_error($ch)
}
curl_close($ch)
$linkarr = _striplinks($html)
// 主机部分,补全用
$host = 'http://www.hao123.com/'
if (is_array($linkarr)) {
foreach ($linkarr as $k =>$v) {
$linkresult[$k] = _expandlinks($v, $host)
}
}
printf("<p>此页面的所有链接为:</p><pre>%s</pre>n", var_export($linkresult , true))
?>
function.php内容如下(即为上两篇中两个函数的合集):
<?php
function _striplinks($document) {
preg_match_all("'<s*as.*?hrefs*=s*(["'])?(?(1) (.*?)\1 | ([^s>]+))'isx", $document, $links)
// catenate the non-empty matches from the conditional subpattern
while (list($key, $val) = each($links[2])) {
if (!empty($val))
$match[] = $val
} while (list($key, $val) = each($links[3])) {
if (!empty($val))
$match[] = $val
}
// return the links
return $match
}
/*===================================================================*
Function: _expandlinks
Purpose: expand each link into a fully qualified URL
Input: $links the links to qualify
$URI the full URI to get the base from
Output: $expandedLinks the expanded links
*===================================================================*/
function _expandlinks($links,$URI)
{
$URI_PARTS = parse_url($URI)
$host = $URI_PARTS["host"]
preg_match("/^[^?]+/",$URI,$match)
$match = preg_replace("|/[^/.]+.[^/.]+$|","",$match[0])
$match = preg_replace("|/$|","",$match)
$match_part = parse_url($match)
$match_root =
$match_part["scheme"]."://".$match_part["host"]
$search = array( "|^http://".preg_quote($host)."|i",
"|^(/)|i",
"|^(?!http://)(?!mailto:)|i",
"|/./|",
"|/[^/]+/../|"
)
$replace = array( "",
$match_root."/",
$match."/",
"/",
"/"
)
$expandedLinks = preg_replace($search,$replace,$links)
return $expandedLinks
}
?>
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)