// 创建一个html对象,这个抓的是谷歌的首页
$html = file_get_html('http://www.google.com/')
//找到对象中所有的img的src
foreach($html->find('img') as $element)
echo $element->src . '<br>'
//找到对象中所有的a的href
foreach($html->find('a') as $element)
echo $element->href . '<br>'
就是以前你采集的时候,先file_get_contents把目标url的页面源码抓过来,假如要页面里的a标签的href,你要用正则分析。现在有了这个simple_html_dom。直接可以帮你分析出你需要的a标签里的href。
//查找html文档中的超链接元素$a = $html->find('a')
//查找文档中第(N)个超链接,如果没有找到则返回空数组.
$a = $html->find('a', 0)
// 查找id为main的div元素
$main = $html->find('div[id=main]',0)
// 查找所有包含有id属性的div元素
$divs = $html->find('div[id]')
// 查找所有包含有id属性的元素
$divs = $html->find('[id]')
在创建dom对象的时候..有个语言编码的...和你文件的文本编码保持一致就不会乱码了iconv其实是一个PHP得外部库提供的..如果发现不能使用..可以用mb_convert_encoding
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)