如果爬取对象是提供公开查询服务的网站,如中国政府网、最高人民法院裁判文书网等,是可以抓取的。
公开指的是对大众公开,对所有人公开的信息,并不是特定人群才能看到的信息。
如果爬取对象是各类商业服务网站,这类网站没有设置反爬声明,也没有采取反爬技术措施的,则也是可以爬取的。
给一个例子你看看吧.if($pro_list_contents=@file_get_contents('http://www.phoenix-luxury.com/louis-vuitton-c-82.html'))
{
preg_match_all("/<td width=\"50%\" valign=\"top\">(.*)<td width=\"10\"><img src=\"images\/spacer.gif\"/isU", $pro_list_contents, $pro_list_contents_ary)
for($i=0$i<count($pro_list_contents_ary[1])$i++)
{
preg_match_all("/<a href=\"(.*)\"><img src=\"(.*)\".*<span>(.*)<\/span>/isU", $pro_list_contents_ary[1][$i], $url_img_price)
$url=addslashes($url_img_price[1][0])
$img=str_replace(' ', '20%', trim('http://www.phoenix-luxury.com/'.$url_img_price[2][0]))
$price=(float)str_replace('$', '', $url_img_price[3][0])
preg_match_all("/<a class=\"ml1\" href=\".*\">(.*)<\/a>/isU", $pro_list_contents_ary[1][$i], $proname_ary)
$proname=addslashes($proname_ary[1][0])
include("inc/db_connections.php")
$rs=mysql_query("select * from pro where Url='$url' and CateId='{$cate_row['CateId']}'")//是否已经采集了
if(mysql_num_rows($rs))
{
echo "跳过:{$url}<br>"
continue
}
$basedir='/u_file/pro/img/'.date('H/')
$save_dir=Build_dir($basedir)//创建目录函数
$ext_name = GetFileExtName( $img )//取得图片后辍名
$SaveName = date( 'mdHis' ) . rand( 10000, 99999 ) . '.' . $ext_name
if( $get_file=@file_get_contents( $img ) )
{
$fp = @fopen( $save_dir . $SaveName, 'w' )
@fwrite( $fp, $get_file )
@fclose( $fp )
@chmod( $save_dir . $SaveName, 0777 )
@copy( $save_dir . $SaveName, $save_dir . 'small_'.$SaveName )
$imgpath=$basedir.'small_'.$SaveName
}
else
{
$imgpath=''
}
if($pro_intro_contents=@file_get_contents($url))
{
preg_match_all("/<\/h1>(.*)<\/td><\/tr>/isU", $pro_intro_contents, $pro_intro_contents_ary)
$p_contents=addslashes(str_replace('src="', 'src="http://www.phoenix-luxury.com', $pro_intro_contents_ary[1][0]))
$p_contents=SaveRemoteImg($p_contents, '/u_file/pro/intro/'.date('H/'))//把远程html代码里的图片保存到本地
}
$t=time()
mysql_query("insert into pro(CateId, ProName, PicPath_0, S_PicPath_0, Price_0, Contents, AddTime, Url) values('{$cate_row['CateId']}', '$proname', '$imgpath', '$img', '$price', '$p_contents', '$t', '$url')")
echo $url.$img.$cate."<br>\r\n"
}
}
犯法的。入侵他人网站并删除网站数据就是违法的,如果情节严重,会构成犯罪。哪怕删除的是盗版网站数据库,但是该行为已经构成了违法的事实。
一般来说发现盗版网站向有关部门举报就可。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)