下面的代码目前只实现了抓取首页,后面会改下,要求抓2级到3级页面。
#!/usr/bin/perluse HTML::linkExtor; use LWP::Simple; sub sparit{ local($base_url)= shift; # 抓取URL $parser = HTML::linkExtor->new(undef,$base_url); $parser->parse(get($base_url))->eof; @links = $parser->links; foreach $linkarray (@links){ my @element = @$linkarray; my $elt_type = shift @element; while( @element){ my ($attr_name,$attr_value) = splice(@element,0,2); $seen{$attr_value}++; } } # 排序/去除非同站URL for (sort keys %seen){ if($_=~m#^$base_url#){ push(@tmp_url,"$_\n"); } } # 返回匹配的URL return @tmp_url; }总结
以上是内存溢出为你收集整理的Perl爬虫动手(抓首页)全部内容,希望文章能够帮你解决Perl爬虫动手(抓首页)所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)