Perl爬虫动手(抓首页)_语言综合

概述下面的代码目前只实现了抓取首页，后面会改下，要求抓2级到3级页面。 #!/usr/bin/perluse HTML::LinkExtor; use LWP::Simple; sub sparit{ local($base_url)= shift; # 抓取URL $parser = HTML::LinkExtor->new(undef,$base_url); $parser->par

下面的代码目前只实现了抓取首页，后面会改下，要求抓2级到3级页面。

#!/usr/bin/perluse HTML::linkExtor; use LWP::Simple; sub sparit{ local($base_url)= shift; # 抓取URL  $parser = HTML::linkExtor->new(undef,$base_url); $parser->parse(get($base_url))->eof; @links = $parser->links; foreach $linkarray (@links){ my @element = @$linkarray; my $elt_type = shift @element; while( @element){ my ($attr_name,$attr_value) = splice(@element,0,2); $seen{$attr_value}++; } } # 排序/去除非同站URL  for (sort keys %seen){ if($_=~m#^$base_url#){          push(@tmp_url,"$_\n"); } } # 返回匹配的URL  return @tmp_url; }

总结

以上是内存溢出为你收集整理的Perl爬虫动手(抓首页)全部内容，希望文章能够帮你解决Perl爬虫动手(抓首页)所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/1278183.html

Perl爬虫动手(抓首页)

发表评论

评论列表（0条）