Perl爬虫动手(抓首页)

Perl爬虫动手(抓首页),第1张

概述下面的代码目前只实现了抓取首页,后面会改下,要求抓2级到3级页面。 #!/usr/bin/perluse HTML::LinkExtor; use LWP::Simple; sub sparit{ local($base_url)= shift; # 抓取URL $parser = HTML::LinkExtor->new(undef,$base_url); $parser->par

下面的代码目前只实现了抓取首页,后面会改下,要求抓2级到3级页面。

#!/usr/bin/perluse HTML::linkExtor; use LWP::Simple; sub sparit{ local($base_url)= shift; # 抓取URL  $parser = HTML::linkExtor->new(undef,$base_url); $parser->parse(get($base_url))->eof; @links = $parser->links; foreach $linkarray (@links){ my @element = @$linkarray; my $elt_type = shift @element; while( @element){ my ($attr_name,$attr_value) = splice(@element,0,2); $seen{$attr_value}++; } } # 排序/去除非同站URL  for (sort keys %seen){ if($_=~m#^$base_url#){          push(@tmp_url,"$_\n"); } } # 返回匹配的URL  return @tmp_url; }
总结

以上是内存溢出为你收集整理的Perl爬虫动手(抓首页)全部内容,希望文章能够帮你解决Perl爬虫动手(抓首页)所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1278183.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-09
下一篇 2022-06-09

发表评论

登录后才能评论

评论列表(0条)

保存