Mojo::UserAgent WWW::Mechanize anyevent::http LWP
1.2 基本过程扒站最基本的:经过一个网页,把页面上的链接都解析出来放到一个数组里,把页面 上的表单解析出来放到一个散列里,并且hIDden字段自动填好,你只需填剩下的字段。 下面,把我用到的最基本的东西总结在下面:
1.3 获取并解析网页使用LWP::Simple模块的get方法下载网页
然后使用HTML::FormatText创建新的格式器
格式器只能处理已解析的HTML,所以我们使用HTML::TreeBuilder解析HTML
已经解析的HTML位于$treebuilder对象中,所以在这个对象上使formatter 对象的format方法,把网页的格式设置为普通文本,并输出。
1: use LWP::Simple; 2: HTML::Treebuilder; 3: HTML::FormatText; 4: 5: $HTML = get("http://www.cpan.org/"); 6: $formatter = HTML::FormatText->new; 7: $tree_builder =HTML::TreeBuilder->new; 8: $tree_builder->parse($HTML); 9: $text = $formatter->format($tree_builder);10: print $text;
上面的方法是perl技术内幕中提到的方法。
Date: 2013-05-12 16:44:00 CST
Author: gaorongchao
Org version 7.8.11 with Emacs version 24
Validate XHTML 1.0 总结以上是内存溢出为你收集整理的perl 处理HTML全部内容,希望文章能够帮你解决perl 处理HTML所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)