perl 处理HTML_语言综合

概述perlhtml Table of Contents 1 perl代码中的web处理 1.1 常用模块 1.2 基本过程 1.3 获取并解析网页 1 perl代码中的web处理 1.1 常用模块 Mojo::UserAgent WWW::Mechanize anyevent::http LWP 1.2 基本过程扒站最基本的：经过一个网页，把页面上的链接都解析出来放到一个数组里，把页面上的表单解 perl_HTML table of Contents 1 perl代码中的web处理 1.1 常用模块 1.2 基本过程 1.3 获取并解析网页 1 perl代码中的web处理 1.1 常用模块

Mojo::UserAgent WWW::Mechanize anyevent::http LWP

1.2 基本过程

扒站最基本的：经过一个网页，把页面上的链接都解析出来放到一个数组里，把页面上的表单解析出来放到一个散列里，并且hIDden字段自动填好，你只需填剩下的字段。下面，把我用到的最基本的东西总结在下面：

1.3 获取并解析网页

使用LWP::Simple模块的get方法下载网页

然后使用HTML::FormatText创建新的格式器

格式器只能处理已解析的HTML，所以我们使用HTML::TreeBuilder解析HTML

已经解析的HTML位于$tree_{builder对象中，所以在这个对象上使formatter} 对象的format方法，把网页的格式设置为普通文本，并输出。

 1:  use LWP::Simple; 2:  HTML::Treebuilder; 3:  HTML::FormatText; 4:   5:  $HTML = get("http://www.cpan.org/");   6:  $formatter = HTML::FormatText->new; 7:  $tree_builder =HTML::TreeBuilder->new; 8:  $tree_builder->parse($HTML); 9:  $text = $formatter->format($tree_builder);10:  print $text;

上面的方法是perl技术内幕中提到的方法。

Date: 2013-05-12 16:44:00 CST

Author: gaorongchao

Org version 7.8.11 with Emacs version 24

Validate XHTML 1.0 总结

以上是内存溢出为你收集整理的perl 处理HTML全部内容，希望文章能够帮你解决perl 处理HTML所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/1281133.html

perl 处理HTML

发表评论

评论列表（0条）