html – 如何使用Perl可靠地解析QuakeLive播放器配置文件?

html – 如何使用Perl可靠地解析QuakeLive播放器配置文件?,第1张

概述我目前正在研究Perl脚本以从QuakeLive网站收集数据. 一切都很顺利,直到我无法得到一组数据. 我正在使用正则表达式,除了最喜欢的竞技场,武器和游戏类型之外,它们还可以用于所有事情.我只需要在$1中获取这三个元素的名称以便进一步处理. 我尝试重新制作收藏夹图片,但没有成功.如果它有用,我已经在脚本中使用了WWW :: Mechanize. 我认为问题可能与那些元素的段落的类名有关,而前一个 我目前正在研究Perl脚本以从quakelive网站收集数据.
一切都很顺利,直到我无法得到一组数据.

我正在使用正则表达式,除了最喜欢的竞技场,武器和游戏类型之外,它们还可以用于所有事情.我只需要在$1中获取这三个元素的名称以便进一步处理.

我尝试重新制作收藏夹图片,但没有成功.如果它有用,我已经在脚本中使用了WWW :: Mechanize.

我认为问题可能与那些元素的段落的类名有关,而前一个是无类的.

您可以找到示例配置文件HERE.

请注意,对于页面的上一部分,它使用如下代码:

$content =~ /<b>Wins:<\/b> (.*?)<br \/>/;$wins = $1;print "Wins: $wins\n";@H_301_23@解决方法 当前的问题是你有:  

<p ><img src="http://cdn.quakelive.com/web/2010092807/images/profile/none_v2010092807.0.gif"      wIDth="17" height="17" alt=""  />                <b>Arena:</b> Campgrounds                <div ></div>            </p>@H_301_23@  

也就是说,没有< br />遵循竞技场等收藏夹的价值.现在,正确的方法是使用正确的HTML解析器.脆弱的解决方案是调整您的模式(未经测试):

my ($favarena) = $content =~ m{<b>Arena:</b> ([^<]+)};@H_301_23@  

这应该把一切都放在<下一个< div>在$favarena.现在,如果所有竞技场都是单个单词,其中没有空格,

my ($favarena) = $content =~ m{<b>Arena:</b> (\S+)};@H_301_23@  

可以省去你之后不得不修剪空白的麻烦.

请注意,这种基于正则表达式的解决方案很容易被简单的事情所愚弄,例如源代码中注释掉的片段.例如,如果要将来源更改为:

<p ><img src="http://cdn.quakelive.com/web/2010092807/images/profile/none_v2010092807.0.gif"      wIDth="17" height="17" alt=""  /><!-- <b>Arena: </b> here -->                <b>Arena:</b> Campgrounds                <div ></div>            </p>@H_301_23@  

你的脚本会遇到麻烦,因为使用HTML解析器的解决方案不会.

使用HTML::TokeParser::Simple的示例:

#!/usr/bin/perluse strict; use warnings;use HTML::TokeParser::Simple;my $p = HTML::TokeParser::Simple->new( 'martianbuddy.HTML' );while ( my $tag = $p->get_tag('p') ) {    next unless $tag->is_start_tag;    next unless defined (my $class = $tag->get_attr('class'));    next unless grep { /^prf_faves\z/ } split ' ',$class;    my $fav = $p->get_tag('b');    my $type = $p->get_text('/b');    my $value = $p->get_text('/p');    $value =~ s/\s+\z//;    print "$type = $value\n";}@H_301_23@  

输出:

Arena:  CampgroundsGame Type:  Clan ArenaWeapon:  Rocket Launcher@H_301_23@  

并且,这是使用HTML::TreeBuilder的示例:

#!/usr/bin/perluse strict; use warnings;use HTML::TreeBuilder;use YAML;my $tree = HTML::TreeBuilder->new;$tree->parse_file('martianbuddy.HTML');my @p = $tree->look_down(_tag => 'p',sub {        return unless defined (my $class = $_[0]->attr('class'));        return unless grep { /^prf_faves\z/ } split ' ',$class;        return 1;    });for my $p ( @p ) {    my $text = $p->as_text;    $text =~ s/^\s+//;    my ($type,$value) = split ': ',$text;    print "$type: $value\n";}@H_301_23@  

输出:

Arena: Campgrounds Game Type: Clan Arena Weapon: Rocket Launcher@H_301_23@  

 

鉴于文档是HTML片段而不是完整文档,您将在基于HTML::Parser的模块上获得更多成功,而不是那些期望在格式良好的XML文档上运行的模块.

总结

以上是内存溢出为你收集整理的html – 如何使用Perl可靠地解析QuakeLive播放器配置文件?全部内容,希望文章能够帮你解决html – 如何使用Perl可靠地解析QuakeLive播放器配置文件?所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1047800.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-25
下一篇 2022-05-25

发表评论

登录后才能评论

评论列表(0条)

保存