C++ 正则表达式匹配curl爬取网页的指定内容

C++ 正则表达式匹配curl爬取网页的指定内容,第1张

程序如下:

$pattern = '/<div class="nav" monkey="nav">(+)<div class="head-ad">/is';

preg_match($pattern, $string, $match);

//$match[0] 即为<div class="nav" monkey="nav">和<div class="head-ad">之间的所有源码

echo $match[0];

//然后再提取<li></li>之间的内容

$pattern = '/<li>(+)<\/li>/is';

preg_match_all($pattern, $match[0], $results);

$new_arr=array_unique($results[0]);

foreach($new_arr as $kkk){

    echo $kkk;

}

//javascript 代码示例

var text = '</span><span data-jsx="468416" data-reactid="41">要提取的内容< br>'

var reg = /data-reactid="\d+">()< br>/g;

var group1 = regexec(text)[1];//要提取的内容

/

正则中,使用()包含起来的内容可以捕获;

要正确匹配要捕获的内容,跟要处理的字符串环境有关,越复杂的字符串,正则就越复杂;像()就只能捕获没换行符的内容,

/

<TD[^>]+>()</TD>

内容在matchGroup(1)中

<TD[^>]+>()<BR>()<BR>()<BR>([0-9]+)<BR><FONT[^>]+>()</FONT><BR>([0-9]+周)<BR>()</TD>

代码如下:

import javautilregexMatcher;

import javautilregexPattern;

public class App {

public static void main(String[] args) {

Pattern pattern = Patterncompile("<li>([^<]+)</li>");

Matcher matcher = patternmatcher("<li>哈哈</li>");

if(matcherfind()) {

String str = matchergroup(1);

Systemoutprintln(str);

}

}

}

以上就是关于C++ 正则表达式匹配curl爬取网页的指定内容全部的内容,包括:C++ 正则表达式匹配curl爬取网页的指定内容、正则表达式 提取内容、如何用正则表达式获取<TD></TD>标签中的内容等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9830475.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-02
下一篇 2023-05-02

发表评论

登录后才能评论

评论列表(0条)

保存