如何用Java正则表达式提取html中所有的文本和超链接,然后分别存入txt文件和数据库中

如何用Java正则表达式提取html中所有的文本和超链接,然后分别存入txt文件和数据库中,第1张

您好,您这样:提取链接的标签文本和url地址

将Html文件代码传入string参数s,代码如下:

private void Reg_A_Href(string s)

{

string str = s;

Regex re = new Regex(@"<a[^>]+href=\s(:'(<href>[^']+)'|""(<href>[^""]+)""|(<href>[^>\s]+))\s[^>]>(<text>)</a>", RegexOptionsIgnoreCase | RegexOptionsSingleline);

MatchCollection mc = reMatches(str);

ConsoleWriteLine(mcCount);

foreach (Match m in mc)

{

info_Add("[href] " + mGroups["href"]Value);

info_Add("[text] " + mGroups["text"]Value);

ConsoleWriteLine("{0}:{1}", mGroups["href"]Value, mGroups["text"]Value);

}

}

public class $ {

    public static void main(String[] args) {

        String path = SystemgetProperty("userdir") + "/src/html/emailhtml";

        Systemoutprintln(path);

    }

}

动态获取路径

eclipse:localhost:8080:项目名:WebContent/html文件名,如过放在其他文件包里面请在文件名外面加上文件包名

MyEclipse:localhost:8080:项目名:WebRoot/html文件名,如过放在其他文件包里面请在文件名外面加上文件包名

你的意思是用java代码模拟访问一个html网页? 可以用URLConnection

URL url = new URL("你的html文件的>

可以用:File f_html = new File("Loginhtml");

f_htmlcreateNewFile();

要想生成html页面的话,容器会替我们直接把jsp编译成servlet输出成html静态页面进行展示。

你要像手动输出html的展示内容可以自己写一个servlet,使用output方法输出html标签代码段直接打印到客户端。

还有如果你想写入html文件的话,你可以通过fileinput字节写入。(这种写法servlet教程上很多实例,包括如何生成文件,如何通过字节或者字符流的形式写入和保存)

给你个思路吧,可以自己完成,你描述的所谓的html其实是json数据,遍历json方法有N种,第三方的工具也很多,比如fastJson,gson,jackson等等,基本上几句话搞定;

另外你还要将解析出来的值保存到excel中,可以使用poi这个工具,封装了 *** 作excel表的基本 *** 作方法。祝你成功~

以上就是关于如何用Java正则表达式提取html中所有的文本和超链接,然后分别存入txt文件和数据库中全部的内容,包括:如何用Java正则表达式提取html中所有的文本和超链接,然后分别存入txt文件和数据库中、javaweb项目我在src下建了一个文件夹里面放html文件,我想在类中用io流读取html文件夹下文件,怎么写路径、怎么访问java里的html文件等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9533906.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存