java文件抓取网页的中文字符串编码问题,两个字人名正常,第三个字就乱码了,何故谢谢

java文件抓取网页的中文字符串编码问题,两个字人名正常,第三个字就乱码了,何故谢谢,第1张

这个是你页面接受的参数乱码啊,你得看下你web后台怎么处理参数接受和传递的。你爬过来的这段代码没有问题,记得关流。

Systemoutprintln(sbtoString());

outflush();

outclose();

inclose();

你说要流程,那就流程吧

如果只要抓取页面标题和编码,就不需要全加载解析,选择动态解析就可以了,

1获得文档流,根据 html文档特点,一次读取1kb个字节就差不多包含了head的信息了。

2 遍历 node获得 title 和 meta 节点,并分别 取得节点里的text

3这两个完了也就完了

URLConnection context = urlopenConnection();

InputStream in = contextgetInputStream();

BufferedReader br = new BufferedReader(new InputStreamReader(in, "gbk"));

包装流的时候要加入网站的编码 ,gbk和utf-8都试试

File in = new File(args[0]);

InputStreamReader r = new InputStreamReader(new FileInputStream(in));

Systemoutprintln(rgetEncoding());

JAVA 在抓取网页 怎么自动识别它的网页编码

1 看>

以上就是关于java文件抓取网页的中文字符串编码问题,两个字人名正常,第三个字就乱码了,何故谢谢全部的内容,包括:java文件抓取网页的中文字符串编码问题,两个字人名正常,第三个字就乱码了,何故谢谢、用java抓取页面标题和编码方式.在线等、java中通过url获取网页内容,中文显示是乱码等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9687158.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-30
下一篇 2023-04-30

发表评论

登录后才能评论

评论列表(0条)

保存