java文件抓取网页的中文字符串编码问题，两个字人名正常，第三个字就乱码了，何故谢谢_框架

这个是你页面接受的参数乱码啊，你得看下你web后台怎么处理参数接受和传递的。你爬过来的这段代码没有问题，记得关流。

Systemoutprintln(sbtoString());

outflush();

outclose();

inclose();

你说要流程，那就流程吧

如果只要抓取页面标题和编码，就不需要全加载解析，选择动态解析就可以了，

1获得文档流，根据 html文档特点，一次读取1kb个字节就差不多包含了head的信息了。

2 遍历 node获得 title 和 meta 节点，并分别取得节点里的text

3这两个完了也就完了

URLConnection context = urlopenConnection();

InputStream in = contextgetInputStream();

BufferedReader br = new BufferedReader(new InputStreamReader(in, "gbk"));

包装流的时候要加入网站的编码，gbk和utf-8都试试

File in = new File(args[0]);

InputStreamReader r = new InputStreamReader(new FileInputStream(in));

Systemoutprintln(rgetEncoding());

JAVA 在抓取网页怎么自动识别它的网页编码

1 看>

以上就是关于java文件抓取网页的中文字符串编码问题，两个字人名正常，第三个字就乱码了，何故谢谢全部的内容，包括:java文件抓取网页的中文字符串编码问题，两个字人名正常，第三个字就乱码了，何故谢谢、用java抓取页面标题和编码方式.在线等、java中通过url获取网页内容，中文显示是乱码等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/9687158.html

java文件抓取网页的中文字符串编码问题，两个字人名正常，第三个字就乱码了，何故谢谢

发表评论

评论列表（0条）