这个是你页面接受的参数乱码啊,你得看下你web后台怎么处理参数接受和传递的。你爬过来的这段代码没有问题,记得关流。
Systemoutprintln(sbtoString());
outflush();
outclose();
inclose();
你说要流程,那就流程吧
如果只要抓取页面标题和编码,就不需要全加载解析,选择动态解析就可以了,
1获得文档流,根据 html文档特点,一次读取1kb个字节就差不多包含了head的信息了。
2 遍历 node获得 title 和 meta 节点,并分别 取得节点里的text
3这两个完了也就完了
URLConnection context = urlopenConnection();
InputStream in = contextgetInputStream();
BufferedReader br = new BufferedReader(new InputStreamReader(in, "gbk"));
包装流的时候要加入网站的编码 ,gbk和utf-8都试试
File in = new File(args[0]);
InputStreamReader r = new InputStreamReader(new FileInputStream(in));
Systemoutprintln(rgetEncoding());
JAVA 在抓取网页 怎么自动识别它的网页编码
1 看>
以上就是关于java文件抓取网页的中文字符串编码问题,两个字人名正常,第三个字就乱码了,何故谢谢全部的内容,包括:java文件抓取网页的中文字符串编码问题,两个字人名正常,第三个字就乱码了,何故谢谢、用java抓取页面标题和编码方式.在线等、java中通过url获取网页内容,中文显示是乱码等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)