我假设您的控制台仍在cmd.exe下运行。我怀疑您的控制台真的希望使用UTF-8-我希望它真的是OEM
DOS编码(例如850或437)。
Java将在JVM初始化期间使用默认编码集对字节进行编码。
在我的电脑上复制:
java Foo
Java编码为Windows-1252;控制台解码为IBM850。结果: Mojibake
java -Dfile.encoding=UTF-8 Foo
Java编码为UTF-8;控制台解码为IBM850。结果: Mojibake
cat test.txt
cat将文件解码为UTF-8;cat编码为IBM850;控制台解码为IBM850。
java Foo | cat
Java编码为Windows-1252;cat解码为Windows-1252;cat编码为IBM850;控制台解码为IBM850
java -Dfile.encoding=UTF-8 Foo | cat
Java编码为UTF-8;cat解码为UTF-8;cat编码为IBM850;控制台解码为IBM850
cat的
此实现必须使用启发式方法来确定字符数据是否为UTF-8,然后将数据从UTF-8或ANSI(例如Windows-1252)转码为控制台编码(例如IBM850)。
可以使用以下命令确认:
$ java HexDump utf8.txt78 78 c3 a4 c3 b1 78 78$ cat utf8.txtxxäñxx$ java HexDump ansi.txt78 78 e4 f1 78 78$ cat ansi.txtxxäñxx
该 猫 命令可以做出此决定,因为
e4 f1不是有效的UTF-8序列。
您可以通过以下方法更正Java输出:
- 将控制台编码设置为系统ANSI值
- 使用控制台类型
- 使用一些希夫层,你与这样 的猫
HexDump 是一个简单的Java应用程序:
import java.io.*;class HexDump { public static void main(String[] args) throws IOException { try (InputStream in = new FileInputStream(args[0])) { int r; while((r = in.read()) != -1) { System.out.format("%02x ", 0xFF & r); } System.out.println(); } }}
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)