今天潜水时看到有人询问判别文件内容是否为文本的方法,什么回答都有,主要是:
看后缀:这个比较弱,不要说在*nix下通常都不用后缀,就算是Win下,一方面有很多不知名的后缀;另一方面,后缀是可以随便改的,叫txt的可能是个txt,也可能是个马。 写成文本,然后和原文件比较大小。这个靠谱,就是代码怎么看怎么不好看。 判断是否存在控制字符:这个也靠谱,但是难度比较大,因为有些Unicode文件在开头放了控制字符,所以必须处理这种特殊情况。(我记得有些编辑器就是这样判断文件是否为二进制的)这些答案都算靠谱,也有不靠谱的。居然有人回答:文本终究也是二进制的,所以你没办法判断!NND,这就好像说:Women 本质上就是 Men(人),所以你没法判断 Women 和 Men (男人)
言归正传,除了以上的三种方法外,如果要求不是那么严格,可以用文件的mime type来进行判断,以下的Groovy代码虽然不太直观,但是胜在短小:
def isText = { it?.isfile() && it.toURI().toURL().openConnection().ContentType?.startsWith('text') }在Java下道理是一样的,先获得URL对象,然后打开连接,获取内容类型……只不过多写几行罢了。 总结
以上是内存溢出为你收集整理的如何判断文件是文本还是二进制全部内容,希望文章能够帮你解决如何判断文件是文本还是二进制所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)