获取文件类型,一般的是列出目前所有的文件类型,根据表头进行相应判断,示例如下:
/*** 件头是位于文件开头的一段承担一定任务的数据,一般都在开头的部分。
* 头文件作为一搜谈洞种包含功能函数、数据接口声明的载体文件,用于保存程序的声明(declaration),而定义文件用于保存程序的实现 (implementation)。
* 为了解决在用户上传文件的时候在服务器端判断文件类型的问题,故用获取文件头的方式,直接读取文件的前几个字节,来判断上传文件是否符合格式。具体代码如下:
* Java代码 :
*
*/
package com.yonyou.sud.file
import java.io.FileInputStream
import java.io.IOException
import java.util.HashMap
/**
* 获取和判断文件头信息
*
* @author Sud
*
*/
public class GetTypeByHead {
//缓存文件头信息-文件头信息
public static final HashMap<String, String> mFileTypes = new HashMap<String, String>()
static {
// images
mFileTypes.put("FFD8FF", "jpg")
mFileTypes.put("89504E47", "png")
mFileTypes.put("47494638", "gif")
mFileTypes.put("49492A00", "tif")
mFileTypes.put("424D", "bmp")
//
mFileTypes.put("41433130", "dwg") // CAD
mFileTypes.put("38425053", "psd")
mFileTypes.put("7B5C727466", "rtf") // 日记本
mFileTypes.put("3C3F786D6C", "xml")
mFileTypes.put("68746D6C3E", "html")
mFileTypes.put("44656C69766572792D646174653A", "eml") // 邮件
mFileTypes.put("D0CF11E0", "doc")
mFileTypes.put("5374616E64617264204A", "mdb")
mFileTypes.put("252150532D41646F6265", "ps")
mFileTypes.put("255044462D312E", 侍肢"pdf")
mFileTypes.put("504B0304", "docx")
mFileTypes.put("52617221", "rar")
mFileTypes.put("57415645", "wav")
mFileTypes.put("41564920", "avi")
mFileTypes.put("2E524D46", "rm")
mFileTypes.put("000001BA", "mpg")
mFileTypes.put("000001B3", "mpg")
mFileTypes.put("6D6F6F76", "mov")
mFileTypes.put("3026B2758E66CF11", "asf")
mFileTypes.put("4D546864", "mid")
mFileTypes.put("1F8B08", "gz")
}
/**
* 根据文件路径获取文件头信息
*
* @param filePath
* 文件路径
* 世枯@return 文件头信息
*/
public static String getFileType(String filePath){
System.out.println(getFileHeader(filePath))
System.out.println(mFileTypes.get(getFileHeader(filePath)))
return mFileTypes.get(getFileHeader(filePath))
}
/**
* 根据文件路径获取文件头信息
*
* @param filePath
* 文件路径
* @return 文件头信息
*/
public static String getFileHeader(String filePath){
FileInputStream is = null
String value = null
try {
is = new FileInputStream(filePath)
byte[] b = new byte[4]
/*int read() 从此输入流中读取一个数据字节。
*int read(byte[] b) 从此输入流中将最多 b.length 个字节的数据读入一个 byte 数组中。
* int read(byte[] b, int off, int len) 从此输入流中将最多 len 个字节的数据读入一个 byte 数组中。
*/
is.read(b, 0, b.length)
value = bytesToHexString(b)
} catch (Exception e){
} finally {
if (null != is){
try {
is.close()
} catch (IOException e){
}
}
}
return value
}
/**
* 将要读取文件头信息的文件的byte数组转换成string类型表示
*
* @param src
* 要读取文件头信息的文件的byte数组
* @return 文件头信息
*/
private static String bytesToHexString(byte[] src){
StringBuilder builder = new StringBuilder()
if (src == null || src.length <= 0){
return null
}
String hv
for (int i = 0 i < src.length i++){
// 以十六进制(基数 16)无符号整数形式返回一个整数参数的字符串表示形式,并转换为大写
hv = Integer.toHexString(src[i] & 0xFF).toUpperCase()
if (hv.length() < 2){
builder.append(0)
}
builder.append(hv)
}
System.out.println(builder.toString())
return builder.toString()
}
public static void main(String[] args)throws Exception {
final String fileType = getFileType("E:/Java编程思想读书笔记.docx")
System.out.println(fileType)
}
}
下面转载一下别人的方法1、判断字符范围。
该方式主要是针对英文字符的,如果文件中有中文字符就会判断失败。比如:
char c
f.read(&c, sizeof(c))
if (c <32 &&c != 9 &&c != 10 &&c != 13)
{
return
}
该方式针对256以下的字符问题都不大,一旦遇到双字节中文就会出现c为负数的情况,导致判断失败。
2、判断有没有char(0)字符。
二进制文件基本上都会有char(0),注意,是“基本上” 。
我尝试通过这个方式来判断,发现判断正确率很高,我手头的二进制STL文件都能够判断正确,但是总觉得这种方式不够保险,如果刚好某个二进制文件没有char(0)怎么办???
3、文件大小对比法。
以文本方式 打开文件,取一段数据(比如1024字节),存为string,再写入tmp文件,如果新文件的大小还是1024字节,应该就是文本文件了。否则就是二进制文件。
该方法我没有认证,但是纯粹从描述上来说,还是比较有效的。以我的理解,该方法在本质上还是方法1和方法2的结合,相比方法1来说,方便了中文字符的判断,相比方法2来说,更为保险一些。其本质就是通过将二进制文件转换为字符串,将一些无效字符过滤掉(比如char(0),回车等等),导致大小发生变化。但同样的该方法也有漏洞,如果二进制文件中刚好没有回车,没有char(0)怎么办???
4、无效字符比例法。
该方法是基于方法1的一种概率判断,遍历文件中的所有字符,对方法1中认定的无效字符进行计数,如果无效字符数量达到一定比例(这个比例值是经验值,根据自己的程序运行环境自由设定),则认为烂轿搏是二进制文件。
同方法1一样,无法对中文字符进行有效的判断,一个全为中文的文本文件,肯定会被认定为二进制文件。
5、严格对比法。
逐字节读取,然后满足以下任何一个条件那么就是二进制文件:
1)所读取字节大于127并且小于160;
2)所读取字节大于等帆镇于160并且不成对出现;(注:大于等于160并成对出现的是汉字,其他UNICODE字符集编码格式不是很清楚)
3)所读取字节小于32并且不等于9(TAB)、10(换行) (注: 10 是UNIX格式文本换行)
4)所读取字节小于32并且等于13(回车)但是之后的字节并不是10(换行) (注:13 10 是DOS格式文本换行)
该方法是最严谨的,也是判断最复杂的,效饥祥率最低的,一个较大的文件判断起来肯定会很慢。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)