java 传输 获取文件类型

java 传输 获取文件类型,第1张

  获取文件类型,一般的是列出目前所有的文件类型,根据表头进行相应判断,示例如下:

/**

* 件头是位于文件开头的一段承担一定任务的数据,一般都在开头的部分。

* 头文件作为一搜谈洞种包含功能函数、数据接口声明的载体文件,用于保存程序的声明(declaration),而定义文件用于保存程序的实现 (implementation)。

* 为了解决在用户上传文件的时候在服务器端判断文件类型的问题,故用获取文件头的方式,直接读取文件的前几个字节,来判断上传文件是否符合格式。具体代码如下:

* Java代码 : 

*/

package com.yonyou.sud.file

import java.io.FileInputStream

import java.io.IOException

import java.util.HashMap

/**

* 获取和判断文件头信息

*

* @author Sud

*

*/

public class GetTypeByHead {

//缓存文件头信息-文件头信息

public static final HashMap<String, String> mFileTypes = new HashMap<String, String>()

static {

// images

mFileTypes.put("FFD8FF", "jpg")

mFileTypes.put("89504E47", "png")

mFileTypes.put("47494638", "gif")

mFileTypes.put("49492A00", "tif")

mFileTypes.put("424D", "bmp")

//

mFileTypes.put("41433130", "dwg") // CAD

mFileTypes.put("38425053", "psd")

mFileTypes.put("7B5C727466", "rtf") // 日记本

mFileTypes.put("3C3F786D6C", "xml")

mFileTypes.put("68746D6C3E", "html")

mFileTypes.put("44656C69766572792D646174653A", "eml") // 邮件

mFileTypes.put("D0CF11E0", "doc")

mFileTypes.put("5374616E64617264204A", "mdb")

mFileTypes.put("252150532D41646F6265", "ps")

mFileTypes.put("255044462D312E", 侍肢"pdf")

mFileTypes.put("504B0304", "docx")

mFileTypes.put("52617221", "rar")

mFileTypes.put("57415645", "wav")

mFileTypes.put("41564920", "avi")

mFileTypes.put("2E524D46", "rm")

mFileTypes.put("000001BA", "mpg")

mFileTypes.put("000001B3", "mpg")

mFileTypes.put("6D6F6F76", "mov")

mFileTypes.put("3026B2758E66CF11", "asf")

mFileTypes.put("4D546864", "mid")

mFileTypes.put("1F8B08", "gz")

}

/**

* 根据文件路径获取文件头信息

*

* @param filePath

* 文件路径

* 世枯@return 文件头信息

*/

public static String getFileType(String filePath){

System.out.println(getFileHeader(filePath))

System.out.println(mFileTypes.get(getFileHeader(filePath)))

return mFileTypes.get(getFileHeader(filePath))

}

/**

* 根据文件路径获取文件头信息

*

* @param filePath

* 文件路径

* @return 文件头信息

*/

public static String getFileHeader(String filePath){

FileInputStream is = null

String value = null

try {

is = new FileInputStream(filePath)

byte[] b = new byte[4]

/*int read() 从此输入流中读取一个数据字节。 

*int read(byte[] b) 从此输入流中将最多 b.length 个字节的数据读入一个 byte 数组中。 

* int read(byte[] b, int off, int len) 从此输入流中将最多 len 个字节的数据读入一个 byte 数组中。 

*/

is.read(b, 0, b.length)

value = bytesToHexString(b)

} catch (Exception e){

} finally {

if (null != is){

try {

is.close()

} catch (IOException e){

}

}

}

return value

}

/**

* 将要读取文件头信息的文件的byte数组转换成string类型表示

*

* @param src

* 要读取文件头信息的文件的byte数组

* @return 文件头信息

*/

private static String bytesToHexString(byte[] src){

StringBuilder builder = new StringBuilder()

if (src == null || src.length <= 0){

return null

}

String hv

for (int i = 0 i < src.length i++){

// 以十六进制(基数 16)无符号整数形式返回一个整数参数的字符串表示形式,并转换为大写

hv = Integer.toHexString(src[i] & 0xFF).toUpperCase()

if (hv.length() < 2){

builder.append(0)

}

builder.append(hv)

}

System.out.println(builder.toString())

return builder.toString()

}

public static void main(String[] args)throws Exception {

final String fileType = getFileType("E:/Java编程思想读书笔记.docx")

System.out.println(fileType)

}

}

下面转载一下别人的方法

1、判断字符范围。

该方式主要是针对英文字符的,如果文件中有中文字符就会判断失败。比如:

char c

f.read(&c, sizeof(c))

if (c <32 &&c != 9 &&c != 10 &&c != 13)

{

return

}

该方式针对256以下的字符问题都不大,一旦遇到双字节中文就会出现c为负数的情况,导致判断失败。

2、判断有没有char(0)字符。

二进制文件基本上都会有char(0),注意,是“基本上” 。

我尝试通过这个方式来判断,发现判断正确率很高,我手头的二进制STL文件都能够判断正确,但是总觉得这种方式不够保险,如果刚好某个二进制文件没有char(0)怎么办???

3、文件大小对比法。

以文本方式 打开文件,取一段数据(比如1024字节),存为string,再写入tmp文件,如果新文件的大小还是1024字节,应该就是文本文件了。否则就是二进制文件。

该方法我没有认证,但是纯粹从描述上来说,还是比较有效的。以我的理解,该方法在本质上还是方法1和方法2的结合,相比方法1来说,方便了中文字符的判断,相比方法2来说,更为保险一些。其本质就是通过将二进制文件转换为字符串,将一些无效字符过滤掉(比如char(0),回车等等),导致大小发生变化。但同样的该方法也有漏洞,如果二进制文件中刚好没有回车,没有char(0)怎么办???

4、无效字符比例法。

该方法是基于方法1的一种概率判断,遍历文件中的所有字符,对方法1中认定的无效字符进行计数,如果无效字符数量达到一定比例(这个比例值是经验值,根据自己的程序运行环境自由设定),则认为烂轿搏是二进制文件。

同方法1一样,无法对中文字符进行有效的判断,一个全为中文的文本文件,肯定会被认定为二进制文件。

5、严格对比法。

逐字节读取,然后满足以下任何一个条件那么就是二进制文件:

1)所读取字节大于127并且小于160;

2)所读取字节大于等帆镇于160并且不成对出现;(注:大于等于160并成对出现的是汉字,其他UNICODE字符集编码格式不是很清楚)

3)所读取字节小于32并且不等于9(TAB)、10(换行) (注: 10 是UNIX格式文本换行)

4)所读取字节小于32并且等于13(回车)但是之后的字节并不是10(换行) (注:13 10 是DOS格式文本换行)

该方法是最严谨的,也是判断最复杂的,效饥祥率最低的,一个较大的文件判断起来肯定会很慢。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12164888.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存