1、常规:在内存中读取
读取文件行的标准方式是在内存中读取,Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法:
Files.readLines(new File(path), Charsets.UTF_8)
FileUtils.readLines(new File(path))
这种方法带来的问题是文件的所有行都被存放在内存中,当文件足够大时很快就会导致程序抛出OutOfMemoryError 异常。
例如:读取一个大约1G的文件:
@Test
public void givenUsingGuava_whenIteratingAFile_thenWorks() throws IOException {
String path = ...
Files.readLines(new File(path), Charsets.UTF_8)
}
这种方式开始时只占用很少的内存:(大约消耗了0Mb内存)
然而,当文件全部读到内存中后,我们最后可以看到(大约消耗了2GB内存):
这意味这一过程大约耗费了2.1GB的内存——原因很简单:现在文件的所有行都被存储在内存中。
把文件所有的内容都放在内存中很快会耗尽可用内存——不论实际可用内存有多大,这点是显而易见的。
此外,我笑贺碰们通常不需要把文件的所有行一次性地放入内存中——相反,我们只需要遍历文件的每一行,然后做相应的处理,处理完之后把它扔掉。所以,这正碰谈是我们将要做的——通过行迭代,而不是把所有行都放在内存中。
2、文件流
FileInputStream inputStream = null
Scanner sc = null
try {
inputStream = new FileInputStream(path)
sc = new Scanner(inputStream, "UTF-8")
while (sc.hasNextLine()) {
String line = sc.nextLine()
// System.out.println(line)
}
// note that Scanner suppresses exceptions
if (sc.ioException() != null) {
throw sc.ioException()
}
} finally {
if (inputStream != null) {
inputStream.close()
}
if (sc != null) {
sc.close()
}
}
这种方案将会遍历文件中的所有行——允许对每一行进行处理,而不保持对它的引用。总之没有把它们存放在内存中:(大约消耗了150MB内存)
3、Apache Commons IO流
同样也可以使用Commons IO库实现,利用该库提供的自定义LineIterator:
LineIterator it = FileUtils.lineIterator(theFile, "UTF-8")
try {
while (it.hasNext()) {
String line = it.nextLine()
// do something with line
}
} finally {
LineIterator.closeQuietly(it)
}
由于整个文件不是全部存放在内存中,这也就导致相当保守的内存消耗:(大约消耗了150MB内存拍竖)
实用的模糊(通配符)文件查找程序1 import java.io.File
2 import java.util.regex.Matcher
3 import java.util.regex.Pattern
4 import java.util.ArrayList
5
6 /** *//**
7 * <p>Title: FileService </p>
8* <p>Description: 获取文件 </p>
9* <p>Copyright: Copyright (c) 2007</p>
10* <p>Company: </p>
11* @author not attributable
12* @version 1.0
13*/
14public class FileService {
15 public FileService() {
16 }
17
18 /** *//**
19* 在本文件夹下查找
20* @param s String 文件名
21* @return File[] 找到的悄汪圆文件
22*/
23 public static File[] getFiles(String s)
24 {
25 return getFiles("./",s)
26 }
27
28 /** *//**
29* 获取文件
30* 可以根据正则表达式查找启塌
31* @param dir String 文件夹名称
32* @param s String 查找文件名,可带*.?进行模糊查询
33* @return File[] 找到的文件
34 */
35 public static File[] getFiles(String dir,String s) {
36 //开始的文件夹
37 File file = new File(dir)
38
39 s = s.replace('.', '#')
40 s = s.replaceAll("#", "\\\\.")
41 s = s.replace('*', '#')
42 s = s.replaceAll("#", ".*")
43 s = s.replace('?', '#')
44 s = s.replaceAll("#", ".?")
45 s = "^" + s + "$"
46
47 System.out.println(s)
48 Pattern p = Pattern.compile(s)
49 ArrayList list = filePattern(file, p)
50
51 File[] rtn = new File[list.size()]
52 list.toArray(rtn)
53 return rtn
54 }
55
56 /** *//**
57* @param file File 起始文件夹
58* @param p Pattern 匹配类型
59* @return ArrayList 其文件夹下的文件陵茄夹
60*/
61
62 private static ArrayList filePattern(File file, Pattern p) {
63 if (file == null) {
64 return null
65 }
66 else if (file.isFile()) {
67 Matcher fMatcher = p.matcher(file.getName())
68 if (fMatcher.matches()) {
69 ArrayList list = new ArrayList()
70 list.add(file)
71 return list
72 }
73 }
74 else if (file.isDirectory()) {
75 File[] files = file.listFiles()
76 if (files != null &&files.length >0) {
77 ArrayList list = new ArrayList()
78 for (int i = 0i <files.lengthi++) {
79 ArrayList rlist = filePattern(files[i], p)
80 if (rlist != null) {
81 list.addAll(rlist)
82 }
83 }
84 return list
85 }
86 }
87 return null
88 }
89
90 /** *//**
91* 测试
92* @param args String[]
93*/
94 public static void main(String[] args) {
95 }
96}
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)