1、常规:在内存中读取
读取文件行的标准方式是在内存中读取,Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法:
Files.readLines(new File(path), Charsets.UTF_8)
FileUtils.readLines(new File(path))
这种方法带来的问题是文件的所有行都被存放在内存中,当文件足够大时很快就会导致程序抛出OutOfMemoryError 异常。
例如:读取一个大约1G的文件:
@Test
public void givenUsingGuava_whenIteratingAFile_thenWorks() throws IOException {
String path = ...
Files.readLines(new File(path), Charsets.UTF_8)
}
这种方式开始时只占用很少的内存:(大约消耗了0Mb内存)
然而,当文件全部读到内存中后,我们最后可以看到(大约消耗了2GB内存):
这意味这一过程大约耗费了2.1GB的内存——原因很简单:现在文件的所有行都被存储在内存中。
把文件所有的内容都放在内存中很快会耗尽可用内存——不论实际可用内存有多大,这点是显而易见的。
此外,我笑贺碰们通常不需要把文件的所有行一次性地放入内存中——相反,我们只需要遍历文件的每一行,然后做相应的处理,处理完之后把它扔掉。所以,这正碰谈是我们将要做的——通过行迭代,而不是把所有行都放在内存中。
2、文件流
FileInputStream inputStream = null
Scanner sc = null
try {
inputStream = new FileInputStream(path)
sc = new Scanner(inputStream, "UTF-8")
while (sc.hasNextLine()) {
String line = sc.nextLine()
// System.out.println(line)
}
// note that Scanner suppresses exceptions
if (sc.ioException() != null) {
throw sc.ioException()
}
} finally {
if (inputStream != null) {
inputStream.close()
}
if (sc != null) {
sc.close()
}
}
这种方案将会遍历文件中的所有行——允许对每一行进行处理,而不保持对它的引用。总之没有把它们存放在内存中:(大约消耗了150MB内存)
3、Apache Commons IO流
同样也可以使用Commons IO库实现,利用该库提供的自定义LineIterator:
LineIterator it = FileUtils.lineIterator(theFile, "UTF-8")
try {
while (it.hasNext()) {
String line = it.nextLine()
// do something with line
}
} finally {
LineIterator.closeQuietly(it)
}
由于整个文件不是全部存放在内存中,这也就导致相当保守的内存消耗:(大约消耗了150MB内存拍竖)
1、首先大文件统计词频如果不依赖第三方组件的话族神实现起来很麻烦猜橘没有相关经验的话很容易出问题2、若要使用java原生库的话建议使用多线程构建一个MapReduce模型,多线程逐行或者按块读将各自任务下的词频统计到DB
3、若使用兆兆亏第三方的话建议使用solr或者flink这种高度封装的组件既可以保证结果的正确性也可以保证性能
import java.io.BufferedReaderimport java.io.File
import java.io.FileReader
import java.io.RandomAccessFile
import java.nio.ByteBuffer
import java.nio.MappedByteBuffer
import java.nio.channels.FileChannel
public class ReadBig {
public static String fff = "C:\\mq\\read\\from.xml"
public static void main1(String[] args) throws Exception {
final int BUFFER_SIZE = 0x300000// 缓冲区首戚大小为3M
File f = new File(fff)
/**
*
* map(FileChannel.MapMode mode,long position, long size)
*
* mode - 根据是按只读、读取/写入芦答或专用(写入时拷贝)来映射文件,分别为 FileChannel.MapMode 类中所定义的
* READ_ONLY、READ_WRITE 或 PRIVATE 之一
*
* position - 文件中的位置,映射区域从此位置开始;必须为非负数
*
* size - 要映射的区域大小;必须为非负数且不大于 Integer.MAX_VALUE
*
* 所以若想读取文件后半部分内容,如例子所写;若想读取文本后1/8内容,需要这样写map(FileChannel.MapMode.READ_ONLY,
* f.length()*7/8,f.length()/8)
*
* 想读取文件所有内容,需要这样写map(FileChannel.MapMode.READ_ONLY, 0,f.length())
*
*/
MappedByteBuffer inputBuffer = new RandomAccessFile(f, "r")
.getChannel().map(FileChannel.MapMode.READ_ONLY,
f.length() / 2, f.length() / 2)
byte[] dst = new byte[BUFFER_SIZE]// 每次读出3M的内容
long start = System.currentTimeMillis()
for (int offset = 0offset <inputBuffer.capacity()offset += BUFFER_SIZE) {
if (inputBuffer.capacity() - offset >= BUFFER_SIZE) {
for (int i = 0i <BUFFER_SIZEi++)
dst[i] = inputBuffer.get(offset + i)
} else {
for (int i = 0i <inputBuffer.capacity() - offseti++)
dst[i] = inputBuffer.get(offset + i)
}
int length = (inputBuffer.capacity() % BUFFER_SIZE == 0) ? BUFFER_SIZE
: inputBuffer.capacity() % BUFFER_SIZE
System.out.println(new String(dst, 0, length))// new
// String(dst,0,length)这样可以取出缓存保存的字符串,可以对其进行 *** 作
}
long end = System.currentTimeMillis()
System.out.println("读取文件文件一半内者哗陵容花费:" + (end - start) + "毫秒")
}
public static void main2(String[] args) throws Exception {
int bufSize = 1024
byte[] bs = new byte[bufSize]
ByteBuffer byteBuf = ByteBuffer.allocate(1024)
FileChannel channel = new RandomAccessFile(fff, "r").getChannel()
while (channel.read(byteBuf) != -1) {
int size = byteBuf.position()
byteBuf.rewind()
byteBuf.get(bs)// 把文件当字符串处理,直接打印做为一个例子。
System.out.print(new String(bs, 0, size))
byteBuf.clear()
}
}
public static void main(String[] args) throws Exception {
BufferedReader br = new BufferedReader(new FileReader(fff))
String line = null
while ((line = br.readLine()) != null) {
System.out.println(line)
}
}
}
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)