如何用hadoop api实现文件的移动

如何用hadoop api实现文件的移动,第1张

A、缺山首先将Hadoop1.1.2.tar.gz解压到某一个清友磁盘下。

B、右键选择工程,选择build path...., build configure path;

C、将hadoop1.1.2文件夹下的jar包添加进去伏正中;

Hadoop中关缺凯贺于文件 *** 作类基本上全部是在"org.apache.hadoop.fs"包中,这些API能够支持的 *** 作包含:打开文件,读写文件,删除文件等。

Hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。get方法存在几个重载版本,常用的是这个:

hdfs api创孙晌建文件写入内容全部程序如下:

(1):import java.io.IOException

import java.net.URI

import java.net.URISyntaxException

import org.apache.hadoop.conf.Configuration

import org.apache.hadoop.fs.FSDataInputStream

import org.apache.hadoop.fs.FSDataOutputStream

import org.apache.hadoop.fs.FileStatus

import org.apache.hadoop.fs.FileSystem

import org.apache.hadoop.fs.FileUtil

import org.apache.hadoop.fs.Path

import org.apache.hadoop.io.IOUtils

public class HDFSTest {

//在指定位置新建一个文件,并写入字符

public static void WriteToHDFS(String file, String words) throws IOException, URISyntaxException

{

Configuration conf = new Configuration()

FileSystem fs = FileSystem.get(URI.create(file), conf)

Path path = new Path(file)

FSDataOutputStream out = fs.create(path)   //创建文件

//两个方法都用于文件写入,好像一般多使用后者

out.writeBytes(words)

out.write(words.getBytes("UTF-8"))

out.close()

//如果伏派是要从输入流中写入,或是从一个文件写到另一个文件(此时用输入流打开已有内容的文件)

//可以使用如下IOUtils.copyBytes方法。

//FSDataInputStream in = fs.open(new Path(args[0]))

//IOUtils.copyBytes(in, out, 4096, true)        //4096为一次复制块大小,true表示复制完成后关闭流

}

(2): public static void DeleteHDFSFile(String file) throws IOException

{

Configuration conf = new Configuration()

FileSystem fs = FileSystem.get(URI.create(file), conf)

Path path = new Path(file)

//查看fs的delete API可以看到三个方法。deleteonExit实在退出JVM时删除,下面的方法是在指定为目录是递归删除

fs.delete(path,true)

fs.close()

}

public static void UploadLocalFileHDFS(String src, String dst) throws IOException

{

Configuration conf = new Configuration()

FileSystem fs = FileSystem.get(URI.create(dst), conf)

Path pathDst = new Path(dst)

Path pathSrc = new Path(src)

fs.copyFromLocalFile(pathSrc, pathDst)

fs.close()

}

public static void ListDirAll(String DirFile) throws IOException

{

Configuration conf = new Configuration()

FileSystem fs = FileSystem.get(URI.create(DirFile), conf)

Path path = new Path(DirFile)

FileStatus[] status = fs.listStatus(path)

//方法1

for(FileStatus f: status)

{

System.out.println(f.getPath().toString())

}

//方法2

Path[] listedPaths = FileUtil.stat2Paths(status)

for (Path p : listedPaths){

System.out.println(p.toString())

}

}

(3):

你用的哪个版本?

从Hadoop提供的jobtracker.jsp获取需要的信息,侍虚这里遇到的一个问题是里面使用了application作用域

JobTracker tracker = (JobTracker) application.getAttribute("job.tracker")

而Jetty服务器是嵌兄谈漏入到Hadoop的内部的,

如果想通过jsp页面获取统计信息的话,必须绕开Jetty服务器,或者在修改Jobtracker的中返回infoServer的一个引用,在代码中实现,不过显然这个需要修改羡烂Hadoop的核心代码,灵活性不高。

新版本hadoop Cluster类有开放的API


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12162006.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存