cygwin是一个在windows平台上运行的unix模拟环境,是cygnus solutions公司开发的自由软件(该公司开发了很多好东西,著名的还有eCos,不过现已被Redhat收购)。它对于学习unix/linux *** 作环境,或者从unix到windows的应用程序移植,或者进行某些特殊的开发工作,尤其是使用gnu工具集在windows上进行嵌入式系统开发,非常有用。随着嵌入式系统开发在国内日渐流行,越来越多的开发者对cygwin产生了兴趣。本文将对其作一介绍。
2 机理
cygnus当初首先把gcc,gdb,gas等开发工具进行了改进,使他们能够生成并解释win32的目标文件。然后,他们要把这些工具移植到windows平台上去。一种方案是基于win32 api对这些工具的源代码进行大幅修改,这样做显然需要大量工作。因此,他们采取了一种不同的方法——他们写了一个共享库(就是cygwin dll),把win32 api中没有的unix风格的调用(如fork,spawn,signals,select,sockets等)封装在里面,也就是说,他们基于win32 api写了一个unix系统库的模拟层。这样,只要把这些工具的源代码和这个共享库连接到一起,就可以使用unix主机上的交叉编译器来生成可以在windows平台上运行的工具集。以这些移植到windows平台上的开发工具为基础,cygnus又逐步把其他的工具(几乎不需要对源代码进行修改,只需要修改他们的配置脚本)软件移植到windows上来。这样,在windows平台上运行bash和开发工具、用户工具,感觉好像在unix上工作。
关于cygwin实现的更详细描述,请参考http://cygwin.com/cygwin-ug-net/highlights.html.
3 安装设置cygwin
3.1 安装
要安装网络版的cygwin,可以到http://cygwin.com,点击"Install Cygwin Now!"。这样会先下载一个叫做setup.exe的GUI安装程序,用它能下载一个完整的cygwin。按照每一屏的指示可以方便的进行安装。
3.2 环境变量
开始运行bash之前,应该设置一些环境变量。cygwin提供了一个.bat文件,里面已经设置好了最重要的环境变量。通过它来启动bash是最安全的办法。这个.bat文件安装在cygwin所在的根目录下。 可以随意编辑该文件。
CYGWIN变量用来针对cygwin运行时系统进行多种全局设置。开始时,可以不设置CYGWIN或者在执行bash前用类似下面的格式在dos框下把它设为tty
C:\>set CYGWIN=tty notitle glob
PATH变量被cygwin应用程序作为搜索可知性文件的路径列表。当一个cygwin进程启动时,该变量被从windows格式(e.g. C:\WinNT\system32C:\WinNT)转换成unix格式(e.g., /WinNT/system32:/WinNT)。如果想在不运行bash的时候也能够使用cygwin工具集,PATH起码应该包含x:\cygwin\bin,其中x:\cygwin 是你的系统中的cygwin目录。
HOME变量用来指定主目录,推荐在执行bash前定义该变量。当cygwin进程启动时,该变量也被从windows格式转换成unix格式,例如,作者的机器上HOME的值为C:\(dos命令set HOME就可以看到他的值,set HOME=XXX可以进行设置),在bash中用echo $HOME看,其值为/cygdrive/c.
TERM变量指定终端型态。如果美对它进行设置,它将自动设为cygwin。
LD_LIBRARY_PATH被cygwin函数dlopen()作为搜索.dll文件的路径列表,该变量也被从windows格式转换成unix格式。多数Cygwin应用程序不使用dlopen,因而不需要该变量。
3.3 改变cygwin的最大存储容量
Cygwin程序缺省可以分配的内存不超过384 MB(program+data)。多数情况下不需要修改这个限制。然而,如果需要更多实际或虚拟内存,应该修改注册表的HKEY_LOCAL_MACHINE或HKEY_CURRENT_USER区段。田家一个DWORD键heap_chunk_in_mb并把它的值设为需要的内存限制,单位是十进制MB。也可以用cygwin中的regtool完成该设置。例子如下:
regtool -i set /HKLM/Software/Cygnus\ Solutions/Cygwin/heap_chunk_in_mb 1024
regtool -v list /HKLM/Software/Cygnus\ Solutions/Cygwin
4 使用cygwin
这一段讲一下cygwin和传统unix系统的不同之处。
4.1 映射路径名
4.1.1 引言
cygwin同时支持win32和posix风格的路径,路径分隔符可以是正斜杠也可以是反斜杠。还支持UNC路径名。(在网络中,UNC是一种确定文件位置的方法,使用这种方法用户可以不关心存储设备的物理位置,方便了用户使用。在Windows *** 作系统,Novell Netware和其它 *** 作系统中,都已经使用了这种规范以取代本地命名系统。在UNC中,我们不用关心文件在什么盘(或卷)上,不用关心这个盘(或卷)所在服务器在什么地方。我们只要以下面格式就可以访问文件:
\\服务器名\共享名\路径\文件名
共享名有时也被称为文件所在卷或存储设备的逻辑标识,但使用它的目的是让用户不必关心这些卷或存储设备所在的物理位置。)
符合posix标准的 *** 作系统(如linux)没有盘符的概念。所有的绝对路径都以一个斜杠开始,而不是盘符(如c:)。所有的文件系统都是其中的子目录。例如,两个硬盘,其中之一为根,另一个可能是在/disk2路径下。
因为许多unix系统上的程序假定存在单一的posix文件系统结构,所以cygwin专门维护了一个针对win32文件系统的内部posix视图,使这些程序可以在windows下正确运行。在某些必要的情况下,cygwin会使用这种映射来进行win32和posix路径之间的转换。
4.1.2 cygwin mount表
cygwin中的mount程序用来把win32盘符和网络共享路径映射到cygwin的内部posix目录树。这是与典型unix mount程序相似的概念。对于那些对unix不熟悉而具有windows背景的的人来说,mount程序和早期的dos命令join非常相似,就是把一个盘符作为其他路径的子目录。
路径映射信息存放在当前用户的cygwin mount表中,这个mount table 又在windows的注册表中。这样,当该用户下一次登录进来时,这些信息又从注册表中取出。mount 表分为两种,除了每个用户特定的表,还有系统范围的mount表,每个cygwin用户的安装表都继承自系统表。系统表只能由拥有合适权限的用户(windows nt的管理员)修改。
当前用户的mount表可以在注册表"HKEY_CURRENT_USER/Software/Red Hat, Inc./Cygwin/mounts v" 下看到。系统表
存在HKEY_LOCAL_MACHINE下。
posix根路径/缺省指向系统分区,但是可以使用mount命令重新指向到windows文件系统中的任何路径。cygwin从win32路径生成posix路径时,总是使用mount表中最长的前缀。例如如果c:被同时安装在/c和/,cygwin将把C:/foo/bar转换成/c/foo/bar.
如果不加任何参数地调用mount命令,会把Cygwin当前安装点集合全部列出。在下面的例子中,c盘是POSIX根,而d盘被映射到/d。本例中,根是一个系统范围的安装点,它对所有用户都是可见的,而/d仅对当前用户可见。
c:\>mount
f:\cygwin\bin on /usr/bin type system (binmode)
f:\cygwin\lib on /usr/lib type system (binmode)
f:\cygwin on / type system (binmode)
e:\src on /usr/src type system (binmode)
c: on /cygdrive/c type user (binmode,noumount)
e: on /cygdrive/e type user (binmode,noumount)
还可以使用mount命令增加新的安装点,用umount删除安装点。
当Cygwin不能根据已有的安装点把某个win32路径转化为posix路径时,cygwin会自动把它转化到一个处于缺省posix路径/cygdrive下的的一个安装点. 例如,如果Cygwin 访问Z:\foo,而Z盘当前不在安装表内,那么Z:\将被自动转化成/cygdrive/Z.
可以给每个安装点赋予特殊的属性。自动安装的分区显示为“auto”安装。安装点还可以选择是"textmode"还是 "binmode",这个属性决定了文本文件和二进制文件是否按同样的方式处理。
4.1.3 其他路径相关信息
cygpath工具提供了在shell脚本中进行win32-posix路径格式转换的能力。
HOME, PATH,和LD_LIBRARY_PATH环境变量会在cygwin进程启动时自动被从Win32格式转换成了POSIX格式(例如,如果存在从该win32路径到posix路径的安装,会把c:\cygwin\bin转为/bin)。
具体安装的细节就不说了,网络上的资料多得很。主要介绍一下自己的经验所得。首先介绍一下手头的软硬件资源:NameNode/JobTracker:HP笔记本 i5 2.4GHz 8G 500GBWin7 64位家庭普通版hadoop 1.1.2JDK7u21
DataNode/TaskTracker:HP台式机 i3 3.3GHz 4G 500GBWin7 32位专业版 hadoop 1.1.2JDK7u21
DataNode/TaskTracker:联想ThinkPad i5 2.5GHz 4G 500GB Win7 64位家庭普通版 hadoop 1.1.2 JDK7u21
首先,安装CygWin(在官网上下的最新版),一定要选上openssh和openssl的包(缺省是不安装的)。 CygWin在各个计算机上的安装目录可以不同。要把CygWin安装目录下的bin目录、usr/bin目录、usr/sbin目录放到系统环境变量Path中。因为,hadoop会执行一些Linux/UNIX形式的命令如bash、whoami等,而这些命令在CygWin中是以Windows系统中的可执行文件形式存放在前面说的目录中。
CygWin装好之后,以管理员的身份运行Cygwin Terminal,执行ssh-host-config配置SSHD服务。CygWin会在Windows系统中新建一个管理员帐号cyg_server(可以按自己换别的),这个帐号就用来跑hadoop的程序了。过程中有好多地方问yes还是no,我试过全部选yes也试过个别选no(按照网上的资料),结果没发现有什么差别。ssh-host-config执行成功后,SSHD会作为一个系统服务在后台运行,每次系统启动都自动开启。这时,要注意检查或配置Windows的防火墙配置,要放开到SSHD服务的入站连接,我的做法是放开到Cygwin安装目录/usr/sbin/sshd的入站连接。
Cygwin Terminal下执行mkpasswd -l >/etc/passwd和mkgroup -l >/etc/group,主要用途是将Windows的帐号和组别同步到CygWin下。
Windows系统中切换到cyg_server用户(这个帐号的描述缺省是Privileged server),运行Cygwin Terminal,执行ssh-keygen,一直敲回车就行。用ls -a可以看到有一个.ssh的目录,把里面的id_rsa,pub导入到authorized_keys,然后把NameNode上的这个authorized_keys文件,拷贝到所有DataNode和TaskTracker的相同位置下,即 cyg_server用户主目录下的.ssh目录。这样cyg_server用户就可以不需要密码就可以远程登录各个计算机和执行命令。
Hadoop是用java开发的,因此,系统中要有java的运行环境,可以从Oracle的官网下最新的JDK安装,注意是JDK,不是JRE(因为需要用到bin目录下的server目录)。安装的位置必须全部计算机都一样(因为碰到过在DataNode上找不到java程序的情况),那也就是在C:\下面了,给安装目录起一个简短的名称(不要带空格)。在系统环境变量Path中,将JDK安装目录下的bin目录所在路径添加进去。跟SSHD一样,要修改Windows防火墙的入站规则,放开到JDK的java程序网络连接。
到这里,Hadoop主要的运行条件基本具备了,可以安装Hadoop了。过程很简单,从hadoop.apache.org下载一个hadoop的tar.gz包(我下的是1.1.2版本),解压到一个目录下就可以了。这里要注意的是,最好全部 *** 作都在Windows的cyg_server帐号下执行,而且,hadoop解压后存放的目录要所有计算机都一样,例如都放在C:\hadoop-1.1.2目录下。
Hadoop是用java开发的,虽然java号称支持跨平台运行。但是,基于Linux的Hadoop移到Windows平台上时,依然出现严重水土不服,即使是在Cygwin的环境下也一样。同样一段java代码,在Linux下的表现和在Windows下的表现会不一样,导致Windows下运行的Hadoop经常出现异常而终止运行。
实验中大部分的时间都是用来探究引起水土不服的原因,把它消除掉。 下面介绍一下我对这些问题采取的一些解决办法。
众所周知,文件路径在Linux下和在Windows下的解析是不一样的。在Cygwin中运行Windows版本的java时,两种不同形式的文件路径一起出现会导致程序异常。Cygwin下对C:\hadoop-1.1.2的解析是/cygdrive/c/hadoop-1.1.2,而Windows版本的java对'/cygdrive/c/hadoop-1.1.2'的解析又变成C:\cygdrive\c\hadoop-1.1.2,由于这是一个不存在的文件路径,所以Hadoop经常抛出异常说文件找不到,或者自己直接把这个路径创建了(例如,DataNode存放HDFS文件块时寻找dfs.data.dir时)。要解决这个问题,可以利用Windows7的文件链接的特性(类似于linux的链接ln -s),在C:\下创建cygdrive目录,在这个目录里执行MKLINK /D c C:\创建一个到目的目录的目录链接。这样当java访问C:\cygdrive\c\hadoop-1.1.2时就会如我们所愿访问到C:\hadoop-1.1.2这个目录。
能不能用ln -s命令来建这样的链接呢?答案是不行的。Hadoop的源代码中就使用了这样的方法,可是Windows的java不能识别,因此,TaskTracker就不能执行JobTracker分配给它的Task任务。对于这样的情况,除了修改Hadoop代码,好像还没别的办法。要修改的是org.apache.hadoop.fs包里的FileUtil.java文件,里面有一个symLink方法,就是用了ln -s的办法来建文件链接,我们要把它改成使用Windows7的方式建立文件链接。原代码如下:
public static int symLink(String target, String linkname) throws IOException{
String cmd = "ln -s " + target + " " + linkname
Process p = Runtime.getRuntime().exec(cmd, null)
int returnVal = -1
try{
returnVal = p.waitFor()
} catch(InterruptedException e){
//do nothing as of yet
}
if (returnVal != 0) {
LOG.warn("Command '" + cmd + "' failed " + returnVal +
" with: " + copyStderr(p))
}
return returnVal
}
修改后,变成如下的样子
public static int symLink(String target, String linkname) throws IOException{
// String cmd = "ln -s " + target + " " + linkname
String newTarget
String newLinkname
newTarget = new CygPathWinCommand("C:" + target).getResult()
newLinkname = new CygPathWinCommand(linkname).getResult()
String cmd = "CMD /C \"MKLINK /D " + newLinkname + " " + newTarget + "\""
Process p = Runtime.getRuntime().exec(cmd, null)
int returnVal = -1
try{
returnVal = p.waitFor()
} catch(InterruptedException e){
//do nothing as of yet
}
if (returnVal != 0) {
LOG.warn("Command '" + cmd + "' failed " + returnVal +
" with: " + copyStderr(p))
}
return returnVal
}
private static class CygPathWinCommand extends Shell {
String[] command
String result
CygPathWinCommand(String path) throws IOException {
command = new String[]{"cygpath", "-d", path}
run()
}
String getResult() throws IOException {
return result
}
protected String[] getExecString() {
return command
}
protected void parseExecResult(BufferedReader lines) throws IOException {
String line = lines.readLine()
if (line == null) {
throw new IOException("Can't convert '" + command[2] +
" to a cygwin path")
}
result = line
}
}
红色部分就是改动后的代码。其中CygPathWinCommand是新加的一个类,它是复制原来CygPathCommand类的样子来作的,只不过原来是使用cygpath -u命令,这里使用cygpath -d命令。
Hadoop在创建完链接或者目录后,通常都设置Linux/Unix形式的访问权限。这在Windows系统上是没有作用的事。所以,Hadoop的文件权限设置 *** 作是无效的,所以当Hadoop验证文件权限设置结果时就会抛出异常而终止。我们可以改动代码,不让它终止。Hadoop验证文件权限的 *** 作是通过org.apache.hadoop.fs包里FileUtil.java文件的checkReturnValue方法实现的,原代码如下:
private static void checkReturnValue(boolean rv, File p,
FsPermission permission
) throws IOException {
if (!rv) {
throw new IOException("Failed to set permissions of path: " + p +
" to " +
String.format("%04o", permission.toShort()))
}
}
修改很简单,不让它抛异常就行了
private static void checkReturnValue(boolean rv, File p,
FsPermission permission
) throws IOException {
if (!rv) {
LOG.info("Failed to set permissions of path: " + p +
" to " +
String.format("%04o", permission.toShort()))
}
}
除了文件路径解析和文件权限设置两个方面,Linux下和在Windows下的进程和线程管理也是不一样的。这会导致org.apache.hadoop.mapred包里JvmManager.java文件里的kill方法抛出异常,原代码如下
synchronized void kill() throws IOException, InterruptedException {
if (!killed) {
TaskController controller = tracker.getTaskController()
// Check inital context before issuing a kill to prevent situations
// where kill is issued before task is launched.
String pidStr = jvmIdToPid.get(jvmId)
if (pidStr != null) {
String user = env.conf.getUser()
int pid = Integer.parseInt(pidStr)
// start a thread that will kill the process dead
if (sleeptimeBeforeSigkill >0) {
new DelayedProcessKiller(user, pid, sleeptimeBeforeSigkill,
Signal.KILL).start()
controller.signalTask(user, pid, Signal.TERM)
} else {
controller.signalTask(user, pid, Signal.KILL)
}
} else {
LOG.info(String.format("JVM Not killed %s but just removed", jvmId
.toString()))
}
killed = true
}
}
在网上找了好久,终于找到一篇老外的文章讲这个问题,改动也比较简单
synchronized void kill() throws IOException, InterruptedException {
if (!killed) {
TaskController controller = tracker.getTaskController()
// Check inital context before issuing a kill to prevent situations
// where kill is issued before task is launched.
String pidStr = jvmIdToPid.get(jvmId)
if ((pidStr != null) &&!(pidStr.isEmpty())) {
String user = env.conf.getUser()
int pid = Integer.parseInt(pidStr)
// start a thread that will kill the process dead
if (sleeptimeBeforeSigkill >0) {
new DelayedProcessKiller(user, pid, sleeptimeBeforeSigkill,
Signal.KILL).start()
controller.signalTask(user, pid, Signal.TERM)
} else {
controller.signalTask(user, pid, Signal.KILL)
}
} else {
LOG.info(String.format("JVM Not killed %s but just removed", jvmId.toString()))
}
killed = true
}
}
在我的实验中,代码的改动到这里,Hadoop基本就可以跑起来了,HDFS和MapReduce应用都可以运行。下面介绍一下怎么编译改动后的代码。我不是java程序员,只会用原始笨拙的办法去调试和编译。Hadoop的源码在src目录下,在我实验中是C:\hadoop-1.1.2\src,里面有好几个子目录,我们要改动的JvmManager.java文件和FileUtil.java文件都在core子目录下。由于Hadoop是在Linux环境中开发的,所以我们编译最好也在Linux环境下(我试过Windows环境,结果不行,技术有限,没法解决)。首先把这些源文件拷到一台Linux,我的做法是直接下个hadoop的tar.gz包,解压到/var/tmp下,源码就在/var/tmp/hadoop-1.1.1/src目录下了。
1)先解压jar包,我们改动的源码最后都编译打包到hadoop-core-1.1.2.jar包里
cd /var/tmp
mkdir newjar
cp /var/tmp/hadoop-1.1.2/hadoop-core-1.1.2.jar /var/tmp/newjar
cd newjar
jar -xvf hadoop-core-1.1.2.jar
rm -f hadoop-core-1.1.2.jar
2)编译改动后的源码
cd /var/tmp/hadoop-1.1.2/src/core
javac -cp /var/tmp/hadoop-1.1.2/lib/commons-logging-1.1.1.jar:/var/tmp/hadoop-1.1.2/hadoop-core-1.1.2.jar org/apache/hadoop/mapred/JvmManager.java
javac -cp /var/tmp/hadoop-1.1.2/lib/commons-logging-1.1.1.jar:/var/tmp/hadoop-1.1.2/hadoop-core-1.1.2.jar org/apache/hadoop/fs/FileUtil.java
3)打jar包
cp org/apache/hadoop/mapred/*.class /var/tmp/newjar/org/apache/hadoop/mapred
cp org/apache/hadoop/fs/*.class /var/tmp/newjar/org/apache/hadoop/fs
cd /var/tmp/newjar
jar cvfm /var/tmp/test.jar META-INF/MANIFEST.MF .
把test.jar拷下来,替换掉所有计算机的hadoop-core-1.1.2.jar就可以了。
好了,所有事情都就绪了,配置好hadoop的各种配置文件后,顺利启动了hadoop的HDFS和MapReduce框架,以下是进行的一些测试
hadoop jar C:/hadoop-1.1.2/hadoop-test-1.1.2.jar TestDFSIO -write -nrFiles 10 -sizeFile 1000 执行成功,但吞吐量不是很理想
hadoop jar C:/hadoop-1.1.2/hadoop-test-1.1.2.jar TestDFSIO -read -nrFiles 10 -sizeFile 1000 执行成功,但吞吐量比前面的测试还差
hadoop jar C:/hadoop-1.1.2/hadoop-examples-1.1.2.jar randomwriter random-data 执行成功,但时间花了两个多小时,处理的数据有20GB多
hadoop jar C:/hadoop-1.1.2/hadoop-examples-1.1.2.jar sort random-data sorted-data 执行成功,但时间也是花了两个多小时,处理的数据有20GB多
hadoop jar C:/hadoop-1.1.2/hadoop-test-1.1.2.jar testmapredsort -sortInput random-data -sortOut sorted-data 执行成功,但时间也是花了两个多小时,,处理的数据还是20GB多但时间好像还更长些
hadoop jar C:/hadoop-1.1.2/hadoop-examples-1.1.2.jar wordcount /user/cyg_server/tbdata_big output 其中tbdata_big是一个3GB多的文本文件,里面有1亿3千万行文本。实验环境给出的性能是7分钟16秒。自己在NameNode上写一个perl脚本做wordcount相同的事情,耗时562秒。这个......Hadoop只快了106秒。是不是数据太少了?
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)