spark会加载Hadoop的默认的配置,如果hadoop中设置了压缩,spark没指定压缩则会用hadoop的配置方式压缩;
spark中指定方式斗销如下:
方法1:写文件时指定压缩格式空森游
方法2:配置方式,全局可用
如果数据量很少不需要压缩只需设置不压缩: sc.hadoopConfiguration.set(FileOutputFormat.COMPRESS , "false")
cassandra的nodetool工具使用jdk的jmx和cassandra节点通信。nodetool是集群的重要管理工具。在cassandra2.0版本中,nodetool默认是允许远程访问,其不需要密码的。在cassandra2.1版本中银键,nodetool默认是只允许本机访问,很不方便,如果远程访问功能打开,又不安全,防止别人乱 *** 作,好方法就是加上访问权限控制。第一步:打开远程访问权限编辑conf/cassandra-env.sh文件。找到:LOCAL_JMX=yes默认值监听localhost,只允许本机访问锋毕巧。改为LOCAL_JMX=no表示远程也可以访问。第二步:指定密码文件同一文件,找到如下配置项:JVM_OPTS=”$JVM_OPTS-Dcom.sun.management.jmxremote.authenticate=true”JVM_OPTS=”$JVM_OPTS-Dcom.sun.management.jmxremote.password.file=/home/cassandra/jmxremote.password”第三步:创建密码文件vi/home/cassandra/jmxremote.password输入myusernamemypassword注意:修改文件权限只能本用户访问:chmodgo-rwx/home/cassandra/jmxremote.password否则启动的时候会报错Error:Passwordfilereadaccessmustberestricted:/home/cassandra/jmxremote.password第四步:配置access文件access权限控制权限,默认使用jdk目录下的:$JAVA_HOME/jre/lib/management/jmxremote.access写入myusername有读写权限myusernamereadwrite该文件也可以数陆通过-Dcom.sun.management.jmxremote.access.file选项指定。重启cassandra之后,需要这样使用nodetool:bin/nodetool-umyusername-pwmypasswordstatus默认是从hdfs读取陆指文件,也可以指定sc.textFile("路径").在路径前面加上hdfs://表示陆指从hdfs文件系统上读本地文件读取 sc.textFile("路径").在路径前面加上file:// 表示从本早悉配地文件系统读,如file:///home/user/spark/README.md
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)