Spark读写压缩文件

Spark读写压缩文件,第1张

spark 自动根据文春亩件后缀名判断压缩格式,不用特别指定

spark会加载Hadoop的默认的配置,如果hadoop中设置了压缩,spark没指定压缩则会用hadoop的配置方式压缩;

spark中指定方式斗销如下:

方法1:写文件时指定压缩格式空森游

方法2:配置方式,全局可用

如果数据量很少不需要压缩只需设置不压缩: sc.hadoopConfiguration.set(FileOutputFormat.COMPRESS , "false")

cassandra的nodetool工具使用jdk的jmx和cassandra节点通信。nodetool是集群的重要管理工具。在cassandra2.0版本中,nodetool默认是允许远程访问,其不需要密码的。在cassandra2.1版本中银键,nodetool默认是只允许本机访问,很不方便,如果远程访问功能打开,又不安全,防止别人乱 *** 作,好方法就是加上访问权限控制。第一步:打开远程访问权限编辑conf/cassandra-env.sh文件。找到:LOCAL_JMX=yes默认值监听localhost,只允许本机访问锋毕巧。改为LOCAL_JMX=no表示远程也可以访问。第二步:指定密码文件同一文件,找到如下配置项:JVM_OPTS=”$JVM_OPTS-Dcom.sun.management.jmxremote.authenticate=true”JVM_OPTS=”$JVM_OPTS-Dcom.sun.management.jmxremote.password.file=/home/cassandra/jmxremote.password”第三步:创建密码文件vi/home/cassandra/jmxremote.password输入myusernamemypassword注意:修改文件权限只能本用户访问:chmodgo-rwx/home/cassandra/jmxremote.password否则启动的时候会报错Error:Passwordfilereadaccessmustberestricted:/home/cassandra/jmxremote.password第四步:配置access文件access权限控制权限,默认使用jdk目录下的:$JAVA_HOME/jre/lib/management/jmxremote.access写入myusername有读写权限myusernamereadwrite该文件也可以数陆通过-Dcom.sun.management.jmxremote.access.file选项指定。重启cassandra之后,需要这样使用nodetool:bin/nodetool-umyusername-pwmypasswordstatus

默认是从hdfs读取陆指文件,也可以指定sc.textFile("路径").在路径前面加上hdfs://表示陆指从hdfs文件系统上读

本地文件读取 sc.textFile("路径").在路径前面加上file:// 表示从本早悉配地文件系统读,如file:///home/user/spark/README.md


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/tougao/12330224.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-24
下一篇 2023-05-24

发表评论

登录后才能评论

评论列表(0条)

保存