python3实战spark大数据分析及调度 ???
一、实例分析 1.1 数据 student.txt
1.2 代码
二、代码解析 2.1函数解析 2.1.1 collect()
RDD的特性
在进行基本RDD“转换”运算时不会立即执行,结果不会显示在显示屏中,collect()是一个“动作”运算,会立刻执行,显示结果。
2.1.2 reduce()
说明
reduce()函数会对参数序列中的元素进行累积。
语法
reduce(function,iterable[,initializer])
参数
function – 函数,有两个参数
iterable – 可迭代对象
initializer – 可选,初始参数
实例
说明:python3的内建函数移除了reduce函数,reduce函数放在functools模块
2.1.3 type() 语法
class type(name,bases,dict)
参数 name – 类的名称。 bases – 基类的元组。 dict – 字典,类内定义的命名空间变量。 返回值一个参数返回对象类型,三个参数,返回新的类型对象。
实例
三、问题分析
解析
1、检查拼写是否有误
2、检查缩进是否合规
3、检查()是否一一配对
4.2 用户上网记录统计(一行为一条记录).(用户:第3列)
4.2用户流量统计。分别统计上行流量及下行流量并将结果各列以空格键隔开输出到文件。(用户:第3列;上行流量:第25列;下行流量:第26列)
4.3 统计用户总流量
4.4、微信APP流量统计。(微信APP特征MicroMessenger,位于第20列,统计对应的下行流量值——第26列的数值。)
谢谢观看。
总结以上是内存溢出为你收集整理的Python3实战spark大数据分析及调度 ???全部内容,希望文章能够帮你解决Python3实战spark大数据分析及调度 ???所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)