首先,学习大数据是需要有java,python和R语言的基础。
1) Java学习到什么样的程度才可以学习大数据呢
java需要学会javaSE即可。javaweb,javaee对于大数据用不到。学会了javase就可以看懂hadoop框架。
2) python是最容易学习的,难易程度:python java Scala 。
python不是比java更直观好理解么,因为会了Python 还是要学习java的,你学会了java,再来学习python会很简单的,一周的时间就可以学会python。
3) R语言也可以学习,但是不推荐,因为java用的人最多,大数据的第一个框架Hadoop,底层全是Java写的。就算学会了R还是看不懂hadoop。
java在大数据中的作用是构成大数据的语言,大数据的第一个框架Hadoop以及其他大数据技术框架,底层语言全是Java写的,所以推荐首选学习java
大数据开发学习路线:
第一阶段:Hadoop生态架构技术
1、语言基础
Java:多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以,不需要深入掌握。
Linux:系统安装、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等。
Python:基础语法,数据结构,函数,条件判断,循环等基础知识。
2、环境准备
这里介绍在windows电脑搭建完全分布式,1主2从。
VMware虚拟机、Linux系统(Centos65)、Hadoop安装包,这里准备好Hadoop完全分布式集群环境。
3、MapReduce
MapReduce分布式离线计算框架,是Hadoop核心编程模型。
4、HDFS10/20
HDFS能提供高吞吐量的数据访问,适合大规模数据集上的应用。
5、Yarn(Hadoop20)
Yarn是一个资源调度平台,主要负责给任务分配资源。
6、Hive
Hive是一个数据仓库,所有的数据都是存储在HDFS上的。使用Hive主要是写Hql。
7、Spark
Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
8、SparkStreaming
Spark Streaming是实时处理框架,数据是一批一批的处理。
9、SparkHive
Spark作为Hive的计算引擎,将Hive的查询作为Spark的任务提交到Spark集群上进行计算,可以提高Hive查询的性能。
10、Storm
Storm是一个实时计算框架,Storm是对实时新增的每一条数据进行处理,是一条一条的处理,可以保证数据处理的时效性。
11、Zookeeper
Zookeeper是很多大数据框架的基础,是集群的管理者。
12、Hbase
Hbase是一个Nosql数据库,是高可靠、面向列的、可伸缩的、分布式的数据库。
13、Kafka
kafka是一个消息中间件,作为一个中间缓冲层。
14、Flume
Flume常见的就是采集应用产生的日志文件中的数据,一般有两个流程。
一个是Flume采集数据存储到Kafka中,方便Storm或者SparkStreaming进行实时处理。
另一个流程是Flume采集的数据存储到HDFS上,为了后期使用hadoop或者spark进行离线处理。
第二阶段:数据挖掘算法
1、中文分词
开源分词库的离线和在线应用
2、自然语言处理
文本相关性算法
3、推荐算法
基于CB、CF,归一法,Mahout应用。
4、分类算法
NB、SVM
5、回归算法
LR、DecisionTree
6、聚类算法
层次聚类、Kmeans
7、神经网络与深度学习
NN、Tensorflow
以上就是学习Hadoop开发的一个详细路线,如果需要了解具体框架的开发技术,可咨询加米谷大数据老师,详细了解。
学习大数据开发需要掌握哪些技术呢?
(1)Java语言基础
Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合类
(2)HTML、CSS与Java
PC端网站布局、HTML5+CSS3基础、WebApp页面布局、原生Java交互功能开发、Ajax异步交互、jQuery应用
(3)JavaWeb和数据库
数据库、JavaWeb开发核心、JavaWeb开发内幕
Linux&Hadoop生态体系
Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架
分布式计算框架和Spark&Strom生态体系
(1)分布式计算框架
Python编程语言、Scala编程语言、Spark大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习、Spark—GraphX 图计算、实战一:基于Spark的推荐系统(某一线公司真实项目)、实战二:新浪网(>
消息中间件就我目前接触过的主要有ActiveMQ,Kafka,RabbitMQ,IBM MQ,RocketMQ。目前ActiveMQ,Kafka,RabbitMQ作为老牌的开源中间件,已经被各个需要消息中间件服务的公司广泛接受并研究,RocketMQ做成了阿里的消息平台对外提供云端消息服务,IBM MQ作为一个商业软件也有大量市场应用。
消息中间件,作为一个提供异步,系统解耦,模块间数据传输的软件,对客户端提供的功能都是类似的, 但每个消息中间件的API却不尽相同,甚至可以说天差地别 。拿ActiveMQ的JMS协议和Kafka的仿AMQP的Producer为例。
AMQ的发送一条消息的流程为:
至此完成从连接建立到发送消息的过程。当然后续如果需要继续发送消息,直接使用producersend即可。如果需要往不同的队列发消息,则可以通过session建立不同的producer(从第4步开始),或者在connection中建立新的session(从第3步开始)。
而Kafka的消息发送流程为:
可以看到目的地是固化在消息属性里的。Kafka发送消息无需建立目的地,而是使用producer直接发送消息。可对于用户来说,需要知道kafka只能发送byte[]数组,上文第4步中的key和value其实是byte[]类,因此如果发送字符串,需要调用getByte()方法。
但是实际上客户端其实并不需要知道自己能发送什么。
站在一个系统开发者的角度,如果我要用消息中间件,那最好发送消息,消费消息可以封装成一个服务,我只需要输入必要的参数,就可以进行消息的发送/接收了,由API来负责帮我进行一般的系统设置,最后的整个过程应该是极简的。
这件事有点像是在设计一个消息中间件规范化的接口(就像是micro USB口)。以后如果需要替换消息中间件,只需要技术人员更新server端,应用更新一下配置文件就可以完成所有的工作了。更甚一步,配置文件做好容错的机制,那只需要在配置文件里配置好所有消息中间件的配置参数,替换一个消息中间件产品对应用可以是透明的。再进一步,如果以后有一个配置中心,应用直接连接配置中心获取MQ的连接配置,连配置文件都不需要写了。
从第一步开始,所有的过程都封装在一个客户端类MQClient中。
对比ActiveMQ和Kafka,我们可以看到Kafka的设计其实是比较简单的。但秉持着可配置的东西尽量都做成配置文件的思路。第一步应该在实例化客户端类时,从配置文件读取所有的配置。
对应AMQ的1,2两步,Kafka的1,2两步
在实例化时,从mqclientproperties文件中读取出所有的配置,并建立连接。
对应AMQ的6步,Kafka的第4步
对于一个消息来说,在建立消息时只需要知道消息的消息体,比如string,当然可以用重写来定义多个类型,比如AMQ支持ObjectMessage,BlobMessage,MapMessage等。在MQMessage的构造函数中,根据其给出的消息不同而建立不同的消息。�
对应AMQ的3,4,5,7步,Kafka的3,5步
在这个方法中,需要封装生产者的建立和消息的发送两步。从destination可以得到目的地,因此AMQ可以通过第2步中建立的session来建立生产者。Kafka直接建立生产者就可以了。而后使用send方法来发送消息。
在API的设计中,需要着重考虑的注意点是:
下一步研究Consumer的通用化,由于Kafka较为复杂,作为普通用户暂时只考虑High Level。
拉模式(点对点消息)
如果没有消费者在监听队列,消息将保留在队列中,直至消息消费者连接到队列为止。在这种模型中,消息不是自动推动给消息消费者的,而是要由消息消费者从队列中请求获得。
推模式(发布订阅消息)
在该模型中,消息会自动广播,消息消费者无须通过主动请求或轮询主题的方法来获得新的消息。
消息队列比较核心的应用场合有三个:解耦、异步和削峰
在消息队列中一种常用的消息推送类型是推拉模式
下面是推拉模式的对比:
具体的比较
1Push模式
推模式是服务器端根据用户需要,由目的、按时将用户感兴趣的信息主动发送到用户的客户端
Push模式的主要优点是
Push模式的缺点
2Pull模式
拉模式是客户端主动从服务器端获取信息
拉模式的主要优点是
拉模式的缺点
以上就是关于大数据具体是学习什么内容呢主要框架是什么全部的内容,包括:大数据具体是学习什么内容呢主要框架是什么、Message发送之高级特性(二)、消息中间件Producer通用化封装思路等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)