求java学习路线图_工具

/回答内容很长，能看完的少走一个月弯路，绝不抖机灵/提前预警：本文适合Java新手阅读(老手可在评论区给下建议)，希望大家看完能有所收获。废话不多少了，先了解一下Java零基础入门学习路线：第一阶段：JavaSE阶段变量、数据类型、运算符

二进制和十进制的转化

注释、单行注释、多行注释、文本注释、注释内容和字节码的关系

标识符、关键字、驼峰原则

变量的本质、内存画图、变量声明和初始化

变量的分类和作用域（局部变量、成员变量、静态变量）

常量和Final

基本数据类型介绍

整型变量和整型常量

浮点类型、float、double

char字符型、转义字符

boolean布尔型、if语句使用要点、布尔类型占用空间问题

运算符介绍

算数运算符（二元、自增、自减）

赋值和赋值运算符

关系运算符详解

逻辑运算符、短路运算符详解

位运算符详解

字符串连接符

条件运算符（三元运算符）

运算符优先级问题

自动类型转换详解

强制类型装换详解

基本数据类型装换常见错误、溢出、L问题

使用Scanner获取键盘输入

控制语句

控制语句和实现逻辑对应

if单选结构

if_elseif_else多选结构

switch语句_IDEA更换主题

循环_while

循环_for循环_dowhile

嵌套循环

break和continue语句_标签_控制语句底层原理

写一个年薪计算机_百度查问题的秘诀（重要）

个人所得税计算器软件

方法核心详解_天才思维模型教你高手学习思维模式

方法的重载

递归结构讲解_递归头_递归体

面向对象编程-基础

面向过程和面向对象的区别

类和对象的概述

类的属性和方法

创建对象内存分析

构造方法（Construtor）及重载

对象类型的参数传递

this关键字

static关键字详解

局部代码块、构造代码块和静态代码块

package和import详解

JavaDoc生成API文档

面向对象编程-进阶

面向对象的三大特性

面向对象之封装(Encapsulation)

访问权限修饰符

面向对象之继承（Inheritance）

Object类

方法重写Override

super关键字详解

重写equals()和toString()

继承中对象创建的内存分析

面向对象之多态（Polymorphism）

向上转型

向下转型

instanceof运算符

编译时和运行时详解

final修饰符

抽象类和抽象方法（abstrct）

接口的定义和实现

JDK8的接口新特性

接口应用：内部类比较器Comparable

内部类详解

Java的内存管理与垃圾回收

异常机制

异常的概述

异常的执行过程与分析

try-catch-finally捕捉异常

throw抛出异常

throws声明异常

异常继承体系

运行时异常和编译异常

自定义异常

Java常用类Wrapper包装类

自动装箱和自动拆箱

包装类的源码分析

String类的使用与内存原理

String类的源码分析

StringBuffer

StringBuilder

字符串处理类性能分析

Date类

System类

DateFormat类

Calendat类

Math类

BigInteger类和BigDecimal类

Random类

枚举类

File类

常见的面试题讲述与分析

数据结构算法

数据结构的概述

线性表

顺序表

链表

栈和队列

树

二叉树

二叉查找树

二叉平衡树

黑红树

图

冒泡排序

选择排序

递归

折半查找

集合（容器）

集合和数组的联系和区别

集合框架体系

ArrayList的使用和源码分析

集合中使用泛型

LinkedList的使用和源码分析

HashSet的使用和源码分析

哈希表及原理

TreeSet的使用和源码分析

比较器Comparable和Comparator

HashMap的使用和源码分析

TreeMap的使用和源码分析

Iterator于ListIterator

Collections工具类

旧集合类Vector、Hashtable

集合总结和选择依据

泛型接口

泛型类

泛型方法

IO流

IO流的概念

IO流的分类及其原理分析

文件流FlieInputStream、FileOutputStream

缓冲流BufferedInputStream、BufferedOutputStream

数据流ObjectInputStream、ObjectOutputStream

序列化和反序列化

转换流InputStreamReader、OutputStreamWriter

打印流PrintWrite和PrintStream

数组流ByteArrayOutputStream、ByteArrayInputStream

使用IO复制文件夹

多线程

进程和线程

线程的创建与启动

创建线程的三种方式对比

线程的生命周期

线程控制

多线程的安全问题与解决办法

线程的同步：同步代码块

线程的同步：同步方法

线程的同步：Lock锁

线程的死锁问题

线程通信

Condition

线程的完整生命周期

线程池ThreadPoolExecutor

ForkJoin框架

ThreadLocal类

网络编程

计算机网络基础知识

网络通信协议

OSI参考模型

TCP/IP参考模型

数据的封装与拆封原理解析

TCP协议

UDP协议

IP地址和端口号

URL和Socket

使用TCP编程实现登录功能

使用UDP编程实现客服系统

使用TCP编程实现文件上传

集合提升寻训练

手写ArrayList

手写单链表

手写Linkedlist

手写HashMap

手写HashSet

相关子查询

分页查询

数据库对象

索引

事务及其特征

事务的并发问题

事务的隔离级别

存储过程

导入导出数据

JDBC

JDBC概述

使用JDBC完成添加/更新/删除 *** 作

使用JDBC完成查询 *** 作

JDBC常用接口

使用PreparedStatement

使用事务完成银行转账

提取DBUtil工具类

使用Properties读写属性文件

日志框架log4j

开发员工管理系统

第三阶段：JavaEE阶段

Servlet

web开发概述

B/S和C/S架构简介

Tomcat安装使用

Tomcat目录结构

Servlet概述

Servlet快速入门

Servlet生命周期

读取配置文件信息

GET和POST区别

解决中文乱码

请求转发与重定向

绝对路径和相对路径

Session

ServletContext

ServletConfig

JSP

JSP技术介绍

JSP的执行过程

scriptlet

表达式

声明

JSP指令元素

JSP动作元素

JSP隐式对象

JSP底层原理

九大内置对象

四个作用域

Servlet和JSP的关系和区别

MVC模式

合并Servlet

JavaScript

JavaScript概述与特点

JS基础语法

函数

数组

Math对象

String对象

Date对象

事件event

浏览器开发者工具

console

DOM和BOM

window

location

navigator

history

认识DOM

DOM获取元素

jQuery

jQuery简介及快速入门

jQuery入口函数

jQuery对象与DOM对象互相转换

基本选择器

属性选择器

位置选择器

表单选择器

内容选择器

jQuery事件

jQuery动画效果

DOM *** 作- *** 作文本

DOM *** 作- *** 作属性

DOM *** 作- *** 作元素

直接 *** 作CSS样式

*** 作CSS类样式

购物车案例

表单验证

正则表达式

EL+JSTL+过滤器+监听器

EL介绍及使用

EL取值原理

EL隐含对象

EL逻辑运算

JSTL介绍-核心标签库

JSTL核心标签库

JSTL-格式标签库

Filter原理

Filter生命周期

Filter链

Filter登录验证

Filter权限控制

Listener概述及分类

Listener监听在线用户

Ajax和JSON

Ajax异步请求和局部刷新的原理

使用原生Ajax验证用户唯一性

jQuery Ajax

JSON的格式和使用

主要JSON解析器

Jackson的使用

Jackson的实现原理

使用jQuery Ajax实现三级联动

使用jQuery Ajax实现自动补全

分页和文件上传/下载

分页的意义

理解分页工具类

实现基本分页

实现带查询的分页

文件上传原理

文件上传API

实现文件上传

文件下载原理

文件下载响应头

实现文件下载

第四阶段：框架阶段

MyBatis

MyBatis概述

MyBatis入门配置

基本的CRUD *** 作

核心配置文件详解

Mapperxml基础详解

模糊查询

分页的实现及插件PageHelper的使用

动态sql+sql片段的使用

一对多、多对一的关系处理

注解的使用

一级缓存和二级缓存说明及使用

generator逆向工程使用

Spring

Spring框架简介

Spring官方压缩包目录介绍

Spring环境搭建

IoC/DI容器详解

Spring创建Bean的三种方式

scope属性讲解

Spring中几种注入方式

静态代理设计模式

动态代理设计模式

AOP详解

AOP中几种通知类型

AOP两种实现方式

自动注入

声明式事务

事务传播行为

事务隔离级别

只读事务

事务回滚

基于注解式配置

常用注解

Spring 整合MyBatis

i18n

Spring整合Junit

SpringMVC

MVC架构模式

手写MVC框架

SpringMVC简介

SpringMVC运行原理

基于配置文件方式搭建环境

基于注解方式搭建环境

SpringMVC的跳转及视图解析器的配置

SpringMVC和Ajax的交互

Spring 参数注入

SpringMVC作用域传值

视图解析器

文件下载

文件上传

Spring拦截器/拦截器栈

登录状态验证

SpringMVC容器和Spring容器介绍

异常处理4种方式

SpringMVC5其他常用注解

Maven

Maven简介

Maven原理

Linux安装及注意事项

Maven项目结构

POM模型

Maven 中项目类型

创建WAR类型的Maven项目

scope属性可取值

SSM项目拆分演示

Maven的常见插件讲解

热部署

BootStrap

BootStrap概述

BootStrap栅格系统

BootStrap常用全局CSS样式

常用组件

常用JavaScript插件

RBAC

RBAC概述

RBAC发展历史

基于RBAC的数据库表设计

URL拦截实现

动态菜单实现

密码学

第五阶段：前后端分离阶段

Spring Boot

Spring Boot简介

Spring Boot实现Spring MVC

配置文件顺序及类型讲解

Spring Boot项目结构

Spring Boot 整合MyBatis

Spring Boot 整合Druid

Spring Boot 整合PageHelper

Spring Boot 整合logback

Spring Boot 整合JSP

Spring Boot 整合Thymeleaf

Spring Boot 开发者工具

Spring Boot 异常显示页面

Spring Boot 整合Junit4

Spring Boot 项目打包部署

Spring Boot 整合Quartz

Spring Boot 中Interceptor使用

Spring Boot Actuator

HikariCP

Logback

Logback简介

Logback依赖说明

Logback 配置文件讲解

Logback 控制台输出

Logback 文件输出

Logback 数据库输出

Spring Security

Spring Security简介

Spring Security架构原理

什么是认证和授权

基础环境搭建

自定义认证流程

UserDetailsService和UserDetails

PasswordEncoder

自定义认证结果

授权-访问路径匹配方式

授权-权限管理

基于注解实现权限管理

Thymeleaf整合Security权限管理

Rememberme 实现

退出实现

CSRF

Linux - CentOS 8

Linux简介

VMWare安装及使用

Linux安装及注意事项

Linux目录结构及路径

Linux常用命令

VMWare常用配置

XShell安装及使用

Xftp安装及使用

JDK解压版配置步骤

Tomcat配置步骤

安装MySQL

WAR包部署

Docker

Docker简介

Docker与VM对比

Docker特点

Docker架构

Docker安装与启动

镜像加速配置

Docker镜像 *** 作常用命令

Docker容器 *** 作常用命令

DockerFile

搭建本地镜像仓库

推送镜像到阿里云及本地仓库

Docker容器生命周期

Docker数据管理

Redis

Redis简介

Redis 单机版安装

Redis 数据类型介绍

Redis 常用命令

Redis 持久化方案

Redis 的主从搭建

Redis的哨兵搭建

Redis 的集群搭建

Spring Boot整合Spring Data Redis

Redis的缓存穿透

Redis的缓存雪崩

Redis的缓存击穿

Vue

vsCode和插件安装

webpack介绍

Vue项目创建

Vue模板语法

Vue条件渲染

Vue列表渲染

Vue事件处理

Vue计算属性

Vue Class与Style

Vue表单处理

Vue组件

Vue组件生命周期

Vue 路由配置

Vue Axios网络请求

Vue跨域处理

Vue Element

Mockjs

Swagger

Swagger2简介

Springfox

Swagger2基本用法

Swagger-UI用法

Swagger2配置

Swagger2常用配置

Git/GitEE

Git的下载和安装

Git和SVN对比

Git创建版本库

Git版本控制

Git远程仓库

Git分支管理

Git标签管理

GitEE建库

GitEE 连接及使用

GitEE 组员及管理员配置

第六阶段：微服务架构

FastDFS

分布式文件系统概述

FastDFS简介

FastDFS架构

Tracker Server

Storage Server

FastDFS安装

安装带有FastDFS模块的Nginx

Fastdfs-java-client的使用

创建Fastdfs-java-client工具类

实现文件上传与下载

KindEditor介绍

通过KindEditor实现文件上传并回显

RabbitMQ

AMQP简介

RabbitMQ简介

安装Erlang

安装RabbitMQ

RabbitMQ原理

Spring Boot 集成RabbitMQ

RabbitMQ的交换器

Spring AMQP的使用

Spring Cloud Netflix Eureka

Eureka简介

Eureka和Zookeeper 对比

搭建Eureka注册中心

Eureka 服务管理平台介绍

搭建高可用集群

集群原理

Eureka优雅停服

Spring Cloud Netflix Ribbon

Ribbon简介

集中式与进程内负载均衡区别

Ribbon常见的负载均衡策略

Ribbon的点对点直连

Spring Cloud OpenFeign

Feign简介

Feign的请求参数处理

Feign的性能优化

配置Feign负载均衡请求超时时间

Spring Cloud Netflix Hystrix

Hystrix简介

服务降级

服务熔断

请求缓存

Feign的雪崩处理

可视化的数据监控Hystrix-dashboard

Spring Cloud Gateway

Spring Cloud Gateway简介

Gateway基于配置文件实现路由功能

Gateway基于配置类实现路由功能

Gateway中内置过滤器的使用

Gateway中自定义GatewayFilter过滤器的使用

Gateway中自定义GlobalFilter过滤器的使用

Gateway中使用过滤器实现鉴权

Gateway结合Hystrix实现熔断功能

Spring Cloud Config

什么是分布式配置中心

创建配置中心服务端

创建配置中心客户端

基于Gitee存储配置文件

基于分布式配置中心实现热刷新

Spring Cloud Bus

什么是消息总线

基于消息总线实现全局热刷新

ELK

ElasticSearch介绍

ElasticSearch单机版安装

ElasticSearch集群版安装

ElasticSearch索引管理

ElasticSearch文档管理

ElasticSearch文档搜索

SpringDataElasticSearch访问ElasticSearch

LogStash介绍

基于LogStash收集系统日志

TX-LCN

分布式事务简介

分布式事务两大理论依据

分布式事务常见解决方案

LCN简介

TX-LCN的3种模式

LCN原理

LCN环境搭建及Demo演示

Nginx

Nginx的简介

什么是正向代理、反向代理

Nginx的安装

Nginx配置虚拟主机

Nginx配置服务的反向代理

Nginx的负载均衡配置

Spring Session

Spring Session介绍

通过Spring Session共享session中的数据

通过Spring Session同步自定义对象

Spring Session的Redis存储结构

设置Session失效时间

Spring Session序列化器

MyBatis Plus

MyBatis Plus简介

Spring整合MyBatis Plus

MyBatis Plus的全局策略配置

MyBatis 的主键生成策略

MyBatis Plus的CRUD *** 作

条件构造器EntityWrapper讲解

MyBatis Plus的分页插件配置

MyBatis Plus的分页查询

MyBatis Plus的其他插件讲解

MyBatis Plus的代码生成器讲解

MyBatis Plus的公共字段自动填充

ShardingSphere

简介

数据库切分方式

基本概念

MySQL主从配置

切片规则

读写分离

实现分库分表

第七阶段：云服务阶段

Kafka

Kafka简介

Kafka架构

分区和日志

Kafka单机安装

Kafka集群配置

自定义分区

自动控制

Spring for Apache Kafka

Zookeeper

Zookeeper简介和安装

Zookeeper 数据模型

Zookeeper 单机版安装

Zookeeper常见命令

ZClient *** 作Zookeeper

Zookeeper 集群版安装

Zookeeper 客户端常用命令

Zookeeper分布式锁

RPC

什么是分布式架构

什么是RFC、RPC

RestTemplate

RMI实现RPC

基于Zookeeper实现RPC 远程过程调用

Dubbo

SOA架构介绍

Dubbo简介

Dubbo结构图

Dubbo注册中心

Dubbo 支持的协议

Dubbo 注册中心搭建

Spring Boot 整合 Dubbo

Admin管理界面

Dubbo 搭建高可用集群

Dubbo 负载均衡

Spring Cloud Alibaba Dubbo

Spring Cloud Alibaba Dubbo简介

基于Zookeeper发布服务

基于Zookeeper订阅服务

实现远程服务调用处理

Spring Cloud Alibaba Nacos

Spring Cloud Alibaba Nacos简介

搭建Nacos服务器

基于Nacos发布|订阅服务

实现远程服务调用处理

Nacos Config配置中心

Spring Cloud Alibaba Sentinel

Spring Cloud Alibaba Sentinel简介

搭建Sentinel服务器

Sentinel-实时监控

Sentinel-簇点链路

Sentinel-授权规则

Sentinel-系统规则

@SentinelResource注解

持久化规则

Spring Cloud Alibaba Seata

Spring Cloud Alibaba Seata简介

搭建Seata服务器

Seata支持的事务模式-AT模式

Seata支持的事务模式-TCC模式

Seata支持的事务模式-Saga模式

Seata支持的事务模式-XA模式

SeataAT事务模式应用方式

SeataTCC事务模式应用方式

大数据技术是指大数据的应用技术，涵盖各类大数据平台、大数据指数体系等大数据应用技术。

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

随着云时代的来临，大数据也吸引了越来越多的关注。分析师团队认为，大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。

大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

扩展资料：

大数据的三个层面：

1、理论，理论是认知的必经途径，也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性；从对大数据价值的探讨来深入解析大数据的珍贵所在；洞悉大数据的发展趋势；从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

2、技术，技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

3、实践，实践是大数据的最终价值体现。在这里分别从互联网的大数据，政府的大数据，企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

参考资料来源：百度百科-大数据

以下介绍的课程主要针对零基础大数据工程师每个阶段进行通俗易懂简易介绍，方面大家更好的了解大数据学习课程。课程框架是科多大数据的零基础大数据工程师课程。

一、第一阶段：静态网页基础(HTMLCSS)

1难易程度：一颗星

2课时量(技术知识点阶段项目任务综合能力)

3主要技术包括：html常用标签、CSS常见布局、样式、定位等、静态页面的设计制作方式等

4描述如下：

从技术层面来说，该阶段使用的技术代码很简单、易于学习、方便理解。从后期课程层来说，因为我们重点是大数据，但前期需要锻炼编程技术与思维。经过我们多年开发和授课的项目经理分析，满足这两点，目前市场上最好理解和掌握的技术是J2EE，但J2EE又离不开页面技术。所以第一阶段我们的重点是页面技术。采用市场上主流的HTMlCSS。

二、第二阶段：JavaSEJavaWeb

1难易程度：两颗星

2课时量(技术知识点阶段项目任务综合能力)

3主要技术包括：java基础语法、java面向对象(类、对象、封装、继承、多态、抽象类、接口、常见类、内部类、常见修饰符等)、异常、集合、文件、IO、MYSQL(基本SQL语句 *** 作、多表查询、子查询、存储过程、事务、分布式事务)JDBC、线程、反射、Socket编程、枚举、泛型、设计模式

4描述如下：

称为Java基础，由浅入深的技术点、真实商业项目模块分析、多种存储方式的设计

与实现。该阶段是前四个阶段最最重要的阶段，因为后面所有阶段的都要基于此阶段，也是学习大数据紧密度最高的阶段。本阶段将第一次接触团队开发、产出具有前后台(第一阶段技术第二阶段的技术综合应用)的真实项目。

三、第三阶段：前端框架

1难易程序：两星

2课时量(技术知识点阶段项目任务综合能力)：64课时

3主要技术包括：Java、Jquery、注解反射一起使用，XML以及XML解析、解析dom4j、jxab、jdk80新特性、SVN、Maven、easyui

4描述如下：

前两个阶段的基础上化静为动，可以实现让我们网页内容更加的丰富，当然如果从市场人员层面来说，有专业的前端设计人员，我们设计本阶段的目标在于前端的技术可以更直观的锻炼人的思维和设计能力。同时我们也将第二阶段的高级特性融入到本阶段。使学习者更上一层楼。

四、第四阶段：企业级开发框架

1难易程序：三颗星

2课时量(技术知识点阶段项目任务综合能力)

3主要技术包括：Hibernate、Spring、SpringMVC、log4jslf4j整合、myBatis、struts2、Shiro、redis、流程引擎activity，爬虫技术nutch,lucene，、Tomcat集群和热备、MySQL读写分离

4描述如下：

如果将整个JAVA课程比作一个糕点店，那前面三个阶段可以做出一个武大郎烧饼(因为是纯手工-太麻烦)，而学习框架是可以开一个星巴克(高科技设备-省时省力)。从J2EE开发工程师的任职要求来说，该阶段所用到的技术是必须掌握，而我们所授的课程是高于市场(市场上主流三大框架，我们进行七大框架技术传授)、而且有真实的商业项目驱动。需求文档、概要设计、详细设计、源码测试、部署、安装手册等都会进行讲解。

五、第五阶段：初识大数据

1难易程度：三颗星

2课时量(技术知识点阶段项目任务综合能力)

3主要技术包括：大数据前篇(什么是大数据，应用场景，如何学习大数据库，虚拟机概念和安装等)、Linux常见命令(文件管理、系统管理、磁盘管理)、LinuxShell编程(SHELL变量、循环控制、应用)、Hadoop入门(Hadoop组成、单机版环境、目录结构、HDFS界面、MR界面、简单的SHELL、java访问hadoop)、HDFS(简介、SHELL、IDEA开发工具使用、全分布式集群搭建)、MapRece应用(中间计算过程、Java *** 作MapRece、程序运行、日志监控)、Hadoop高级应用(YARN框架介绍、配置项与优化、CDH简介、环境搭建)、扩展(MAP端优化，COMBINER使用方法见,TOPK,SQOOP导出,其它虚拟机VM的快照,权限管理命令,AWK与SED命令)

4描述如下：

该阶段设计是为了让新人能够对大数据有一个相对的大概念怎么相对呢在前置课程JAVA的学习过后能够理解程序在单机的电脑上是如何运行的。现在，大数据呢大数据是将程序运行在大规模机器的集群中处理。大数据当然是要处理数据，所以同样，数据的存储从单机存储变为多机器大规模的集群存储。

(你问我什么是集群好，我有一大锅饭，我一个人可以吃完，但是要很久，现在我叫大家一起吃。一个人的时候叫人，人多了呢是不是叫人群啊!)

那么大数据可以初略的分为：大数据存储和大数据处理所以在这个阶段中呢，我们课程设计了大数据的标准：HADOOP大数据的运行呢并不是在咋们经常使用的WINDOWS7或者W10上面，而是现在使用最广泛的系统：LINUX。

六、第六阶段：大数据数据库

1难易程度：四颗星

2课时量(技术知识点阶段项目任务综合能力)

3主要技术包括：Hive入门(Hive简介、Hive使用场景、环境搭建、架构说明、工作机制)、HiveShell编程(建表、查询语句、分区与分桶、索引管理和视图)、Hive高级应用(DISTINCT实现、groupby、join、sql转化原理、java编程、配置和优化)、hbase入门、HbaseSHELL编程(DDL、DML、Java *** 作建表、查询、压缩、过滤器)、细说Hbase模块(REGION、HREGIONSERVER、HMASTER、ZOOKEEPER简介、ZOOKEEPER配置、Hbase与Zookeeper集成)、HBASE高级特性(读写流程、数据模型、模式设计读写热点、优化与配置)

4描述如下：

该阶段设计是为了让大家在理解大数据如何处理大规模的数据的同时。简化咋们的编写程序时间，同时提高读取速度。

怎么简化呢在第一阶段中，如果需要进行复杂的业务关联与数据挖掘，自行编写MR程序是非常繁杂的。所以在这一阶段中我们引入了HIVE，大数据中的数据仓库。这里有一个关键字，数据仓库。我知道你要问我，所以我先说，数据仓库呢用来做数据挖掘分析的，通常是一个超大的数据中心，存储这些数据的呢，一般为ORACLE,DB2,等大型数据库，这些数据库通常用作实时的在线业务。

总之，要基于数据仓库分析数据呢速度是相对较慢的。但是方便在于只要熟悉SQL，学习起来相对简单，而HIVE呢就是这样一种工具，基于大数据的SQL查询工具，这一阶段呢还包括HBASE，它为大数据里面的数据库。纳闷了，不是学了一种叫做HIVE的数据“仓库”了么HIVE是基于MR的所以查询起来相当慢，HBASE呢基于大数据可以做到实时的数据查询。一个主分析，另一个主查询

七、第七阶段：实时数据采集

1难易程序：四颗星

2课时量(技术知识点阶段项目任务综合能力)

3主要技术包括：Flume日志采集，KAFKA入门(消息队列、应用场景、集群搭建)、KAFKA详解(分区、主题、接受者、发送者、与ZOOKEEPER集成、Shell开发、Shell调试)、KAFKA高级使用(java开发、主要配置、优化项目)、数据可视化(图形与图表介绍、CHARTS工具分类、柱状图与饼图、3D图与地图)、STORM入门(设计思想、应用场景、处理过程、集群安装)、STROM开发(STROMMVN开发、编写STORM本地程序)、STORM进阶(java开发、主要配置、优化项目)、KAFKA异步发送与批量发送时效，KAFKA全局消息有序，STORM多并发优化

4描述如下：

前面的阶段数据来源是基于已经存在的大规模数据集来做的，数据处理与分析过后的结果是存在一定延时的，通常处理的数据为前一天的数据。

举例场景：网站防盗链，客户账户异常，实时征信，遇到这些场景基于前一天的数据分析出来过后呢是否太晚了。所以在本阶段中我们引入了实时的数据采集与分析。主要包括了：FLUME实时数据采集，采集的来源支持非常广泛，KAFKA数据数据接收与发送，STORM实时数据处理，数据处理秒级别

八、第八阶段：SPARK数据分析

1难易程序：五颗星

2课时量(技术知识点阶段项目任务综合能力)

3主要技术包括：SCALA入门(数据类型、运算符、控制语句、基础函数)、SCALA进阶(数据结构、类、对象、特质、模式匹配、正则表达式)、SCALA高级使用(高阶函数、科里函数、偏函数、尾迭代、自带高阶函数等)、SPARK入门(环境搭建、基础结构、运行模式)、Spark数据集与编程模型、SPARKSQL、SPARK进阶(DATAFRAME、DATASET、SPARKSTREAMING原理、SPARKSTREAMING支持源、集成KAFKA与SOCKET、编程模型)、SPARK高级编程(Spark-GraphX、Spark-Mllib机器学习)、SPARK高级应用(系统架构、主要配置和性能优化、故障与阶段恢复)、SPARKMLKMEANS算法，SCALA隐式转化高级特性

4描述如下：

同样先说前面的阶段，主要是第一阶段。HADOOP呢在分析速度上基于MR的大规模数据集相对来说还是挺慢的，包括机器学习，人工智能等。而且不适合做迭代计算。SPARK呢在分析上是作为MR的替代产品，怎么替代呢先说他们的运行机制，HADOOP基于磁盘存储分析，而SPARK基于内存分析。我这么说你可能不懂，再形象一点，就像你要坐火车从北京到上海，MR就是绿皮火车，而SPARK是高铁或者磁悬浮。而SPARK呢是基于SCALA语言开发的，当然对SCALA支持最好，所以课程中先学习SCALA开发语言。

在科多大数据课程的设计方面，市面上的职位要求技术，基本全覆盖。而且并不是单纯的为了覆盖职位要求，而是本身课程从前到后就是一个完整的大数据项目流程，一环扣一环。

比如从历史数据的存储，分析(HADOOP,HIVE,HBASE)，到实时的数据存储(FLUME,KAFKA)，分析(STORM,SPARK)，这些在真实的项目中都是相互依赖存在的。

一、消息中间件相关知识

1、概述

消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能，成为异步RPC的主要手段之一。当今市面上有很多主流的消息中间件，如老牌的ActiveMQ、RabbitMQ，炙手可热的Kafka，阿里巴巴自主开发RocketMQ等。

2、消息中间件的组成

21 Broker

消息服务器，作为server提供消息核心服务

22 Producer

消息生产者，业务的发起方，负责生产消息传输给broker，

23 Consumer

消息消费者，业务的处理方，负责从broker获取消息并进行业务逻辑处理

24 Topic

25 Queue

26 Message

消息体，根据不同通信协议定义的固定格式进行编码的数据包，来封装业务数据，实现消息的传输

3 消息中间件模式分类

31 点对点

PTP点对点:使用queue作为通信载体

说明：

消息生产者生产消息发送到queue中，然后消息消费者从queue中取出并且消费消息。

消息被消费以后，queue中不再存储，所以消息消费者不可能消费到已经被消费的消息。 Queue支持存在多个消费者，但是对一个消息而言，只会有一个消费者可以消费。

说明：

queue实现了负载均衡，将producer生产的消息发送到消息队列中，由多个消费者消费。但一个消息只能被一个消费者接受，当没有消费者可用时，这个消息会被保存直到有一个可用的消费者。

4 消息中间件的优势

41 系统解耦

交互系统之间没有直接的调用关系，只是通过消息传输，故系统侵入性不强，耦合度低。

42 提高系统响应时间

例如原来的一套逻辑，完成支付可能涉及先修改订单状态、计算会员积分、通知物流配送几个逻辑才能完成；通过MQ架构设计，就可将紧急重要（需要立刻响应）的业务放到该调用方法中，响应要求不高的使用消息队列，放到MQ队列中，供消费者处理。

43 为大数据处理架构提供服务

通过消息作为整合，大数据的背景下，消息队列还与实时处理架构整合，为数据处理提供性能支持。

44 Java消息服务——JMS

Java消息服务（Java Message Service，JMS）应用程序接口是一个Java平台中关于面向消息中间件（MOM）的API，用于在两个应用程序之间，或分布式系统中发送消息，进行异步通信。

5 消息中间件应用场景

51 异步通信

有些业务不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。

52 解耦

降低工程间的强依赖程度，针对异构系统进行适配。在项目启动之初来预测将来项目会碰到什么需求，是极其困难的。通过消息系统在处理过程中间插入了一个隐含的、基于数据的接口层，两边的处理过程都要实现这一接口，当应用发生变化时，可以独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。

53 冗余

有些情况下，处理数据的过程会失败。除非数据被持久化，否则将造成丢失。消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的”插入-获取-删除”范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。

54 扩展性

因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可。不需要改变代码、不需要调节参数。便于分布式扩容。

55 过载保护

在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量无法提取预知；如果以为了能处理这类瞬间峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。

56 可恢复性

系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。

57 顺序保证

在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。

58 缓冲

在任何重要的系统中，都会有需要不同的处理时间的元素。消息队列通过一个缓冲层来帮助任务最高效率的执行，该缓冲有助于控制和优化数据流经过系统的速度。以调节系统响应时间。

59 数据流处理

分布式系统产生的海量数据流，如：业务日志、监控数据、用户行为等，针对这些数据流进行实时或批量采集汇总，然后进行大数据分析是当前互联网的必备技术，通过消息队列完成此类数据收集是最好的选择。

6 消息中间件常用协议

61 AMQP协议

AMQP即Advanced Message Queuing Protocol,一个提供统一消息服务的应用层标准高级消息队列协议,是应用层协议的一个开放标准,为面向消息的中间件设计。基于此协议的客户端与消息中间件可传递消息，并不受客户端/中间件不同产品，不同开发语言等条件的限制。

优点：可靠、通用

62 MQTT协议

MQTT（Message Queuing Telemetry Transport，消息队列遥测传输）是IBM开发的一个即时通讯协议，有可能成为物联网的重要组成部分。该协议支持所有平台，几乎可以把所有联网物品和外部连接起来，被用来当做传感器和致动器（比如通过Twitter让房屋联网）的通信协议。

优点：格式简洁、占用带宽小、移动端通信、PUSH、嵌入式系统

63 STOMP协议

STOMP（Streaming Text Orientated Message Protocol）是流文本定向消息协议，是一种为MOM(Message Oriented Middleware，面向消息的中间件)设计的简单文本协议。STOMP提供一个可互 *** 作的连接格式，允许客户端与任意STOMP消息代理（Broker）进行交互。

优点：命令模式（非topic\queue模式）

64 XMPP协议

XMPP（可扩展消息处理现场协议，Extensible Messaging and Presence Protocol）是基于可扩展标记语言（XML）的协议，多用于即时消息（IM）以及在线现场探测。适用于服务器之间的准即时 *** 作。核心是基于XML流传输，这个协议可能最终允许因特网用户向因特网上的其他任何人发送即时消息，即使其 *** 作系统和浏览器不同。

优点：通用公开、兼容性强、可扩展、安全性高，但XML编码格式占用带宽大

65 其他基于TCP/IP自定义的协议

有些特殊框架（如：redis、kafka、zeroMq等）根据自身需要未严格遵循MQ规范，而是基于TCP\IP自行封装了一套协议，通过网络socket接口进行传输，实现了MQ的功能。

7 常见消息中间件MQ介绍

71 RocketMQ

阿里系下开源的一款分布式、队列模型的消息中间件，原名Metaq，30版本名称改为RocketMQ，是阿里参照kafka设计思想使用java实现的一套mq。同时将阿里系内部多款mq产品（Notify、metaq）进行整合，只维护核心功能，去除了所有其他运行时依赖，保证核心功能最简化，在此基础上配合阿里上述其他开源产品实现不同场景下mq的架构，目前主要多用于订单交易系统。

具有以下特点：

官方提供了一些不同于kafka的对比差异：

简介： 随着公司业务的不断发展，流量也在不断增长。我们发现生产中的一些重大事故，往往是被突发的流量冲跨的，对流量的治理和防护，保障系统高可用就尤为重要。

哈啰已进化为包括两轮出行（哈啰单车、哈啰助力车、哈啰电动车、小哈换电）、四轮出行（哈啰顺风车、全网叫车、哈啰打车）等的综合化移动出行平台，并向酒店、到店团购等众多本地生活化生态探索。

随着公司业务的不断发展，流量也在不断增长。我们发现生产中的一些重大事故，往往是被突发的流量冲跨的，对流量的治理和防护，保障系统高可用就尤为重要。

本文就哈啰在消息流量和微服务调用的治理中踩过的坑、积累的经验进行分享。

梁勇 ( 老梁 ) ，《 RocketMQ 实战与进阶》专栏联合作者、参与了《 RocketMQ 技术内幕》审稿工作。ArchSummit 全球架构师大会讲师、QCon 案例研习社讲师。

当前主要在后端中间件方向，在公众号瓜农老梁已陆续发表百余篇源码实战类文章，涵盖 RocketMQ 系列、Kafka 系列、GRPC 系列、Nacosl 系列、Sentinel 系列、Java NIO 系列。目前就职于哈啰出行，任职高级技术专家。

开始之前先聊聊治理这件事情，下面是老梁个人理解：

公司之前使用 RabbitMQ ，下面在使用 RabbitMQ 时的痛点，其中很多事故由于 RabbitMQ 集群限流引起的。

曾经有这么一个故障，多个业务共用一个数据库。在一次晚高峰流量陡增，把数据库打挂了。

思考：无论消息还是服务都需要完善的治理措施

哪些是我们的关键指标，哪些是我们的次要指标，这是消息治理的首要问题。

设计目标

旨在屏蔽底层各个中间件（ RocketMQ / Kafka ）的复杂性，通过唯一标识动态路由消息。同时打造集资源管控、检索、监控、告警、巡检、容灾、可视化运维等一体化的消息治理平台，保障消息中间件平稳健康运行。

把复杂的问题搞简单，那是能耐。

极简统一 API

提供统一的 SDK 封装了（ Kafka / RocketMQ ）两种消息中间件。

主题消费组自动创建不适合生产环境，自动创建会导致失控，不利于整个生命周期管理和集群稳定。需要对申请流程进行控制，但是应尽可能简单。例如：一次申请各个环境均生效、生成关联告警规则等。

监控客户端使用是否规范，找到合适的措施治理

场景一瞬时流量与集群的流控

假设现在集群 Tps 有 1 万，瞬时翻到 2 万甚至更多，这种过度陡增的流量极有可能引发集群流控。针对这类场景需监控客户端的发送速度，在满足速度和陡增幅度阈值后将发送变的平缓一些。

场景二大消息与集群抖动

当客户端发送大消息时，例如：发送几百KB甚至几兆的消息，可能造成 IO 时间过长与集群抖动。针对这类场景治理需监控发送消息的大小，我们采取通过事后巡检的方式识别出大消息的服务，推动使用同学压缩或重构，消息控制在 10KB 以内。

场景三过低客户端版本

随着功能的迭代 SDK 的版本也会升级，变更除了功能外还有可能引入风险。当使用过低的版本时一个是功能不能得到支持，另外一个是也可能存在安全隐患。为了解 SDK 使用情况，可以采取将 SDK 版本上报，通过巡检的方式推动使用同学升级。

场景四消费流量摘除和恢复

消费流量摘除和恢复通常有以下使用场景，第一个是发布应用时需要先摘流量，另外一个是问题定位时希望先把流量摘除掉再去排查。为了支持这种场景，需要在客户端监听摘除/恢复事件，将消费暂停和恢复。

场景五发送/消费耗时检测

发送/消费一条消息用了多久，通过监控耗时情况，巡检摸排出性能过低的应用，针对性推动改造达到提升性能的目的。

场景六提升排查定位效率

在排查问题时，往往需要检索发了什么消息、存在哪里、什么时候消费的等消息生命周期相关的内容。这部分可以通过 msgId 在消息内部将生命周期串联起来。另外是通过在消息头部埋入 rpcId / traceId 类似链路标识，在一次请求中将消息串起来。

需要的监控信息

常用治理措施

监控主题消费组资源使用情况

场景一消费积压对业务的影响

有些业务场景对消费堆积很敏感，有些业务对积压不敏感，只要后面追上来消费掉即可。例如单车开锁是秒级的事情，而信息汇总相关的批处理场景对积压不敏感。通过采集消费积压指标，对满足阈值的应用采取实时告警的方式通知到应用负责的同学，让他们实时掌握消费情况。

场景二消费/发送速度的影响

发送/消费速度跌零告警？有些场景速度不能跌零，如果跌零意味着业务出现异常。通过采集速度指标，对满足阈值的应用实时告警。

场景三消费节点掉线

消费节点掉线需要通知给应用负责的同学，这类需要采集注册节点信息，当掉线时能实时触发告警通知。

场景四发送/消费不均衡

发送/消费的不均衡往往影响其性能。记得有一次咨询时有同学将发送消息的key设置成常量，默认按照 key 进行 hash 选择分区，所有的消息进入了一个分区里，这个性能是无论如何也上不来的。另外还要检测各个分区的消费积压情况，出现过度不均衡时触发实时告警通知。

需要的监控信息

常用治理措施

度量集群健康的核心指标有哪些？

场景一集群健康检测

集群健康检测回答一个问题：这个集群是不是好的。通过检测集群节点数量、集群中每个节点心跳、集群写入Tps水位、集群消费Tps水位都是在解决这个问题。

场景二集群的稳定性

集群流控往往体现出集群性能的不足，集群抖动也会引发客户端发送超时。通过采集集群中每个节点心跳耗时情况、集群写入Tps水位的变化率来掌握集群是否稳定。

场景三集群的高可用

高可用主要针对极端场景中导致某个可用区不可用、或者集群上某些主题和消费组异常需要有一些针对性的措施。例如：MQ 可以通过同城跨可用区主从交叉部署、动态将主题和消费组迁移到灾备集群、多活等方式进行解决。

需要的监控信息

常用治理措施

如果说这些关键指标中哪一个最重要？我会选择集群中每个节点的心跳检测，即：响应时间（ RT ），下面看看影响 RT 可能哪些原因。

我们总会遇到坑，遇到就把它填了。

RocketMQ 从节点、主节点频繁 CPU 飙高，很明显的毛刺，很多次从节点直接挂掉了。

只有系统日志有错误提示

2020-03-16T17:56:07505715+08:00 VECS0xxxx kernel:[] __alloc_pages_nodemask+0x7e1/0x9602020-03-16T17:56:07505717+08:00 VECS0xxxx kernel: java: page allocation failure order:0, mode:0x202020-03-16T17:56:07505719+08:00 VECS0xxxx kernel: Pid: 12845, comm: java Not tainted 2632-754171el6x86_64 #12020-03-16T17:56:07505721+08:00 VECS0xxxx kernel: Call Trace:2020-03-16T17:56:07505724+08:00 VECS0xxxx kernel:[] __alloc_pages_nodemask+0x7e1/0x9602020-03-16T17:56:07505726+08:00 VECS0xxxx kernel: [] dev_queue_xmit+0xd0/0x3602020-03-16T17:56:07505729+08:00 VECS0xxxx kernel: [] ip_finish_output+0x192/0x3802020-03-16T17:56:07505732+08:00 VECS0xxxx kernel: []

各种调试系统参数只能减缓但是不能根除，依然毛刺超过 50%

将集群所有系统升级从 centos 6 升级到 centos 7 ，内核版本也从从 26 升级到 310 ，CPU 毛刺消失。

RocketMQ 社区版默认本支持 18 个延迟级别，每个级别在设定的时间都被会消费者准确消费到。为此也专门测试过消费的间隔是不是准确，测试结果显示很准确。然而，如此准确的特性居然出问题了，接到业务同学报告线上某个集群延迟消息消费不到，诡异！

将" delayOffsetjson "和" consumequeue / SCHEDULE_TOPIC_XXXX "移到其他目录，相当于删除；逐台重启 broker 节点。重启结束后，经过验证，延迟消息功能正常发送和消费。

哪些是我们的核心服务，哪些是我们的非核心服务，这是服务治理的首要问题

服务能应对突如其来的陡增流量，尤其保障核心服务的平稳运行。

根据用户和业务影响两个纬度来进行评估设定的，将应用分成了四个等级。

S1：核心产品，产生故障会引起外部用户无法使用或造成较大资损，比如主营业务核心链路，如单车、助力车开关锁、顺风车的发单和接单核心链路，以及其核心链路强依赖的应用。

S2: 不直接影响交易，但关系到前台业务重要配置的管理与维护或业务后台处理的功能。

S3: 服务故障对用户或核心产品逻辑影响非常小，且对主要业务没影响，或量较小的新业务；面向内部用户使用的重要工具，不直接影响业务，但相关管理功能对前台业务影响也较小。

S4: 面向内部用户使用，不直接影响业务，或后续需要推动下线的系统。

S1 服务是公司的核心服务，是重点保障的对象，需保障其不被非核心服务流量意外冲击。

思极有容时序数据库正是普华公司面对这一高速增长的物联网大数据市场和技术挑战推出的创新性的大数据处理产品，它不依赖任何第三方软件，也不是优化或包装了一个开源的数据库或流式计算产品，而是在吸取众多传统关系型数据库、NoSQL数据库、流式计算引擎、消息队列等软件的优点之后自主开发的产品，在时序空间大数据处理上，有着自己独到的优势。

· 10倍以上的性能提升：定义了创新的数据存储结构，单核每秒就能处理至少2万次请求，插入数百万个数据点，读出一千万以上数据点，比现有通用数据库快了十倍以上。

· 硬件或云服务成本降至1/5：由于超强性能，计算资源不到通用大数据方案的1/5；通过列式存储和先进的压缩算法，存储空间不到通用数据库的1/10。

· 全栈时序数据处理引擎：将数据库、消息队列、缓存、流式计算等功能融合一起，应用无需再集成Kafka/Redis/HBase/HDFS等软件，大幅降低应用开发和维护的复杂度成本。

· 强大的分析功能：无论是十年前还是一秒钟前的数据，指定时间范围即可查询。数据可在时间轴上或多个设备上进行聚合。临时查询可通过Shell, Python, R, Matlab随时进行。

· 与第三方工具无缝连接：不用一行代码，即可与Telegraf, Grafana, Matlab, R等工具集成。后续将支持MQTT, OPC等工具, 与BI工具也能够无缝连接。

· 零运维成本、零学习成本：安装、集群一秒搞定，无需分库分表，实时备份。支持标准SQL语句，支持JDBC, RESTful连接, 支持Python/Java/C/C++/Go等开发语言, 与MySQL相似，零学习成本。

采用思极有容时序数据库，可将典型的物联网、车联网、工业互联网大数据平台的整体成本降至现有的1/5。同样的硬件资源，思极有容时序数据库能将系统处理能力和容量增加五倍以上。

同时，相比HBase等数据库，使用普华思极有容时序数据库来存储有以下优势:

1 存储空间大幅节省，估计不到HBase的1/10

2 服务器资源大幅节省，估计不到1/5

3 查询速度提高至少10倍

4 提供异地容灾备份方案

5 支持通过标准SQL进行即席查询

6 数据超过保留时长，自动删除

7 零管理，安装、部署、维护极其简单，一键搞定

以上就是关于求java学习路线图全部的内容，包括:求java学习路线图、什么是大数据技术大数据的概念、做Java开发都需要学什么怎么学等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9655061.html

求java学习路线图

发表评论

评论列表（0条）