akka+netty+pb+redis+mysql=?

akka+netty+pb+redis+mysql=?,第1张

Jedis已经足够强大,它的网络连接是基于阻塞式IO,实现非常简单易懂,但是OIO和NIO相比性能上有劣势,于是决定通过NIO来实现和Redis服务器的网络连接,现在业界最优秀的NIO框架非Netty莫属了,正好以前也学过Netty框架,所以决定基于Netty来实现这个Redis客户端,这样还可以同时再次熟悉一下Netty,于是一个高大上的名字新鲜出炉-Nedis。关于命令的实现就没什么好纠结,完全参照Redis官方文档来就可以了,也可以参考Jedis代码。

由于本码农平时工作比较忙,在公司工作时是不可能抽时间来搞的,一没时间,大佬们各种催活,二是由于公司的信息安全政策,公司里面写的代码是拿不出来的。所以只有利用晚上下班时间和周末的业余时间来搞,工作日有2-3个小时的时间,大概10点开搞,到1点左右,周末由于要带娃做饭,也只能挤出3-4个小时出来,所以进展比较慢,从4月初到现在将近20天的时间终于完成了key、string、hash、list、set、 SortedSet的所有单机命令以及客户端分片(Sharding),其它的事务、lua脚本、集群等功能还未实现,留到后面版本再实现。

HPA实现原理: 通过分析追踪指定RC控制的所有目标POD的负载变化情况,

来确定是否需要针对性地调整目标POD的副本数量

HPA度量指标: 1: CPU  2: 应用程序自定义的度量指标 比如服务在每秒内的相应请求数,如TPS  QPS

CPU利用率  Pod Request/ pod 使用量

如果没有定义Pod Request的值,则无法实现Pod 横向自动扩容

kubernetes 从1.2开始也在尝试支持应用程序自定义的度量指标

------------------------------------------------------------------------------------------------------------

CPU使用量通常是1MIN内的平均值

从1.7版本开始,kubernetes自身孵化了一个基础性能数据采集监控框架:

kubernetes Monitoring Architecture

HMA

kubernetes自定义了一套标准化的API接口, Resource Metrics API

客户端应用程序(HPA)

------------------------------------------------------------------------

下面是HPA定义的一个具体例子:

超过90% 会自动扩容,约束条件是Pod的副本数为1-10

也可以通过简单命令行直接创建等价的HPA对象:

POD的管理对象 RC Deployment DaemonSet Job都面向无状态的服务

复杂的中间件集群: 如MYSQL mongodb akka zookeeper集群都是有状态的

-----------------------------------------------------------------------------------

StatefulSet 可以看作是RC/Deployment  的一个特殊变种

RC/Deployment无法满足

1: 固定id 相互通信

2: 集群规模固定,不能随意变动

3: 每个节点都是有状态的,通常持久化数据到永久存储中

4: 磁盘顺坏则无法正常运行,集群功能受损

----------------------------------------------------------------

statefulSet有如下特性:

1: 稳定,唯一的网络标识

用来发现集群内其他成员 如第一个: kafka-0  第二个: kafka-1

2: statefulSet控制的POD启动顺序是受控的, *** 作n个POD,前面n-1是运行且准备好的状态

3: Pod采用稳定的持久化存储卷

通过PV或PVC来实现

删除POD时不会删除存储卷

-------------------------------------------------------------------------------------

StatefulSet 与PV 绑定以存储POD的状态数据

还要与Headless Service 配合使用

在每个StatefulSet中声明它属于哪个headless Service

HEADless Service 与 普通 Service的区别:

它没有Cluster IP 如果解析Headless Service的域名返回的是Service对应的全部POD的Endpoint列表

StateFulSet在HEadless Service的基础上又为StatefulSet 控制的每个POD 实例都创建了一个DNS域名,域名为 $(podname).$(headless service name)

如: kafka-1.kafka kafka-0.kafka

一. 雪球公司介绍

雪球 聪明的投资者都在这里。

web 1.0:新闻资讯,股价信息,K线图

web 2.0:SNS 订阅,分享,聊天

web 3.0:移动 APP,交易闭环

雪球现在员工数还不到100,其中技术人员占一半。去年9月C轮融资4kw刀。我们现在的技术栈由下列组件组成:Java,Scala,Akka,Finagle,Nodejs,Docker ,Hadoop。我们当前是租用IDC机房自建私有云,正在往“公私混合云”方向发展。

在雪球上,用户可以获取沪深港美2w+股票的新闻信息,股价变化情况,也可以获取债券,期货,基金,比特币,信托,理财,私募等等理财产品的各类信息,也可以关注雪球用户建立的百万组合,订阅它们的实时调仓信息,还可以关注雪球大V。雪球当前有百万日活跃用户,每天有4亿的API调用。App Store 财务免费榜第 18 名。历史上曾排到财务第二,总免费榜第 19。

二. 雪球当前总体架构

作为一个典型的移动互联网创业公司,雪球的总体架构也是非常典型的设计:

最上层是三个端:web端,android端和iOS端。流量比例大约为 2:4:4 。web3.0 的交易功能,在 web 端并不提供。

接入层以及下面的几个层,都在我们的自建机房内部。雪球当前只部署了一个机房,还属于单机房时代。正在进行“私有云+公有云混合部署”方案推进过程中。

我们当前使用 nodejs 作为 web 端模板引擎。nodejs 模块与android 和 ios 的 app 模块一起属于大前端团队负责。

再往下是位于 nginx 后面的 api 模块。跟 linkedin 的 leo 和微博的 v4 一样,雪球也有一个遗留的大一统系统,名字就叫 snowball 。最初,所有的逻辑都在 snowball 中实现的。后来慢慢的拆出去了很多 rpc 服务,再后来慢慢的拆出去了一些 http api 做成了独立业务,但即便如此,snowball 仍然是雪球系统中最大的一个部署单元。

在需要性能的地方,我们使用 netty 搭建了一些独立的接口,比如 quoto server,是用来提供开盘期间每秒一次的股价查询服务,单机 qps 5w+,这个一会再细说;而 IM 服务,起初设计里是用来提供聊天服务,而现在,它最大的用途是提供一个可靠的 push 通道,提供 5w/s 的消息下发容量,这个也一会再细说。

雪球的服务化拆分及治理采用 twitter 开源的 finagle rpc 框架,并在上面进行了一些二次开发和定制。定制的功能主要集中在 access log 增强,和 fail fast,fail over 策略及降级开关等。 finagle 的实现比较复杂,debug 和二次开发的门槛较高,团队内部对此也进行了一些讨论。

雪球的业务比较复杂,在服务层中,大致可以分为几类:第一类是web1.0,2.0 及基础服务,我们称为社区,包括用户,帖子,新闻,股价,搜索等等,类比对象就是新浪财经门户+微博;第二类是组合及推荐,主要提供股票投资策略的展示和建议,类比对象是美国的motif;第三类是通道,类似股市中的“支付宝”,接入多家券商,提供瞬间开户,一键下单等等各种方便 *** 作的功能。

雪球的业务实现中,包含很多异步计算逻辑,比如搜索建索引,比如股票涨跌停发通知,比如组合收益计算等等,为此,我们设计了一个独立的 Thread/Task 模块,方便管理所有的后台计算任务。但随着这些 task 越来越多,逻辑差异越来越大,一个统一的模块并不是总是最佳的方案,所以,我们又把它拆成了两大类:流式的,和批量式的。

雪球的推荐体系包括组合推荐“买什么”和个性化推荐。我们最近正在重新梳理我们的大数据体系,这个感兴趣的话可以单聊。

最下面是基础设施层。雪球基础设施层包括:redis,mysql,mq,zk,hdfs,以及容器 docker。

线上服务之外,我们的开发及后台设施也很典型:gitlab开发,jenkins打包,zabbix 监控系统向 openfalcon 迁移,redimine向confluence迁移,jira,以及内部开发的 skiing 后台管理系统。

** 三. 雪球架构优化历程**

首先描述一下标题中的“股市动荡”定语修饰词吧:

上证指数从年初的3000点半年时间涨到了5000多,6月12号达到最高点5200点,然后就急转直下,最大单日跌幅 8.48%,一路跌回4000点以下。最近一周都在3900多徘徊。

3月最后一周,A股开户 166万户,超过历史最高纪录 2007年5月第二周165万户。

4月份,证监会宣布A股支持单用户开设多账户。

6月底,证金公司代表国家队入场救市。

7月份,证监会宣布严打场外配资。

中国好声音广告第一晚,带来超过平时峰值200倍的注册量

挑战:小 VS 大:

小:小公司的体量,团队小,机器规模小

大:堪比大公司的业务线数量,业务复杂度,瞬间峰值冲击

雪球的业务线 = 1个新浪财经 + 1 个微博 + 1 个 motif + 1 个大智慧/同花顺。由于基数小,API调用瞬间峰值大约为平时峰值的 30+ 倍。

挑战:快速增长,移动互联网 + 金融,风口,A股大盘剧烈波动。

首先,在app端,在我们核心业务从 web2.0 sns 向 3.0 移动交易闭环进化的过程中,我们开发了一个自己的 hybrid 框架:本地原生框架,加离线 h5 页面,以此来支撑我们的快速业务迭代。当前,雪球前端可以做到 2 周一个版本,且同时并行推进 3 个版本:一个在 app store 等待审核上线,一个在内测或公测,一个在开发。我们的前端架构师孟祥宇在今年的 wot 上有一个关于这方面的详细分享,有兴趣的可以稍后再深入了解。

雪球App实践—构建灵活、可靠的Hybrid框架 http://wot.51cto.com/2015mobile/ http://down.51cto.com/data/2080769

另外,为了保障服务的可用性,我们做了一系列的“端到端服务质量监控”。感兴趣的可以搜索我今年4月份在环信SM meetup上做的分享《移动时代端到端的稳定性保障》。其中在 app 端,我们采用了一种代价最小的数据传输方案:对用户的网络流量,电池等额外消耗几乎为0

每个请求里带上前一个请求的结果

succ or fail : 1 char

失败原因:0 - 1 char

请求接口编号: 1 char

请求耗时:2 - 3 char

其它:网络制式,etc

炒股的人大多都会盯盘:即在开盘期间,开着一个web页面或者app,实时的看股价的上下跳动。说到“实时”,美股港股当前都是流式的数据推送,但国内的A股,基本上都是每隔一段时间给出一份系统中所有股票现价的一个快照。这个时间间隔,理论上是3秒,实际上一般都在5秒左右。 交了钱签了合同,雪球作为合作方就可以从交易所下属的数据公司那里拿到数据了,然后提供给自己的用户使用。

刚才介绍总体架构图的时候有提到 quote server ,说到这是需要性能的地方。

业务场景是这样的,雪球上个人主页,开盘期间,每秒轮询一次当前用户关注的股票价格变动情况。在内部,所有的组合收益计算,每隔一段时间需要获取一下当前所有股票的实时价格。起初同时在线用户不多,这个接口就是一个部署在 snowball 中的普通接口,股价信息被实时写入 redis ,读取的时候就从 redis 中读。后来,A股大涨,snowball 抗不住了。于是我们就做了一个典型的优化:独立 server + 本地内存存储。开盘期间每次数据更新后,数据接收组件主动去更新 quote server 内存中的数据。 后续进一步优化方案是将这个接口以及相关的处理逻辑都迁移到公有云上去。

对于那些不盯盘的人,最实用的功能就是股价提醒了。在雪球上,你除了可以关注用户,还可以关注股票。如果你关注的某只股票涨了或跌了,我们都可以非常及时的通知你。雪球上热门股票拥有超过 50w 粉丝(招商银行,苏宁云商)粉丝可以设置:当这支股票涨幅或跌幅超过 x%(默认7%)时提醒我。曾经连续3天,每天超过1000股跌停,证监会开了一个会,于是接下来2天超过1000股涨停

原来做法:

股票涨(跌)x%,扫一遍粉丝列表,过滤出所有符合条件的粉丝,推送消息

新做法:

预先建立索引,开盘期间载入内存

1%:uid1,uid2

2%:uid3,uid4,uid5

3%:uid6

问题:有时候嫌太及时了:频繁跌停,打开跌停,再跌停,再打开。。。的时候

内部线上记录:

4台机器。

单条消息延时 99% 小于 30秒。

下一步优化目标:99% 小于 10 秒

IM 系统最初的设计目标是为雪球上的用户提供一个聊天的功能:

送达率第一

雪球IM:Netty + 自定义网络协议

Akka : 每个在线client一个actor

推模式:client 在线情况下使用推模式

多端同步:单账号多端可登录,并保持各种状态同步

移动互联网时代,除了微信qq以外的所有IM,都转型成了推送通道,核心指标变成了瞬间峰值性能。原有架构很多地方都不太合适了。

优化:

分配更多资源:推送账号actor池

精简业务逻辑:重复消息只存id,实时提醒内容不推历史设备,不更新非活跃设备的session列表等等

本地缓存:拉黑等无法精简的业务逻辑迁移到本地缓存

优化代码:异步加密存储,去除不合理的 akka 使用

akka这个解释一下:akka 有一个自己的 log adapter,内部使用一个 actor 来处理所有的 log event stream 。当瞬间峰值到来的时候,这个 event stream 一下子就堵了上百万条 log ,导致 gc 颠簸非常严重。最后的解决办法是,绕过 akka 的 log adapter,直接使用 logback 的 appender

线上记录:5w/s (主动限速)的推送持续 3 分钟,p99 性能指标无明显变化

7月10号我们在中国好声音上做了3期广告。在广告播出之前,我们针对广告可能带来的对系统的冲击进行了压力测试,主要是新用户注册模块,当时预估广告播出期间2小时新注册100万

压测发现 DB 成为瓶颈:

昵称检测 cache miss >40%

昵称禁用词 where like 模糊查询

手机号是否注册 cache miss >80%

注册新用户:5 insert

优化:

redis store:昵称,手机号

本地存储:昵称禁用词

业务流程优化:DB insert *** 作同步改异步

下一步优化计划:

将 sns 系统中所有的上行 *** 作都改成类似的异步模式

接口调用时中只更新缓存,而且主动设置5分钟过期,然后写一个消息到 mq 队列,队列处理程序拿到消息再做其它耗时 *** 作。

为了支持失败重试,需要将主要的资源 *** 作步骤都做成幂等。

前置模块HA:

合作方合规要求:业务单元部署到合作方内网,用户的敏感数据不允许离开进程内存

业务本身要求:业务单元本身为有状态服务,业务单元高可用

解决方案:

使用 Hazelcast In-Memory Data Grid 的 replication map 在多个 jvm 实例之间做数据同步。

java 启动参数加上 -XX:+DisableAttachMechanism -XX:-UsePerfData,禁止 jstack,jmap 等等 jdk 工具连接

关于前置模块,其实还有很多很奇葩的故事,鉴于时间关系,这里就不展开讲了。以后有机会可以当笑话给大家讲。

组合净值计算性能优化:

一支股票可能在超过20万个组合里(南车北车中车,暴风科技)

离线计算,存储计算后的结果

股价3秒变一次,涉及到这支股票的所有组合理论上也需要每 3 秒重新计算一次

大家可能会问,为什么不用户请求时,实时计算呢?这是因为“组合净值”中还包括分红送配,分股,送股,拆股,合股,现金,红利等等,业务太过复杂,开发初期经常需要调整计算逻辑,所以就设计成后台离线计算模式了。当前正在改造,将分红送配逻辑做成离线计算,股价组成的净值实时计算。接口请求是,将实时计算部分和离线计算部分合并成最终结果。

实际上,我们的计算逻辑是比较低效的:循环遍历所有的组合,对每个组合,获取所有的价值数据,然后计算。完成一遍循环后,立即开始下一轮循环。

优化:

分级:活跃用户的活跃组合,其它组合。

批量:拉取当前所有股票的现价到 JVM 内存里,这一轮的所有组合计算都用这一份股价快照。

关于这个话题的更详细内容,感兴趣的可以参考雪球组合业务总监张岩枫在今年的 arch summit 深圳大会上的分享:构建高可用的雪球投资组合系统技术实践 http://sz2015.archsummit.com/speakers/201825

最后,我们还做了一些通用的架构和性能优化,包括jdk升级到8,开发了一个基于 zookeeper 的 config center 和开关降级系统

四. 聊聊关于架构优化的一些总结和感想

在各种场合经常听说的架构优化,一般都是优化某一个具体的业务模块,将性能优化到极致。而在雪球,我们做的架构优化更多的是从问题出发,解决实际问题,解决到可以接受的程度即可。可能大家看起来会觉得很凌乱,而且每个事情单独拎出来好像都不是什么大事。

我们在对一个大服务做架构优化时,一般是往深入的本质进行挖掘;当我们面对一堆架构各异的小服务时,“架构优化”的含义其实是有一些不一样的。大部分时候,我们并不需要(也没有办法)深入到小服务的最底层进行优化,而是去掉或者优化原来明显不合理的地方就可以了。

在快速迭代的创业公司,我们可能不会针对某一个服务做很完善的架构设计和代码实现,当出现各种问题时,也不会去追求极致的优化,而是以解决瓶颈问题为先。

即使我们经历过一回将 snowball 拆分服务化的过程,但当我们重新上一个新的业务时,我们依然选择将它做成一个大一统的服务。只是这一次,我们会提前定义好每个模块的 service 接口,为以后可能的服务化铺好路。

在创业公司里,重写是不能接受的;大的重构,从时间和人力投入上看,一般也是无法承担的。而“裱糊匠”式做法,哪里有性能问题就加机器,加缓存,加数据库,有可用性问题就加重试,加log,出故障就加流程,加测试,这也不是雪球团队工作方式。我们一般都采用最小改动的方式,即,准确定义问题,定位问题根源,找到问题本质,制定最佳方案,以最小的改动代价,将问题解决到可接受的范围内。

我们现在正在所有的地方强推3个数据指标:qps,p99,error rate。每个技术人员对自己负责的服务,一定要有最基本的数据指标意识。数字,是发现问题,定位根源,找到本质的最重要的依赖条件。没有之一。

我们的原则:保持技术栈的一致性和简单性,有节制的尝试新技术,保持所有线上服务依赖的技术可控,简单来说,能 hold 住。

能用cache的地方绝不用db,能异步的地方,绝不同步。俗称的:吃一堑,长一智。

特事特办:业务在发展,需求在变化,实现方式也需要跟着变化。简单的来说:遗留系统的优化,最佳方案就是砍需求,呵呵。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/8408285.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-16
下一篇 2023-04-16

发表评论

登录后才能评论

评论列表(0条)

保存