(二)微信红包高并发系统设计方案（1）_sql

2017年1月28日，正月初一，微信公布了用户在除夕当天收发微信红包的数量——142亿个，而其收发峰值也已达到76万每秒。百亿级别的红包，如何保障并发性能与资金安全？这给微信带来了超级挑战。面对挑战，微信红包在分析了业界“秒杀”系统解决方案的基础上，采用了 SET化、请求排队串行化、双维度分库表等设计，形成了独特的高并发、资金安全系统解决方案。实践证明，该方案表现稳定，且实现了除夕夜系统零故障运行。概要：

一、业务特点：海量的并发要求；严格的安全级别

二、技术难点：并发请求抢锁；事务级 *** 作量级大；事务性要求严格

三、解决高并发问题通常使用的方案：

1.使用内存 *** 作替代实时的DB事务 *** 作（优点：内存 *** 作替代磁盘 *** 作，提高了并发性能。）

2使用乐观锁替代悲观锁。应用于微信红包系统，则会存在下面三个问题：滚并返回失败；并发大失败，小成功。DB压力大。

四、微信红包系统的高并发解决方案：

1.系统垂直SET化，分而治之。

2.逻辑Server层将请求排队，解决DB并发问题。

3.双维度库表设计，保障系统性能稳定

类似“秒杀”活动，群里发一个红包=“秒杀”商品上架；抢红包的动作=“秒杀”的查询库存；拆红包=“秒杀”

同一时间有10万个群里的用户同时在发红包，那就相当于同一时间有10万个“秒杀”活动发布出去。10万个微信群里的用户同时抢红包，将产生海量的并发请求。

微信红包是微信支付的一个商户，提供资金流转服务。

用户发红包=购买一笔“钱”（在微信红包这个商户上），并且收货地址是微信群。当用户支付成功后，红包“发货”到微信群里，群里的用户拆开红包后，微信红包提供了将“钱”转入折红包用户微信零钱的服务。

资金交易业务比普通商品“秒杀”活动有更高的安全级别要求。普通的商品“秒杀”商品由商户提供，库存是商户预设的，“秒杀”时可以允许存在“超卖”、“少卖”的情况。但是对于微信红包，100元不可以被拆出101元；领取99元时，剩下的1元在24小时过期后要精确地退还给发红包用户，不能多也不能少。

在介绍微信红包系统的技术难点之前，先介绍下简单的、典型的商品“秒杀”系统的架构设计，如下图所示。

该系统由接入层、逻辑服务层、存储层与缓存构成。Proxy处理请求接入，Server承载主要的业务逻辑，Cache用于缓存库存数量、DB则用于数据持久化。

一个“秒杀”活动，对应DB中的一条库存记录。当用户进行商品“秒杀”时，系统的主要逻辑在于DB中库存的 *** 作上。一般来说，对DB的 *** 作流程有以下三步：

a. 锁库存

b. 插入“秒杀”记录

c. 更新库存

a.锁库存是为了避免并发请求时出现“ 超卖 ”情况。同时要求这三步 *** 作需要在一个事务中完成(难点:并发请求抢锁)。

第一个事务完成提交之前这个锁一直被第一个请求占用，后面的所有请求需要排队等待。同时参与“秒杀”的用户越多，并发进DB的请求越多，请求排队越严重。

红包系统的设计上，除了并发请求抢锁之外，还有以下两个突出难点：

首先，事务级 *** 作量级大。上文介绍微信红包业务特点时提到，普遍情况下同时会有数以万计的微信群在发红包。这个业务特点映射到微信红包系统设计上，就是有数以万计的“并发请求抢锁”同时在进行。这使得DB的压力比普通单个商品“库存”被锁要大很多倍。

其次，事务性要求严格。微信红包系统本质上是一个资金交易系统，相比普通商品“秒杀”系统有更高的事务级别要求。

普通商品“秒杀”活动系统，解决高并发问题的方案，大体有以下几种：

如图2所示，将“实时扣库存”的行为上移到内存Cache中 *** 作，内存Cache *** 作成功直接给Server返回成功，然后异步落DB持久化。

优点：提高了并发性能。

缺点：在内存 *** 作成功但 DB持久化失败，或者内存 Cache故障的情况下，DB持久化会丢数据，不适合微信红包这种资金交易系统。

商品“秒杀”系统中，乐观锁的具体应用方法，是在DB的“库存”记录中维护一个版本号。在更新“库存”的 *** 作进行前，先去DB获取当前版本号。在更新库存的事务提交时，检查该版本号是否已被其他事务修改。如果版本没被修改，则提交事务，且版本号加1；如果版本号已经被其他事务修改，则回滚事务，并给上层报错。

这个方案解决了“并发请求抢锁”的问题，可以提高DB的并发处理能力。

应用于微信红包系统，则会存在下面三个问题：

1.在并发抢到相同版本号的拆红包请求中，只有一个能拆红包成功，其他的请求将事务回滚并返回失败，给用户报错，用户体验完全不可接受。

2.将会导致第一时间同时拆红包的用户有一部分直接返回失败，反而那些“ 手慢 ”的用户，有可能因为并发减小后拆红包成功，这会带来用户体验上的负面影响。

3.会带来大数量的无效更新请求、事务回滚，给 DB 造成不必要的额外压力。

微信红包用户发一个红包时，微信红包系统生成一个ID作为这个红包的唯一标识。接下来这个红包的所有发红包、抢红包、拆红包、查询红包详情等 *** 作，都根据这个ID关联。

红包系统根据这个红包ID，按一定的规则（如按ID尾号取模等），垂直上下切分。切分后，一个垂直链条上的逻辑Server服务器、DB统称为一个SET。

各个SET之间相互独立，互相解耦。并且同一个红包ID的所有请求，包括发红包、抢红包、拆红包、查详情详情等，垂直stick到同一个SET内处理，高度内聚。通过这样的方式，系统将所有红包请求这个巨大的洪流分散为多股小流，互不影响，分而治之，如下图所示。

这个方案解决了同时存在海量事务级 *** 作的问题，将海量化为小量。

红包系统是资金交易系统，DB *** 作的事务性无法避免，所以会存在“并发抢锁”问题。但是如果到达DB的事务 *** 作（也即拆红包行为）不是并发的，而是串行的，就不会存在“并发抢锁”的问题了。

按这个思路，为了使拆红包的事务 *** 作串行地进入DB，只需要将请求在 Server层以FIFO （先进先出）的方式排队，就可以达到这个效果。从而问题就集中到Server的FIFO队列设计上。

微信红包系统设计了分布式的、轻巧的、灵活的FIFO队列方案。其具体实现如下：

首先，将同一个红包ID的所有请求stick到同一台Server。

上面SET化方案已经介绍，同个红包ID的所有请求，按红包ID stick到同个SET中。不过在同个SET中，会存在多台Server服务器同时连接同一台DB（基于容灾、性能考虑，需要多台Server互备、均衡压力）。

为了使同一个红包ID的所有请求，stick到同一台Server服务器上，在SET化的设计之外，微信红包系统添加了一层基于红包ID hash值的分流，如下图所示。

其次，设计单机请求排队方案。

将stick到同一台Server上的所有请求在被接收进程接收后，按红包ID进行排队。然后串行地进入worker进程（执行业务逻辑）进行处理，从而达到排队的效果，如下图所示。

最后，增加memcached控制并发。

为了防止 Server中的请求队列过载导致队列被降级，从而所有请求拥进DB ，系统增加了与Server服务器同机部署的 memcached ，用于控制拆同一个红包的请求并发数。

具体来说，利用memcached的 CAS原子累增 *** 作，控制同时进入 DB执行拆红包事务的请求数，超过预先设定数值则直接拒绝服务。用于 DB负载升高时的降级体验。

通过以上三个措施，系统有效地控制了DB的“并发抢锁” 情况。

红包系统的分库表规则，初期是根据红包ID的hash值分为多库多表。随着红包数据量逐渐增大，单表数据量也逐渐增加。而DB的性能与单表数据量有一定相关性。当单表数据量达到一定程度时，DB性能会有大幅度下降，影响系统性能稳定性。采用冷热分离，将历史冷数据与当前热数据分开存储，可以解决这个问题。

系统在以红包ID维度分库表的基础上，增加了以循环天分表的维度，形成了双维度分库表的特色。

具体来说，就是分库表规则像db_xx.t_y_dd设计，其中，xx/y是红包ID的 hash值后三位，dd的取值范围在01~31，代表一个月天数最多 31 天。

通过这种双维度分库表方式，解决了DB单表数据量膨胀导致性能下降的问题，保障了系统性能的稳定性。同时，在热冷分离的问题上，又使得数据搬迁变得简单而优雅。

综上所述，微信红包系统在解决高并发问题上的设计，主要采用了SET化分治、请求排队、双维度分库表等方案，使得单组DB的并发性能提升了8倍左右，取得了很好的效果。

http://www.infoq.com/cn/articles/2017hongbao-weixin

我们在一个20人的群中，自己发红包以及结合其他人发出红包的情况，整合成两轮的数据。每次金额设置都是20块并且有20个，第一轮是发了15次，第二轮是发了19次，总结成表格，然后为了避免突发的数据影响判断，我们将两轮数据杂糅从而生成了其他的三轮数据，一共是五轮数据。罗列如下表，高亮的数据为最佳手气。每一列的数据最早抢到红包的在最底端，越往上越晚抢。

从所有黄色的数值（最佳手气金额）可看出，所有最佳手气值都在平均值*2的前后附近（平均值=总金额/红包总个数，这里平均值=20/20=1），事实上确实如此，可通过微信红包分发算法得到验证，算法具体见后文

然后我们选取部分数据开始制作散点图。横轴为1-20，分别表示抢到红包的人的编号，随递增而越早。也就是20代表最早抢到的人。纵轴为金额。同样的形状颜色的点代表一次发红包，然后我们抓取部分数据显示为散点图，越密集代表该顺序位的用户得到的金额越稳定。散点图如下：

规律一：我们可以看到，所有红包大多数金额分布在0.5到1.5元之间，显示为图中方框所示，大部分点都分布在这个位置。然后是顺序位密集程度的对比，可以发现20、19，也就是最先抢到红包的人，小圆圈所示基本的点都集中在小范围，说明先抢红包的人得到的金额会比较稳定，但同时最佳手气的概率也比较低。大圆圈所示的是极不稳定，飘忽的金额分布，表示越晚抢红包得到的金额会飘忽不稳，但同时，抢到最佳手气等大金额的红包概率也比早抢的高。

根据上面的分析，我们又写了一个过滤计数函数，针对金额的分段的红包个数进行统计：

比如2.0-2.5

得到如下金额分布：

折线图：

规律二：绝大多数的红包的金额都集中在1-1.5，也就是说20块钱发20个红包的金额分布集中在比平均数大一点点的附近，同时较大幅超过平均数金额的红包大大少于低于于平均数的红包数量。

那我们继续扩大数据的规模，将几轮数据的均值和标准差分别做成折线图：

综合上面各个折线图的情况，我们可以得到越早抢红包的标准差越小，越晚抢红包的标准差越大，但同时，由均值和总额可以看出来，越早抢红包的均值往往要更高，红包金额得到最佳手气概率也会相对较小，越晚抢红包的人则得到最佳手气等大手气的概率更大。

为了得到更为趋近规律的曲线和规律，我们决定将两轮真实数据合并起来，然后给出幂函数的趋近线（虚线），如下图：

由于均值受极值波动影响较大，所以我们去除一些因为偶然差产生的极端点（圆圈的点）从而发现是递增的趋势。

规律三：可以很明显的看到，均值是随着抢红包的越晚而缓慢递减，标准差值同时也往上递增，这个趋势结合之前的分析，我们猜想，即标准差越大说明，领取到最大的红包和最小红包的风险越大，也就是说越晚抢标准差越大，对于冒险主义者来讲是最好的，因为他有很大概率获得最大的金额，但也大概率获得最小的红包，风险与收益并存；均值越大，说明每次都拿到一个不大不小的红包，虽然获得最小和最大金额红包的概率很小，但起码不亏本，也就是说越早抢，均值越稳定，这比较适合不喜欢冒险的人。

验证预测结果：

21：24分　发送预测结果到另一位同学微信：

随后开始发红包：

结果：

最佳手气为第8个人且金额为1.13

与预测结果一致，规律基本正确！

总结：

（1）最佳手气为1.13块，根据我们推导的预测公式=总额/红包总个数*2*随机数（0-2的double数）, 也就是说最佳手气在总额/红包总个数*2值的前后附近。这里我们判断在0.8-1.3之间，推断正确

（2)平均值为0.5元，0.5-0.8元的红包有3个，小于0.5的红包有6个，说明大于平均值的红包个数多于小于平均值的个数。与我们的第二点预测完全正确

(3)最佳手气位置：根据我们的散点图发现，最先抢到红包的人，得到的金额会比较稳定，但同时最佳手气的概率也比较低。表示越晚抢红包得到的金额波动较大，但同时抢到最佳手气等大金额的红包概率也比早抢的高。所以我们推断，最佳手气位置在最后20%-30%之间。

微信红包随机分发算法c＋＋模拟：

基本思路：每次抢到一个红包金额等于：红包剩余金额/红包剩余个数*2*随机数（0-1的double型），如果计算的结果小于等于0.01，则取0.01值

主要代码：

double packages[50000]

double Luckiest_money=0

void getPackage(int remainSize,double remainMoney){

srand((unsigned)time(NULL))

for(int i=0i

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9955996.html

(二)微信红包高并发系统设计方案（1）

发表评论

评论列表（0条）