根据腾讯官网显示:腾讯已于2017年以700亿韩元入股蓝洞,股份大概是5%。因此,腾讯有向蓝洞提供服务器是真的。
腾讯是一家互联网企业,由马化腾、张志东、许晨晔、陈一丹、曾李青于1998年11月共同创立。
一场轰轰烈烈的“区块链运动”,如浪潮般席卷而来,裹挟着身边的每一个人。围绕着区块链的争论从去年到今年始终没有停歇,究竟区块链是如其倡导者陈伟星所言——是“人类的春天”,是“全球经济崩盘的解药”,还是如其质疑者朱啸虎所说是“区块链是伪风口,除了炒币没剩什么”。
3月8日下午,相关记者在深圳的腾讯大厦办公室里独家专访了腾讯区块链业务总经理蔡弋戈。早在三年前,腾讯就已着手打造了区块链的研发团队,并在一系列行业场景中成功的使区块链技术落地生根。在采访中,蔡弋戈从理性务实的角度告诉记者,“区块链是好技术,但它也不是万能的,不是能解决所有问题的独门武器。它再好,也要搭配生态和基础设施才能发挥价值。客观点看,不要太神化它,也不要低估它的影响力,请多给点耐心。”
对于风起云涌的区块链创业潮,他认为,“最简单的是你想通过区块链技术解决什么样的痛点。如果不用区块链技术也活得很好,那就不要用。不要为了区块链而区块链,也不要为了去中心化而去中心化。”
CE:腾讯的区块链团队是什么时候成立的?
蔡弋戈:2015年底成立的。我们在区块链方面是研发先行,先成立的研发团队,确认技术路线,从零开始搭建。
CE:区块链技术目前主要的技术分类和商业应用有哪些?
蔡弋戈:区块链技术目前在全球主要有两种不同的技术路径:
第一种是公有链,去中心化,To C的应用居多,如比特币、以太坊都是基于这种技术路径开发的。
第二种是联盟链,主要是机构之间的合作,机构跟机构之间的节点参与记帐,普通用户不参与记账,开发的应用也主要是To B的,也可以再进一步B to C。腾讯现在用区块链技术开发的应用场景,已经落地了的商业项目如微黄金、供应链金融、电子存证、公益寻人等,都是用的联盟链技术。现在大部分的金融机构,如银行所开发的区块链应用项目大多都是基于联盟链技术开发的,我们觉得未来联盟链会有更多的使用场景。
由于公有链是去中心化的,一般要通过挖矿的方式来解决算力问题,但没有经济刺激谁来给你贡献算力,因此一般都以发币的方式给予提供算力者以经济刺激和奖励,但中国的数字货币须由央行发行,且数字货币容易引发炒作和泡沫,所以公有链技术在国内发展得比较慢。
CE:在海外,区块链这两项技术的应用发展的如何?
蔡弋戈:目前在国内,公链上的应用较少,但海外还是有很多公司在公有链上做不同的尝试。如telegram电报,也是一个聊天软件,想搭建基于公有链的底层设施的构架TON,让别人在上面做去中心化的应用。
在联盟链方面,IBM 做了一个联盟链开源项目。IBM也是不断推这个技术的开源、社区和搭建。国内一些区块链公司将IBM的开源代码拿过来改一改,调优一下,就做成了自己的应用。
在海外,两条线都有自己不同的产品,有不同层级的公司,做底层基础设施的、做应用层的、做跨链做性能的,还有垂直于某一个领域,比如区块链结合AI、区块链结合存储等等。
CE:联盟链是什么?联盟链是如何实现机构之间的去中心化的?
蔡弋戈:联盟链是商业机构之间的合作,是多中心的。
从数据角度理解,联盟链是各机构之间都有的数据,他们的数据需要通过共识达到一致。比如供应链金融里有多个决策方,核心企业、银行、保险公司、腾讯还有合作伙伴等,每一个参与方都有一个节点去参与共识的记帐。
业务数据记在自己的节点上,多个节点之间的数据共识由多方构成,不由哪一方说了算,这样就可以做到防篡改、可追溯。这些特性能提升机构之间合作的信任,降低信任成本,增加效率,可以撬动多方合作。
联盟链里,参与方都是比较可靠的机构,所以本身参与的节点可信度就要比普通比特币任何一个节点要高很多。比特币使用工作量证明算法,而联盟链的共识算法不同,一般都高效得多,像比特币计算一秒达7笔,我们现在做的共识算法,每秒可以达到两万五千笔。
联盟链主要是To B,C端用户不参与记帐,只是作为某一个应用的用户而已。普通用户在产品层面对区块链技术的感知会偏弱一点。
微黄金是腾讯在做区块链项目时实验的第一个内部落地的商业场景。银行、腾讯等多机构参与到微黄金产品中来,用多个节点共同参与记帐。这其中,由腾讯来提供联盟链的底层技术支持,保障底层的性能、安全性、可靠性、便捷性。其它参与的机构主要考虑怎么利用区块链的特性做应用创新,做好业务逻辑就可以了。
在以前,用原来的传统方式,机构之间的业务是要做中心化的清结算的,要对帐,这是需要耗时间的。但用区块链技术来记帐就自动完成了清结算,事后不需要做清结算动作。多方参与的业务,参与时需要有信任,联盟链就把这个痛点解决了,让信任成本降低,运作更透明,效率更高。
但联盟链也会面临一些困难。现在不少公司做联盟链进程较慢,一是技术问题,另一个是大家对这个技术本身的认知问题,很多机构、行业对区块链这个事情的认知不是特别够,所以还在各方面的早期,技术需要提升,概念需要普及,认知要能够一致才行,多方面因素导致联盟链技术在推行过程中还需要时间。公有链因为TO C,且有经济刺激,再加上炒币,导致更快的吸引眼球,从而引起更多人关注。
CE:联盟链现在最大的问题是哪个?
蔡弋戈:场景突破。有场景需求才能推动技术升级。
CE:腾讯在区块链方面的布局还有哪些?
蔡弋戈:我们已经搭建了一个区块链的基础架构平台,叫区块链即服务(BAAS平台),目前有很多注册用户在做测试和应用开发。
云里面有三层,云的架构IAAS、PAAS、SAAS,这个平台就处于中间层,叠加了区块链的服务层。这一层会提供给开发者基础的区块链接入内容,并且会把一些配套能力植入进来。比如身份验证、大数据等能力,都会整合进来。可以让开发者除了用区块链技术还能用到其他的一些能力,可以更高效的搭建他的应用,这样对他也是有好处的。再往上走就是基于区块链的SAAS服务,比如供应链金融开放平台,可以让银行、核心企业、供应商、保理这样一些角色参与进来做它的业务。
平台上商业应用的数据,我们不持有,也没有权限看。链上需要有多少节点是由应用开发者自己决定,节点的拥有权也是应用者的,腾讯只是平台服务机构,这些数据也不属于我们。
CE:腾讯是国内第一家做区块链基础应用平台的吗?
蔡弋戈:BAAS平台是2017年11月份上线的,现在已经开放了,节点购买也已经逐步完善了。
腾讯是从一开始就坚持从基础平台开始研发和运营的。目前平台是免费的,暂时还没有明确的收费计划。
早期我们和使用平台的企业沟通蛮多,我们也希望他们能反过来推动我们平台的完善。完善都是逐步的,不可能一蹴而就。我们搭建的是一个自助、半自助的平台,通过指引和手册就能搭建应用,而不需要太多研发团队的介入、辅助。尽量减少人工参与的需要。
我们也希望能形成一个生态,有很多伙伴基于腾讯区块链搭建垂直行业应用,最终形成一个多点开花的局面,共同打造一个基于区块链应用的生态平台。
CE:国内区块链技术目前处于一个怎样的水平?基于区块链技术的配套发展的怎样?
蔡弋戈: 整个区块链的技术和场景在快速演进的过程中,还没有达到所谓的成熟,一切才刚刚开始。
今天的区块链这么火,但真正有影响力的产品还是比特币、以太坊,主要因为是To C的,且带有投机属性。但如果一门技术只能用在投机上,这个技术就称不上颠覆。
现在我也在留意区块链一些新的项目,但发现区块链的很多基础设施配套还在建设中。区块链技术才刚刚开始,大家在谈区块链的时候,不应该单纯地把它理解为就是一项单一技术,它需要一系列的配套,有一系列配套最终才能改变一些东西。
比如存储,区块链项目要配套存储,这方面的提升也是很有价值的。再比如支付,交易安全性,币交所就出了很多次问题。包括隐私性的保护。区块链底层的隐私性保护,比如零知识证明等等。这类技术的应用也没有到很成熟的阶段,都是要解决的。包括比特币的网络共识能力低下,能应用的范围很小,但它的很多应用场景是需要高效做交易的。如果因为绝对安全就放弃了速度,产品就会有局限。区块链从技术流派、技术路线迭代以及基础设施的搭建,都有很多工作要做,最终是一整套发展到一个成熟阶段之后,才能影响更多东西。
CE:做联盟链不仅需要大量投入还需要应用场景,那么区块链的创业公司该如何突破呢?
蔡弋戈:做联盟链需要很大的成本投入,技术积累需要投入,场景寻找需要投入,这也是为什么国内真正做得好的联盟链都是大公司。大公司有场景,能够长期规划这个事,而不需要短期一定有回报。
创业公司更好的选择应该是结合场景,比如说,跟腾讯合作,腾讯来做底层技术和应用,你做场景的解决方案,这样对创业公司来讲会更实际。
CE:有观点认为,出现用户数量巨大的应用才是区块链行业真正发展的标志,您怎么看待这种观点?
蔡弋戈:这个见仁见智。区块链有To C的需求,也有To B的需求。就像联盟链不一定需要很多普通用户来用,更多是解决行业和公司的痛点,比如供应链金融等场景。To C的场景还有待各界的共同探索。
关键还是要看区块链技术在To C领域,是否真正解决了原本的一些痛点、问题,提供了新的价值,这才是最重要的,如果只是新瓶装旧酒,套这个概念,那就没什么价值。
CE:我们所看到的区块链应用场景大部分在金融领域,是不是因为信用问题的解决,使区块链在金融领域的应用前景更为广阔?
蔡弋戈:区块链解决的是信任问题,而金融最大的成本就是信任,所以区块链和金融的结合是最天然的,但不代表它在其他领域就没有发挥空间。
比如医疗,电子病历可以应用区块链技术,实现在保护隐私的同时允许用户做授权。
目前普遍的情况是,很多的个人数据都存储在中心化的平台中,没有任何隐私保护,平台想用你的数据就用,个人对数据的所有权体现的很弱。而利用区块链技术,就可以做成一个个人档案,有哪些平台要用你的数据,你就可以授权,可能还会给你带来一些经济收益。比如AI要学习你的数据,是不是你就可以获得一定的收益,这都是有可能的。
CE:腾讯是第一批通过可信区块链评测的企业,这个可信区块链评测的标准是什么?
蔡弋戈:这是中国信通院推出的中国的第一个区块链技术标准,这个标准更具有实践性。
通过可信区块链评测,可以评估你是否真的用了区块链技术,是否真的具有不可篡改等基本区块链特性。这里面会提出一系列的技术检测标准,看你有没有达到,腾讯也是标准的参与方。
我们认为这个行业需要标准,不然大家谈区块链谈半天,聊的概念都不一样,甚至有些企业号称自己做区块链,就只是拿着数据库改。有了可信区块链这个权威标准以后,就可以把明显挂羊头卖狗肉的企业筛掉,让真正做区块链技术的企业获得背书。
CE:面对区块链领域人才稀缺的问题,腾讯是怎么解决的?
蔡弋戈:我们的技术人才基本都是腾讯内部转化过来的,区块链这个行业本来就很新,没有几个人做过区块链。就像当年移动网络的到来一样,你要招做安卓、IOS开发的很难,我们都是自己培养。
事后想来,芯片验证工程师Lynda觉得进腾讯有点“草率”了。
作为一个在半导体行业工作过多年的资深工程师,Lynda第一次看到腾讯发布芯片岗位需求时,略感到一丝惊讶。2019年1月她带着好奇加入这家互联网大厂,准备撸起袖子,大干一场。
面试时,主导芯片设计工作的Henry给她打过一剂预防针:“我们是从零开始做芯片。”Lynda试图代入鹅厂一贯的低调来理解这句话,但随即便在第一天上班时被跟同事的对话震到了:
-“我们的仿真工具呢?” -“没有,还在谈。”
-“验证环境怎么说?” -“还……没有。”
-“那……验证流程呢?-“这个……也没有。“
对于一个芯片验证工程师来说,仿真工具、验证环境、验证流程就是必备的生产力工具。Lynda想全程参与芯片研发业务,倒不怕从头开始,只不过没想到连这些必备品都能 “三无”。
当一家互联网公司投身半导体时,工具的欠缺还不是最紧要的。“造芯”不仅是业务的简单延伸,它往往意味着更复杂的产业链、更耗时的人才沉淀、以及更迥异的生态文化和技术理念。
比如芯片研发不像软件开发尚可后期不断改bug,设计问题没被前期验证发现,一旦流片就只能沦为一块“砖头”。而Lynda所担任的验证工程师,就是防止前期努力打水漂的守门员。
这个岗位的重要性不言而喻,设计工程师与验证工程师的比例在很多芯片公司会达到1:3。但Lynda入职后环顾四周,发现不仅自己只有一个并肩作战的同事,连验证的代码也一行都没有。
这时候,Lynda才开始明白Henry口中的“从零开始”意味着什么,以及她面临着怎样一场艰难的战役。
01
雄关如铁,出师未捷
在腾讯云副总裁、云架构平台部总经理谢明看来,“从零开始”的背后还有更多的曲折故事。
谢明所在的云架构平台部,站在腾讯各类前端应用的身后,是腾讯海量业务数据冲刷的前线,有效支撑了QQ、邮箱、微信、微云、流媒体视频等一个又一个的国民级应用。
2013年,QQ相册已经发展成腾讯最大的一个存储类业务。让用户访问相册的速度更快、体验更顺滑,成了一个很急迫的需求。转化成相应的技术问题,就是能否更快地转码?能否在不损画质的情况下压缩?能否以更低的成本存储?
他们反复地追问。
团队深刻地明白底层技术创新对上层应用的放大价值。软件架构上固然要永远不停歇地进行自我超越,但他们敏锐地察觉到,只有在硬件上也作出创新,才能实现更深层次的突破。
问题是:一个做软件出身的团队,怎么去做硬件?
一圈研究之后,他们决定先拿FPGA(可编程阵列逻辑)试水。跟我们平时电脑和手机里的通用芯片相比,FPGA是一种专用集成电路(ASIC),能够实现灵活的“半定制”开发。
FPGA相比起芯片容错率高,但在吞吐率、延迟、功耗和灵活性等维度上都很平衡。尤其是在处理海量数据时,FPGA相比GPU具有超低延时的显著优势,很适合用在特定的业务场景。
事实验证了这种判断。2015年,团队集中力量研发的编码FPGA,取得了比CPU编码和软件编码更高的压缩率和更低的延时,也帮助QQ相册很大程度上降低了存储成本。他们看到了在FPGA方向 探索 和深入的可能性。
2016年前后,由Alpha Go引爆的AI热潮更把FPGA拉入了主流视野。团队通过FPGA对深度学习模型的CNN算法进行加速后,处理性能达到通用CPU的4倍,而单位成本仅为1/3。
FPGA效果虽好,但技术门槛比较高,“如果把FPGA云化,是不是一个能够扩大应用的解决路径?”
带着这样的期待,2017年1月20日,腾讯云推出了国内首款FPGA云服务器,希望以云计算的方式,将FPGA能力推广到更多企业。
从效果上来说,在FPGA云服务器上进行FPGA硬件编程的企业,确实能将性能提升至通用CPU服务器的30倍以上,而只需支付相当于通用CPU约40%的费用。以一家著名的基因检测公司为例,传统用CPU需要检测一周的基因序列,FPGA可以压缩到数小时完成。
然而云化后的FPGA,没能如预期般迅速席卷整个行业。
一方面,FPGA毕竟是一种“半定制”的电路,许多企业还是无法独立胜任FPGA开发,需要更加上层的服务;另一方面,通用芯片成本的迅速下降,也让FPGA的性价比优势逐渐丧失。
云端商业化的受挫泼来一盆冷水,把团队的热情从巅峰一下子打到了谷底,同时也把两个问题赤裸裸地抛到整个团队的眼前:FPGA对业务的价值究竟有多大?FPGA还能继续做吗?
受此打击,团队在2018年也近乎分崩离析,人员开始集中式地离开。腾讯在“造芯”上的第一次 探索 ,画上了一个遗憾的逗号。
02
柳暗花明,“蓬莱”问世
在FPGA云服务器受挫后,腾讯需要重新思考硬件之路要怎么走下去。
在团队几乎解散的2018年,中国芯片行业迎来暖春:中美贸易摩擦给全民普及了芯片的重要性,科创板的设立为半导体企业上市开启大门,而国家资金的进场更是让大江南北一片热火朝天。
但是,对于互联网公司来说,做芯片跟做云计算、数据库、存储系统等一样,需要有具体的业务场景支撑,不能“为了做而做”。在经历过一场不算成功的 探索 后,腾讯要等待下一个真实需求带来的机会。
时间进入2019年。那是人工智能规模化应用的元年,内外部业务都提出了对AI芯片的强烈诉求。AI芯片,要不要做?
这个问题被提出来的时候,腾讯的管理层有过反对的声音,担心技术人员只是头脑发热,只是为了追逐热点。但同时,管理层也给了足够的灰度,没有明令禁止小团队级别的 探索 。
以小规模、低成本、特定应用场景的方式先行试水,成了大家的共识。
云架构平台部将第一款芯片敲定AI推理方向,取名“蓬莱”,希望这款芯片能像中国古代神话里的海外仙山一样,稳固地立于汹涌波涛之上。
这支硬件突围小分队,也被正式命名为“蓬莱实验室”。
有了FPGA 探索 时积攒的经验,蓬莱实验室对硬件编程语言已经相当熟练,也在标准接口、总线等方面积累了一些平台化的设计。然而,两者的研发要求,不可同日而语。
如果说做FPGA是搭现成的积木,那么做芯片就是直接从伐木开始来着手来制造积木。FPGA出了问题可以重新编程,而芯片只有一次流片机会,一旦出错,所有的努力便付诸东流。
此外, FPGA的资源是现成固定的,芯片的资源却是由自己定义的。一个字,就是要“抠”:用最小的资源做最大的事。
芯片架构工程师Rick用“装修”改“重建”来形容整个蓬莱项目。一开始,团队以为能把之前FPGA的技术较为简单地转成芯片。做着做着发现,以为终归只是以为——FPGA架构在芯片中能直接复用的并不多,团队只能把原来的架构整个拆掉,重写的代码量高达85%。
像DDR存储器这样的重中之重,芯片厂商通常会有专门的验证人员负责,而刚起步的蓬莱实验室没这个条件,只能靠抢时间把功课补回来。Lynda后来回忆道:“我恨不得一天有48个小时”。
2020年1月,蓬莱芯片流片完成,被合作方快递到深圳。新冠疫情刚刚在全国范围内暴发,公司已经开启集体远程办公。
项目负责人Henry戴着手套取到快递,用酒精仔细消毒后,带到空空荡荡的办公楼,大开着窗户和风扇,在一片消毒水味中,他和几个同事一起开始了至关重要的点亮 *** 作。
所谓点亮,就是给芯片上电,首先看有没有短路冒烟,接着就是测试一些基本功能。是芯片还是“砖头”,成败在此一举。
结果,芯片的时钟频率一直没出来。要知道,时钟频率是芯片的“节拍器”,没有时钟频率,芯片的不同模块等于没对好表,就无法协同工作。
是不是这块芯片的问题?实验人员换了一块芯片,依然没有信号输出。
再换一块,还是没有。现场鸦雀无声。
实验人员已经不敢动手了。有人忍不住开玩笑,是不是该回家改简历了。
但除了沮丧,大家心里更多的是疑惑。因为项目虽然人少、资源少,近乎是白手起家,但蓬莱团队从设计人员到验证人员都有信心说:每一步都做好了。到底是哪里不对呢?
在无比凝重的气氛中,他们继续放板、上电、读取信号……
第四块芯片,亮了。剩下的所有芯片,也都没问题。
真相其实很简单。28纳米工艺的芯片不良率只有3%,但偏偏随机测试的前三片都是坏片,小概率事件就恰好让他们全赶上了。这让他们把“生一胎”的紧张情绪,体验到十足。
在虚惊一场后的拍手相庆中,腾讯第一款芯片,宣告问世。
03
更上一层,“紫霄”凌云
量产后的蓬莱芯片,实战表现也不负众望,助力腾讯推出中国第一台获准进入医院临床应用的智能显微镜,实现自动识别医学图像、统计细胞数目并直接显示在视野上,性能表现完全符合设计要求。
这一扫当年FPGA云服务器项目的阴霾,说明在制造造出直面应用、性能卓越的芯片,这条路,腾讯走得通。
终端芯片蓬莱的问世,只是完成了从0到1的任务。团队已经迫不及待向要从1到N,向着大规模云端芯片进军。蓬莱实验室负责人Alex将大芯片申请立项戏称为“A轮融资”。
初试锋芒之后,团队需要向公司说明,为什么需要用更大的投入去做大规模芯片?在短期和长期能否保持领先性?如何与内外部业务结合创造价值?
腾讯这次面临的决策,要容易做得多。
首先是蓬莱实验室的成熟。通过一边行军一边成长,蓬莱实验室完成了一次次蜕变,建立起完整、严谨、规范的芯片研发体系和流程。这已经是一支具备硬核气场的“正规军”。
更重要的是,团队证明了腾讯做芯片的优势和站位。
谢明解释说,从行业来看,做芯片除了要考虑技术和工艺,最大的难点在于对芯片的“定义”。传统芯片厂商的优势在于前者,但芯片做出来之后再去匹配需求,在很多场景下真实性能是损失的。Google、腾讯这类 科技 企业的优势在于自身就是需求方,对需求的理解和洞察最深刻、最透彻。
方向没有问题,技术和工艺也没问题,腾讯高级执行副总裁、TEG(技术工程事业部)总裁卢山给予了全面支持,并通过总办争取到了更多的headcount和资金。
有了公司战略的支持,团队志气满满奔赴更大的战场。蓬莱实验室副总监Austin决定兵分两路,在AI推理和视频编解码上并行推进。
AI小分队继续做蓬莱的20版“紫霄”。这是《封神演义》里鸿钧老祖所居宫殿的名字。在稳固的仙山上牢筑“紫霄”,代表了新的野心:
这次,他们将目标直接定为业界第一。
紫霄所有的架构都围绕着有效算力去做。团队优化片上缓存设计,并摒弃竞品常用的GDDR6内存,采用先进的25D封装技术,把HBM2e内存与AI芯片合封在一起,从而把内存带宽提升了近40%。
技术迭代一日千里。紫霄立项后,业内最高性能表现又被竞品刷新。虽然紫霄的设计性能相比这个最高表现还足够“安全”,但团队还打算继续加码。
经过研究,他们在芯片内部增加了计算机视觉CV加速以及视频编解码加速,可创新性地大幅减小AI芯片和x86 CPU之间的交互和等待。
即便因此而增加了两个复杂的自研模块,团队仍然在计划的6个月时间里完成了从架构确定到验证以及流片的全部流程。
2021年9月10日,紫霄顺利点亮。
在和视频处理、自然语言处理、搜索推荐等应用场景下,这款芯片打破了制约算力发挥的瓶颈点,最终在实际业务场景性能表现达到了业界标品的2倍。
04
独立自研,“沧海”一笑
AI小分队给自己芯片取名“紫霄”,而视频编解码则取名“沧海”,颇有海天相接之意。
不同于蓬莱和紫霄主打AI,沧海是一款视频转码芯片。如果说当年QQ相册的转码问题是蓬莱团队做硬件的最早契机,那视频编解码小分队在这个方向上的继续 探索 ,正是完成了一次对初心的呼应。
不同的是,“沧海”的应用场景已经远超当年的范畴。
当多媒体业务从时代进化到音视频直播时代,天量的4K/8K超高清的数字内容如潮水一般持续冲击着云计算基础设施。每增加一个比特的数据,都会带来相应的转码算力和CDN带宽成本。
这是一道直观而严峻的数学题,而沧海小分队的解题目标也非常清晰,那就是要做一款业界最强的视频转码芯片,把压缩率发挥到极致。
好在,腾讯丰富的多媒体应用场景,以及腾讯云覆盖的众多直播互动头部客户,为沧海的研发提供了得天独厚的分析和验证条件。
团队先是推出了沧海的核心自研模块——硬件视频编码器“瑶池”,并决定在沧海完成研发之前给瑶池一次大考。
这个大考就是2020年的MSU世界编解码大赛,该大赛由莫斯科国立大学(MSU)主办,十多年来一直是全球视频压缩领域最具影响力的顶级赛事,吸引了包括英特尔、英伟达、谷歌、华为、阿里和腾讯在内的国内外知名 科技 企业参与。
结果是,瑶池实现1080P@60Hz的视频实时编码,力压群雄获得了SSIM (结构相似性)、PSNR(峰值信噪比)和VMAF(视频多方法评估融合)等各项客观指标评测第一名,以及人眼主观评价第一的好成绩,相比第二名领先了一个身位。
经此硬仗,沧海在技术上得到了充分检阅。
2022年3月5日,Derick和他带领的视频编解码小分队收到流片回来的芯片“沧海”,又正逢深圳因疫情而全面远程办公。
他们申请特批进入空空荡荡的办公楼。这情景,和两年前点亮蓬莱时何其相似。
不曾想到,点亮蓬莱时的一波三折,同样重现。克服了一些调试中的意外,在一片欢呼中,腾讯的第三款芯片、同时也是完全自主研发的第一款芯片沧海成功点亮。
化沧海为一粟。沧海最终实现以更小的数据量、更小的带宽提供相同质量的视频,压缩率相比行业最佳表现还提高了30%以上。
从蓬莱到紫霄再到沧海,从28纳米工艺到12纳米工艺,从8个人发展到100多人,从仿真工具一无所有到“天箭验证平台”正式落成,从努力跟上合作伙伴的节奏到独立做完全SOC。
两只小分队胜利会师。蓬莱团队,完成了一场“芯”路进化。
05
“100G”时代,双木参天
躬身跳进造芯大潮的,不是只有云架构平台部。
在多媒体、AI处理积极求变的同时,底层的云服务器也面临着相似的问题:当软件优化带来的性能提升无法让产品拥有区别于竞品的明显竞争力时,如何让性能突破现有天花板?
2019年,腾讯迎来云计算业务上的里程碑——云服务器规模突破了100万。腾讯云副总裁、腾讯网络平台部总经理邹贤能敏锐地观察到,随着服务器接入带宽不断提升,服务器用于网络处理的CPU资源也越来越多。
能否以更低成本的方式来实现服务器网络处理,同时还提供更高的网络性能?腾讯的网络平台部也将目光投向了软硬协同与硬件加速。
面对这样“既要、又要”的挑战,邹贤能决定给服务器做个减法:“把网络数据处理的负担从CPU卸载出来”。
“智能网卡”的想法就这样诞生了。
所谓智能网卡,一方面像普通网卡一样肩负起服务器的对外网络访问,实现不同服务器和数据中心之间的网络互联。另一方面,它额外带有CPU/FPGA/内存等智能单元,能分担一部分服务器的虚拟化计算任务,实现服务器整体网络和存储性能的加速。
换句话说,网络平台部要做的事,是要在网卡里新装一个服务器。
一开始,团队希望找到一款现成的商用板卡降低工作量。
网卡硬件负责人Hayden牵头开展方案论证和调研,但商用芯片的加速引擎不支持私有协议成为当时直面的第一大挑战,也是最大的障碍。一些著名的网卡设备商听了腾讯的要求就摇头:
“现在网卡的功能很简单,你们这个要求太复杂了,很难实现的。”
还有些直白地质疑:“网卡数量这么多,可靠性要求高,你们自己搞得定吗?”
难道智能网卡项目刚起步就要流产?
邹贤能给团队指明了方向:“既然智能网卡是云数据中心追求极致性能与成本的关键部件,如果市面上没有满足腾讯需求的产品,那我们就自己造一个。”
方向明确之后,路线也很快清晰起来:先从基于FPGA自研智能网卡起步,再开展智能网卡芯片研发。
2020年9月,腾讯第一代基于FPGA的自研智能网卡正式上线,命名为“水杉”,寄寓着团队希望产品可以像这种珍稀乔木一样适应性强、快速生长。
疫情期间各种突发需求砸来,初生的水杉没有被挑战压弯。
Hayden回忆道,一个大客户本身采用了UDP音视频协议,在属性上是“不可靠”、允许丢包的,极大地依赖网络吞吐和稳定性,却要求高并发、高质量的音视频传输效果。
水杉智能网卡迎难而上,通过大幅提升服务器的网络性能,帮助该客户完成了24小时零丢包的极限压力测试,稳定上线运行,交出了一份漂亮的答卷。
水杉投入应用后,第二代智能网卡“银杉”的研发工作也紧锣密鼓地启动,并于2021年10月正式上线。这一代智能网卡的网络端口翻了一番,达到了2100G。
在又一颗参天大树的支撑下,腾讯云对外推出了业界首款自研第六代100G云服务器。它的计算性能提升最大220%、存储性能最大提升100%。单节点接入网络带宽相比上一代最大提升4倍,延时下降50%。
“两棵树”在网络硬件卸载上取得的巨大收益,令团队兴奋不已。
当FPGA路线逐渐逼近性能和功耗的瓶颈,网络平台部决定再一次把主动权掌握在自己手里。腾讯的第四款芯片,也是首款智能网卡芯片应运而生,它也有一个 “仙气十足”的名字——“玄灵”。
06
“玄灵”乍现,芯事未完
按照计划,这款7纳米工艺的芯片将在2022年底流片。
Hayden受命快速组建起了玄灵芯片研发团队,不断挑战多个“mission impossible”。
从性能指标来看,玄灵支持设备数量将提升到10K以上,相对商业芯片提升6倍。同时,它的性能相对商业芯片也可提升4倍,通过将原来运行在主机CPU上的虚拟化、网络/存储IO等功能卸载到芯片,可实现主机CPU的0占用。
这颗短小精悍的芯片,充分诠释了面向未来极致性能的“玄”,与面向各类业务需求灵活加速的“灵”。
目前,玄灵项目正在紧锣密鼓地进行智能网卡流片前的验证和测试,打造腾讯云下一代高性能网络基础设施;
蓬莱实验室的AI推理芯片紫霄和视频转码芯片沧海则将量产,与腾讯业务深度融合应用;
还有一些新的芯片项目也在酝酿成长,继续 探索 有需要的技术方向,丰富这一本“山海经”。
腾讯海量业务面临的全新挑战,以及云计算高速发展的必然要求,“倒逼”腾讯走上了这条造芯之路。这些从业务需求出发的芯片,必定会深入现实应用来证明自身的价值。
“我们不是无中生有、拍脑袋要去做芯片。我们一开始就知道,腾讯的需求足够大,足够我们去做这件事。”卢山说道。
从2010年起,腾讯就开始以云服务的方式对外开放自身的数字技术与连接能力,奔赴这场产业数字化转型升级的时代大潮。躬身入局,腾讯看到深度的数实融合正在引领全真互联的技术趋势。
而在腾讯之外,中国的 科技 公司们正在向创新的深水区挺进,突破瓶颈的努力显得愈发重要。无论是数实融合还是上游创新,硬 科技 的海面上一片百舸争流,它们都在 历史 的浪潮奋楫中流。
在这场大潮中置身事内,腾讯的芯事必然在星辰大海中得到回响。
:
1、腾讯(深圳腾讯计算机系统有限公司)是由马化腾、张志东、徐晨野、陈一丹、曾丽青于1998年11月共同创立的互联网企业,是中国互联网综合服务商之一,也是中国互联网综合服务商之一。中国服务用户最多的互联网企业。 腾讯的多元化服务包括:社交和通讯服务QQ和微信/微信、社交网络平台QQ空间、腾讯游戏的QQ游戏平台、门户腾讯、腾讯新闻客户端和在线视频服务腾讯视频。
2、腾讯于2004年6月16日在香港联交所上市,于2006年9月5日成为亚洲第一家市值最高的上市公司,成为第一家市值超过美国的公司2017年11月21日亚洲5000亿美元。 2017年,腾讯首次跻身财富500强,排名第478位,营收2287亿美元。
3、2020年8月20日,腾讯与成都正式开启“新型文化创新与智慧城市”战略合作。在新文创方面,腾讯将设立其在中国唯一的职能总部——腾讯新文创总部。 2021年11月,位列2021年中国互联网综合实力百强企业第二名。
4、企业网络服务器是整个企业网络的神经中枢,选择的恰当与否对系统的运行效率和可靠性起着至关重要的作用。从功能上看,企业网络服务器可分为Web服务器、域控服务器、邮件服务器、FTP服务器、代理服务器、数据库服务器等,不同的服务器功能对硬件系统的要求也不同。FT LAIP服务器对硬盘子系统和I/0能力要求高;域控服务器对容错和管理能力要求很高。
5、当企业对这些服务器功能没有严格要求时,可以使用物理服务器来实现这些服务功能。一般来说,企业可以将访问需求大、运行时处理器和内存消耗大、需要高可靠稳定运行环境的服务器功能放在单独的物理服务器上。例如,数据库服务器一般设置在特殊的物理服务器上。
做团队管理和做业务不同,特别是面对一群高智商高素质的产品经理,需要一些策略和耐心。在这期间,我也有一些感悟,我简单整理沉淀一下,总结出8个点。这8个点我在内部团队经常讲,今天来分享一下。
一、将员工个人能力成长与团队业绩发展紧密结合
记得当年担任Leader之初,我就给自己的职责定位做了个分配,原则上,50%关注业务;50%关注团队;包括团队流程建设沉淀及团队人员的成长,根据不同的阶段可调整。
我们特别要求员工将团队业务发展与个人能力发展结合起来;这里的辩证关系也是显然的,团队成功每个人才能成功;每个人的能力提高能保证团队更大的成功。
比如,在部署某工作时:
第一,讲清楚目标与意义,我的期望与衡量标准;
第二,讲清楚做这件事对其个人能力成长有什么帮助;
第三,关于做事情的方法和思路,如何去做,做情景管理,因人而异;
对于新手,就直接讲明应该如何去做,细化到步骤,让其马上去执行;
对于有经验者,只需要将一个大致思路;
对于资深同事,方法和思路都让其去搞定,只需要明确我的期望;
“响鼓不用重锤”,鼓励悟性文化。
做对事的同时,培养核心能力,有很大意义:
1、提高员工的核心竞争力,提高抗风险能力
我经常举一个例子,那就是之前移动SP业务辉煌期的时候,SP产品经理不需要很高的素质,不需要复杂的产品能力,一个简单的图铃放上线就能赚钱,很容易获得认可和奖励。而后来SP泡沫破灭的时候,这些人员被大量淘汰,找工作都没人要;之前我接到过很多的SP产品经理的求职信,但大多数没有建立起核心能力,直接就拒了。
每个行业,每个业务,甚至每个公司发展都有自己的周期性,中国经济发展也不会永远高歌猛进。所以,我们需要保持忧患意识。
记得07年的某次会上我讲过一个判断,就是中国的第一次大规模失业浪潮是国有企业职工,上世纪九十年代国有企业体制改革导致的下岗浪潮,而下一轮的失业浪潮就可能出现在我们白领行业。这个可能不是由于体制变革,而是经济发展带来的。我还讨论了影响个人职业发展的其他危机因素:比如,一个公司的发展遇到瓶颈、互联网行业出现危机、行业人才过剩、国家大环境经济出问题等。
我经常说,需要居安思危,在安稳的日子里提高自己竞争力,才能抵抗未来风险,就算公司裁人,也会先裁能力不行的人,自己强到哪里都可以。
2、磨刀不误砍柴工
员工能力成长,可提高效率,保障业绩。一个新招聘来的人,初期只能当半个人用,但经过培养可独立开展工作,当1个人用。而一些成为骨干的人,则可以相当于2个人的工作效率。所以,我们能力工作提高越快,工作越游刃有余。
3、真正地做到“以人为本”
团队内的员工都是合作伙伴,生活中偶遇的朋友,而不是可以颐指气使的下级;我们也不是资本家,不能压榨完员工的价值,作出成果后就扫地出门。这需要建立一种情感的上的高度信任,大家才有安全感,才能心情愉快地做出更多业绩。
落实在具体考核上,也看两个方面,一是看所负责的工作的结果,二是看个人能力的提高。不同发展阶段的人这两个方面有不同的比重。如果只是业绩结果很好,但个人能力没有进步,也不会得到S。我们要通过S作为激励,给予哪些工作成绩好,同时又进步快速的人。
二、建立与强化团队的文化氛围,价值观
做为公司员工要遵循公司最基础的文化价值观:正值,尽责,合作,创新。
在团队内部,除遵守公司文化外,也要强化符合我们业务和团队发展需要的价值观,营造一个好的风貌与氛围,并作为团队特色文化进行传承。
三、结果导向,强化实践中培养能力,在水里学会游泳
提高员工的能力,最有效的方式就是让他做事情。有时灌输一大堆道理,方法论,纸上谈兵,往往是没用的,也容易招致反感。可以先将一些大致思路,然后干脆就直接推下水,让他在水中学习,呛几口水,就学会游泳了,当然过程中,要设置好监控点,避免风险。
案例:比如,我们的新毕业生培养, 我个人并不反对一轮又一轮的培训,虚拟一些课题去让他们去做,或者做模拟实战;并不是说这种方法不好,而是应该适可而止。最有效的方法就是还是教练式辅导,先简单培训,就让他直接去做事,去碰壁,去自我总结,我们发现这种结果很好,既分担了团队内的工作,毕业生个人成长也很快,其个人成就感也很强。虚拟炒股即使赚了1千万,也没有真实炒股赚了1千块来的兴奋。
另外,合理的授权,也做好整体的监控。一方面保证结果风险可控,不至于造成巨大损失,其次,一旦真的出了问题,Leader也要做好承担责任的准备。
四、为员工的能力成长,允许失败,可付出一些尝试成本和代价
亲自碰壁之后,才有机会调整正确的方向,这是宝贵的经验,也是学习提高的好方法。
一个VC朋友说过:不要投资给失败3次以上的团队,也不要投资给没有失败过的团队。说明失败的教训对每个人都很关键。有时,我明知道员工做的事情可能有不好的结果,但我也会选择尊重他的选择,只要这个结果可控,大不了这个风险我来承担。
五、以身作则,对自己高要求,对下属多宽容
首先,作为Leader,自己能力要很强。培养其他产品经理,至少自己的产品能力要很专业;自己有一桶水,才能给别人一杯;不能只懂一点皮毛,就给别人兜售。有时候别人会碍于你的权势勉强附和,其实大家心里都很明白。
告诫自己要不断的学习和提高,要有比较高的追求。我对资深产品经理专业能力的要求比较高,要在三重身份都要有发展:分别是行业分析师,系统需求分析师,交互设计师。
严以律己的同时,还要避免给下属造成很大压力。我很坦诚的在团队内部讲过, 团队内的每个人都是有价值的,都有长短,都有自己的定位。我会保证用宽容的心态来看待,比如在唐僧取经团队中,八戒虽然有缺点,但也有很大用处,对于取经成功也有很大的贡献。但也请大家理解的是,我们会给大家机会,但我们的最核心前提是保证业务发展,如果个人能力无法适应业务发展速度,给了机会都无效,就只能调整工作岗位了。
六、加强团队的流程沉淀与建设
一个团队就是一个系统,只要规则制定好,可以自我发展。团队内部流程的沉淀与强化执行很关键。一个好的团队和乌合之众的区别,就在于此了。另一个方面是文档化,文档保证交流与传承,我们每个产品文档都要不断地优化与专业。
当一个团队可以按各自角色分工自我运转时,Leader就可以从团队的圈子中跳离出来,精力集中在外部事务上,协调外部资源来满足团队更大的发展。我一直认为,一个好的团队,是不管Leader是否在,团队都运作井井有条,我们现在基本可以做到这一点了,但还要持续完善。
七、发现与培养人才,加强梯队建设
Leader要注重对团队梯队及接班人的培养。首先是选择接班人,然后是有计划的创造条件培养。我们在内部也多次强调过,首先每个人都有所长,都有阶段性分工,每个人也都能找到自己最合适的发展定位。但Leader并不是每个人都是适合,一方面,机会有限;其次是,每个人的发展速度和层次也都是很大差异。一个团队内,就是需要有一个梯队,才能保证永续经营,不可能每个人都很强,都做Leader。
在选择方面,我们明确我们的价值观。比如强调学习能力好,发展意愿高,业绩突出,把有限的机会向跑得快的人倾斜,让他们更快速成长,然后再带动后面的人。一群人和稀泥,表现上一团和气,其实是没有什么前途的。
我经常举一个例子,就是关于唐僧的取经团队。每个人都有用,但只有唐僧做Leader,这个经才能取到。如果是猪八戒做Leader,那可能半路就在女儿国下崽了。另外,还有一个观点,当形势好的时候,我们需要猪八戒这种人,但当业务目标无法保证,生死存亡之机,猪八戒这类是最有被裁掉危险的。
八、强化有效沟通,鼓励向上沟通
有学者说,管理者需要有很多的时间做沟通。经常和每个人聊一下,包括工作状态,学习,观察每个人的工作状态,发现不对劲的,就马上聊一下。并且还要特别强化团队内部的主动沟通文化,鼓励向上沟通,下面同事有任何问题都可以随时找我来沟通,消除掉任何的心里障碍,大家是合作伙伴,而不仅仅是上下级。
现在来看,的确能感觉到团队在成长,至少在产品经理能力方面,我可以自信地说我们走在前列。
我也非常感谢团队的整体成长,以及团队内涌现的突出的人才,正是有了大家的快速提高,能各自独当一面的坚守好自己的阵地,作为领导者,我才有更多的时间和精力,关注和研究行业,考虑产品战略及培养产品经理的方法论,才可以沉淀一些知识,写下这段文字。云服务器安全性是其主要优势之一。云服务商支持专业的安全技术、安全团队、监控机制,并具有长期的安全防护经验。在bluehost云服务器上的网站不太可能遭受DDOS攻击和数据泄漏。如果是敏感业务,还可以添加云安全服务,以实现更严格的安全防护。
第一,云服务器部署非常快捷,常规的服务器需要一系列的资源配置上架,还需要根据语言类型安装合适的 *** 作系统,需要大量的时间和精力,而云服务器可以在几分钟就可以获取资源完成服务器的交付使用。
第二,云服务器的缩放是d性的,云服务器可以根据客户的时事需求进行资源分配,这样既灵活高效,又能做到资源不浪费。而普通的服务器是需要人为估算的,因为带宽和资源需要提前设定好,所以估算的时候要求尽量准确,不然估算的太小,资源不够用,会出现卡顿或者服务器瞬间崩溃,如果估算的太大就会出现资源浪费。
第三,云服务器的运维成本更低,因为云服务器的 *** 作简单,而且都是有服务来负责,只需要维护云服务器的内部问题就可以了,所以相较于传统的服务器,运维更省事。
第四,出现意外可以有效的进行数据迁移,因为云服务器具有自动修复和热迁移的能力,所以即使出现硬件故障或者火灾等情况,云服务器也可以很快的将数据迁移,继续使用。
第五,价格更实惠,因为云服务器不需要提前定制多大的资源,根据自己实际需要的资源来付费,更人性化。
我用的是小鸟云香港高防云服务器搭建电商网站,费50g的防御,高防节点,BGP线路,三网互联减少延迟,因为香港免备案,所以网站上线的速度很快>
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)