系统日报-20220421(Databricks 缘何成功?)

系统日报-20220421(Databricks 缘何成功?),第1张

《系统日报》持续关注分布式系统、AI System,数据库、存储、大数据等相关领域文章。每天以摘要的形式精选不超过三篇系统文章分享给大家。

如果你有好文章推荐,或者有其他任何想法,欢迎在 Articles Weekly Repo[1]提 issue。

Spark 背后的公司 Databricks 的前世今生

来源:https://guiguzaozhidao.fireside.fm/s6e06

摘要:早高峰的地铁上在朋友圈看到播客“What’s Next | 科技早知道[2]” 客座主播 Howie 对 Databricks 华人联合创始人辛湜(Reynold Xin[3])的采访,到公司了仍然没有听完,但收获良多,感兴趣的同学可以听一下。

Spark 作为一个成功的开源项目,在很多公司都早有落地;但是其背后的商业公司 Databricks,在近些年才被越来越多的提起。尤其是其友商“Snowflake” 以天价估值上市后,Databricks 作为对标更加炙手可热。为什么一个做开源基础软件的商业公司能够如此成功?他们做对了什么,又对中国当下类似定位的公司有什么启发?主播人虽然普通话口音有点奇怪,但是问的问题都非常有深度和引导性,让本次播客呈现了一场高质量的对话探讨。

下面凭记忆摘录一些:

Databricks 成立契机?

UC Berkeley 实验室同学参加 Netflix Challenge,为了实现多机处理数据造了一个数据处理框架。虽然由于晚交了 20min 没有拿到 100w 大奖,但是却孵化出了 Spark。辛湜是 2010 年到的 Berkeley 开始参与这个项目。

Databricks 如此成功是因为做对了什么?

从开始就坚持三个原则:All in Cloud、不做数据仓库、不做定制化和 Support。

All in Cloud 和不做定制化和 Support:使得基础软件能够规模化,最大化公司人员的单位产出。感觉有点像用 ToC 的方式去做 ToB 的产品,但也唯有如此,才能发挥软件架构价值,撑起想象力。

不做数据仓库:有其他一些大厂、云厂商本身也有平台优势,避开太卷的赛道。

为什么在公司诞生之初就能 ALL in Cloud?

是因为投资人吗?并不,大部分还是因为创始团队的 Berkeley 背景,有很强的 foresee 视野,对云时代的到来很坚定,还在 09 年发表过专门论文:Above the Clouds: A Berkeley View of Cloud Computing[4],有上万篇引用,并且火到出圈。

在发展过程中对上述信条有没有过怀疑?

有过,还算比较幸运,因为都知道云是未来,但不知道这个未来是多久后来。比如 Cloudera 在 08-09 年成立时,从名字就可以看出想开启云时代,但生不逢时,后来还是改变了策略。

也有过很多其他道路的诱惑,比如有个 1000w 美元的大单子,只要求提供 support 。而刚开始时,Databricks 产品的营收甚至不如做 Spark 峰会的卖票钱。

刚开始,新入职的员工和融资时,All in Cloud 都会受到挑战,但是到 2018~2019 年左右就开始形成了共识,没人挑战了。

相对云厂商自身产品有什么优势?

云厂商有很多业务分散精力,小公司能够更专注,对 Spark 技术积累更多、所面临的场景理解更深。

Databricks 有没有业务暴增的转折点?

没有严格意义上的大客户的转折点,但有和 Azure 的合作值得一说。

15 年的时候 Amazon host Spark 已经有几个亿的营收了。Databricks 在 17 年和 Azure 的合作,做了叫做 Azure Databricks 的一款产品,大卖,成为了 Azure 的标杆服务。Azure 与 Databricks 互相成就,共同做大。

为什么决定做湖仓一体?

计算自然延伸到存储,开始做数据湖(面向数据科学家、深度学习场景)。为了消除用户组织内部的数据壁垒,自然想能不能打通数据湖和数据仓库(面向 BI )?于是提出湖仓一体(Lakehouse)。

此外,辛湜还分享了通过“引荐”的招人制度,以及创业公司中一些问题。播客是个好媒介,可以利用碎片时间,一边听一边思考。

参考资料

[1] 任何想法都欢迎来提 issue: https://github.com/DistSysCorp/ArticleListWeekly/issues

[2] What’s Next | 科技早知道: https://guiguzaozhidao.fireside.fm/

[3] Reynold Xin 领英: https://www.linkedin.com/in/rxin/

[4] Above the Clouds: A Berkeley View of Cloud Computing: https://www2.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.pdf

往期文章:

CockroachDB 和 TiDB 中 SQL 的分布式执行

DDIA 读书分享 第三章(上):LSM-Tree 和 B-Tree

聊聊选择 offer 的几个维度

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/739099.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-28
下一篇 2022-04-28

发表评论

登录后才能评论

评论列表(0条)

保存