若说2018年9月在杭州召开的云栖大会期间,活跃着多少匹“黑马”,连同参展的、演讲的、参观的……各色人等一时很难统计出来,但是,不起眼的TIgerGraph,一定会是其中最有亮点、最有故事的黑马之一。
这家成立2012年,在大数据图分析领域默默耕耘了6年的公司,一直低调从事市场调研和产品研发迭代。
直到2017年11月8日,TIgerGraph的下一代图数据库在美国正式发布,在市场上引起了轩然大波后才为众人所知。这家总部位于硅谷的公司凭借成熟的技术,赢得了启明创投、百度、蚂蚁金融、华创资本、AME云创投、莫拉多风险投资公司、佐德•纳齐姆、丹华资本和DCVC风投基金公司3100万美元A轮资金投资。
从大数据中掘金
有统计报告显示,1分钟之内,美国数亿封邮件被发送,谷歌平台上发起400万次搜索,Facebook上有246万条信息被分享……在中国,类似的数据量更大。例如,在中国约有7000多万家注册企业,由于数据量比较大,要想理清这些公司之间的关系,如企业的持股人、投资关系、诉讼关系至办公地址等类似的关系,是一件很困难的事情;通过检索可以查出一度内有关系的人,也就是控股人控股关系,再深入到两层、三层的关系就不太现实了。
万物互联的时代,社交网络实时在线,物联网7*24小时运行,每天大量的数据还在持续不断的生成。在这样的情况下,该如何挖掘数据的价值,数据关联背后隐藏着什么关系?
TIgerGraph创始人兼CEO许昱博士TigerGraph公司的创始人许昱博士从事数据库和并行系统研发已经二十年,创办TigerGraph之前在Teradata负责大数据面向业界和未来五年的方向研究,领导Teradata和Big Data、Hadoop系统的集成,并且与一些大企业合作解决报表的查询与合并技术。稍早在Twitter工作,作为一个社交网络,图的分析对于Twitter意义重大,Twitter自行开发了一套单机版的纯内存的系统。再早则是在加州大学圣地亚哥分校、在中科院计算所从事数据库方面的研发工作。
可以说,许昱博士是个“不折不扣”的数据库专家,在他的周围聚集的也是来自硅谷等地高科技公司的数据库专家。
为什么会从事图数据库研究?
发掘大数据关联和关联后面隐藏的商业价值,是一个技术难题,但是它的解决无疑具有极大的商业价值。如何解决?
始于Hadoop技术的大数据时代迄今已经过去了十年,一些简单的技术问题如存储、离线处理等问题都得到了解决。十五年前,业界也开始了一些图数据库的尝试。许昱博士指出,图是以数学上点和边的关系把所有的数据自然存在一起,成为自然的存储数据关联模型。TigerGraph之所以采用知识图谱(欧拉图),是因为图是解决大数据互联最好的方法。
从计算角度,欧拉图更合适大数据的机器学习、人工智能。但由于每前进一步,接触数据量指数性增长,又能带来更多关联信息,所以计算能力至关重要,而技术上的限制,比如缺乏大数据、并行技术、多核计算机等的能力,所以在TigerGraph之前一些图计算的工具计算能力很差。
虽然欧拉图理论已经问世有两百多年,也是最合适的存储和计算互联数据的模型,但现在仍然没有企业中得到最广泛的使用。一方面,图数据库是较为高级的研究方向,从高深的理论到真正商业化,大规模应用还是很有难度分不开;另一方面,关系数据库一直以来都是最大的市场,这也是制约图数据库发展的另外一个原因。同样的道理,虽然关系型数据库时下正大行其道,但在刚开始的前十年,甲骨文的产品和市场都是经过了漫长的迭代。
许昱博士总结了图数据库和传统关系型数据库的三大区别。
一是存储模型不一样,关系型数据库数学模型是表格,一个最简单例子,一个人有一个身份z号、一个住址表、一个工资表、一个上学记录表等存在几个不同的表里,但是物理上、逻辑上都分开了,想知道这个人住在哪个地方,读过哪所学校,要把表合起来,根据值一个个去拼才能找出来。而图里,身份z号码是唯一节点,学校也是唯一节点,马上与全校学生联系起来了。另外,图数据库的压缩率是关系型数据库的2倍至10倍,虽然储存的变化不算太重要,但是计算、内存和对缓存的利用度就不一样,存储模型不一样。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)