继“让机器听懂你的声音”,钛坦白又请来六位钛客,探讨如何让机器看懂这个世界。本文根据浙江大学CAD&CG国家重点实验室副教授、Rokid科学家顾问张宏鑫在钛坦白的分享整理。
张教授是浙江大学理学博士、香港科技大学计算机系博士后。曾先后在微软亚洲研究院、德国亚琛工大等做访问合作研究。近年来已完成论文30余篇,其中多篇论文被SCI/EI/ISTP收录,并获得了较高的文献引用率。在浙江大学 CAD&CG国家重点实验室,系统并深入地研究了数字几何处理、计算机图形硬件加速、三维重建、可视化和计算机视觉的理论,将离散微分方程、卷积理论成功应用于快捷三维造型。与阿里云合作研发了渲染云系统,并参与了Rokid家庭陪伴机器人的研发。
以下是张宏鑫教授在钛坦白的分享:
大家好,我是浙江大学CAD&CG国家重点实验室的张宏鑫,也是Rokid机器人研发团队科学家顾问,感谢各位听众,也感谢钛媒体给了我这么一个机会,和众多人工智能行业的大佬们一起来做这个分享。
我虽然做机器学习相关的应用研究已经十多年了,但还算不上一个真正的搞机器学习或者人工智能的专家,勉强可以算是一个资深的玩家,因为我自己的研究兴趣其实主要在图形学和计算机视觉交叉的领域,后来慢慢扩展到对数据的可视化分析。借此机会,我想通过我个人的一些经历,反映我们这一代人的想法,进而讲一些我对人工智能的粗浅认识,供大家研讨。
缘起
我们这代人属于70后,我记得我最小时候最喜欢看的一个动画片是《铁臂阿童木》,最早看的科幻电影应该是《星球大战》三部曲,当时对电影里面的R2D2等等机器人特别特别的着迷,这些片子使得我们这代人对智慧机器人有了最早的直观认识。但是说实话,最早并不知道什么叫“人工智能”,只是单纯的觉得这是科学,这些可爱的机器人总有一天会出现在我们的生活当中,会成为我们人类的好朋友。
机缘巧合,直到两年前的一天,我的好朋友——Rokid公司的创始人Misa找到我,说“我们做机器人吧”,我没有任何犹豫脱口说“好吧,我们一起干!”于是,和Rokid的团队一起开始了这个有趣的探索之旅。在这个探索的过程当中,发现有很多的研究问题大有可为,所以现在也算是乐在其中。
种子回想起来,从小学到中学随着年龄的增长,我非常喜欢看几本杂志分别是《科学画报》、《飞碟探索》还有《奥秘》,也很喜欢背后的物理跟数学。然后再大一点的话,喜欢看《无线电》。但是后来发现,《无线电》里面很多简单的小制作还可以,但是复杂的制作的话需要很多仪器,对于一个初中生、高中生来说是买不起的。所以觉得不如退一步,因为数学自己还不错吧,就以数学为基本工具来探索这个世界。后来也比较幸运,考上了浙江大学,就读数学系,算是了却了自己的心愿。也就是在大学里,有一次很偶然的机会认识了Misa同学,因为他和我一样很喜欢d吉他,没想到两个人因为d吉他在一起,断断续续合作了很多年。
在大学三年级的时候,大概是1996年前后,有一个很有趣的事情。当时的数学系主任是陈叔平教授,他有一次找我们一帮学生来聊天,问我们对什么东西感兴趣。轮到我讲的时候,脑子里就突然冒出了三个字——机器人。然后我就对陈老师说,我很想做机器人。陈老师当时愣了好一会儿,微笑着鼓励我说,“以后要多学习专业知识,和自动化还有计算机的老师多合作”,也许就是因为师长的这种鼓励,后来促使我花了很多时间去学计算机的技术,并辅修了偏工程的电气专业。
所以说在大学期间的这些经历,在我们70后这一代人的身上埋下了现在做这些智能设备、智能技术的种子,才有了今天Rokid的产品。也正是因此,我们愿意跳出自己的小圈子,把电子器件、计算机技术,以及很多数学的算法逻辑等等元素组合在一起。说实话,是因为喜欢d吉他,喜欢音乐,当年我们这帮人才能够聚拢来,去探索这个有点离经叛道,但有些跨界的美物。
也正是因此,我觉得人工智能,?能简单?解为是一组算法所形成的自动化逻辑,它是软硬件技术的结合体,只有实物化才是王道。
小数据时代后来很幸运,顺利保送浙大硕士以及直接转为博士,师从数学系的王国瑾教授。他当时给我的论文题目是《复杂形体建模与绘制的离散方法研究》。在这个课题当中,其实我们研究的是一种样条理论,试图通过一种过程式的细分曲面方法来表达三维场景。所以在当时,我广泛的探索了各种各样的三维模型如何去进行表达,怎么样去进行有效绘制之类的问题。
在博士期间,大概2001年左右,我去微软实习了一段时间。加入了微软沈向阳博士领导的视觉组,在他那边做实习生。当时到这个组,给了我一个专门的问题,希望我做重光照(relighTIng)技术方面的研究。什么是重光照?具体而言,就是研究从一张图片或者多张图片中,首先是恢复三维场景,然后再根据这个三维场景的信息进一步猜测计算物体的材质属性(补:最后是对三维场景重新打光)。当时来说,这是一个很难的问题,而且需要用到很多的计算机视觉技术,包括图像分割、立体视觉还有很多数据统计的方法。这些方法都是可以看作是人工智能的一种形态,也是机器学习里面的一些典型方法。当时在微软,有非常好的氛围。我记得当时有很多很厉害的人,现在都已经成为了研究员、教授,比如说孙剑、刘策等等,大家在一起广泛讨论了很多机器学习的方法。
我在微软的工作属于“可视计算”领域。可视计算这个方向实际上是计算机图形学和计算机视觉的交叉领域,这两个方向其实可以说是天生的一对。计算机图形学,是一种正向从三维的场景或者数据去生成二维图像的一个过程;而计算机视觉恰恰是反过来的,是从二维的图像反向去猜测或者是预测三维的结果,特别是基于图像的重建那块的内容,可以说图形学跟计算机视觉是不可分家。所以,在学术界把这两者加在一起叫“可视计算”。
微软期间我印象最深刻的是,从那个时候开始接触所谓的小样本学习方法。因为当时我们有一个讨论班,例如孙剑、王天树、刘策,还有别的一些朋友,包括朱颂春老师,大家在一起讨论各种各样的视觉方法。期间,我们重点研读了,SVM发明人Vapnik博士所写的一本很有名的书叫《统计学习理论的本质》。在这本书里面他广泛研讨了SVM方法的理论。全文的宗旨是希望通过比较小的样本,就能够学习获得一个很好的统计模型,这个模型是通过数据进行计算来获得的。在当时的这样一种氛围底下,其实大家都在探索各种各样的机器学习的方法,除了SVM方法以外,还有比较重要的是一些降维的技术。
博士毕业后,我在香港科大做了一年的博士后,当时在那边合作的老师是戴秋兰教授,跟她一起做的是基于草图的人机交互。香港科大在当时如日中天,集合了一大帮来自于五湖四海的科研人员,有的在那边做博士后的,也有在那边当教员的。这期间我很荣幸结识了张志华老师,大家亲切的把他称为“老张”,他现在在上交大和北大任教。老张既是我的老师,也是我的朋友,我们经常饭后一起在香港科大的海边散步。散步的时候,他就跟我讲好多统计的方法。为此,我们后续合作做了一些数据降维的工作。最终,其中一个算法被用于图形学中的模型分解跟纹理映射。在当时大家都特别推崇小样本的统计方法,用了很多统计学里面的理论和计算技巧。但是当时大家都比较鄙视神经网络方法,这是挺特有意思的一个过程。
大概在2005年到2006年左右的时候,我有幸访问了德国亚琛工大,在那边访问的教授是Leif Kobelt。他当时主要做很多关于三维网格处理的研究,其课题组的很多技术其实最后都输出给宝马汽车,因而有很多的横向课题。在访问Kobelt教授期间,我主要致力于将机器学习技术进一步引入到图形学当中,用于三维模型的处理和分析。因为在当时,我跟浙大CAD实验室的一位博士生叫许栋,做了一个很有趣的工作。我们这个技术,可以在不同的三维模型之间进行插值,背后用的计算理论是网格上的微分方法,我们将其称为“泊松形状插值”。
泊松形状插值的方法,Kobelt教授也非常感兴趣,因为他发现这个技术也许可以用于宝马汽车的外形设计。后来,我们也逐渐意识到这一技术,也许是一种物体的本质表达方法。但是怎么样去验证这件事情不好说,因为需要大量的数据。因此,从这个项目开始,我就越来越关注图形数据库方面的一些进展。这当中我们发现很多数据,其实适合去做一些数据驱动的方法。如果能累积较多数据,不光是能够去做图形的形状分析与搜索,还能够去驱动一些相关的物理仿真。
记得有一年,我和一个叫宋超的博士合作做了一个关于物理仿真的技术。在这个仿真技术里边,我们不光用了是事先采集好的一些形状数据,而且还融汇了一个物理力学模型。我们把两者结合起来,来做到一个比较真实,但是速度非常快的物理仿真效果。
但当时做了这一系列的研究之后,说实话我们在学术方面其实有些迷茫,特别在图形学方向。该方向已经发展到一个非常高的高度,进入了一个平台期。所以我们在做一些尝试,想从别的角度去进行一些挖掘,看看还有没有别的路可以去走。这一点恰恰把我们70年代的人引入到大数据的时代来了。
大数据时代
大概是在2010年左右,我们前前后后做了三个不同的项目,我把这三个项目总结为三个“大”。
大计算在2010年左右的时候,阿里云的王坚博士找到我们,希望把我们已有的图形计算渲染,这种非常复杂的计算过程,搬到阿里云上。后来这个项目通过两到三年的努力成型后,成为阿里云第一个上线的saas应用。
有一次,我们两边合作总共调集了6500台计算机,或者说计算节点,来完成一部动画电影的渲染任务,这个片叫《昆塔传奇》,是我们杭州本地的一家广告企业博彩传媒拍摄的。我们把这么大规模的计算资源调度起来,做这么一个复杂的计算任务,其实是非常了不起的。正是因为能够大规模的去调动这种计算资源的经历,使我后面可以说是开窍了,让我很兴奋,觉得这种大的计算能力真的可以做一些事情。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)