一位70后资深学者眼中人工智能的过去、现在与未来_技术

继“让机器听懂你的声音”，钛坦白又请来六位钛客，探讨如何让机器看懂这个世界。本文根据浙江大学CAD&CG国家重点实验室副教授、Rokid科学家顾问张宏鑫在钛坦白的分享整理。

张教授是浙江大学理学博士、香港科技大学计算机系博士后。曾先后在微软亚洲研究院、德国亚琛工大等做访问合作研究。近年来已完成论文30余篇，其中多篇论文被SCI/EI/ISTP收录，并获得了较高的文献引用率。在浙江大学 CAD&CG国家重点实验室，系统并深入地研究了数字几何处理、计算机图形硬件加速、三维重建、可视化和计算机视觉的理论，将离散微分方程、卷积理论成功应用于快捷三维造型。与阿里云合作研发了渲染云系统，并参与了Rokid家庭陪伴机器人的研发。

以下是张宏鑫教授在钛坦白的分享：

大家好，我是浙江大学CAD&CG国家重点实验室的张宏鑫，也是Rokid机器人研发团队科学家顾问，感谢各位听众，也感谢钛媒体给了我这么一个机会，和众多人工智能行业的大佬们一起来做这个分享。

我虽然做机器学习相关的应用研究已经十多年了，但还算不上一个真正的搞机器学习或者人工智能的专家，勉强可以算是一个资深的玩家，因为我自己的研究兴趣其实主要在图形学和计算机视觉交叉的领域，后来慢慢扩展到对数据的可视化分析。借此机会，我想通过我个人的一些经历，反映我们这一代人的想法，进而讲一些我对人工智能的粗浅认识，供大家研讨。

缘起

我们这代人属于70后，我记得我最小时候最喜欢看的一个动画片是《铁臂阿童木》，最早看的科幻电影应该是《星球大战》三部曲，当时对电影里面的R2D2等等机器人特别特别的着迷，这些片子使得我们这代人对智慧机器人有了最早的直观认识。但是说实话，最早并不知道什么叫“人工智能”，只是单纯的觉得这是科学，这些可爱的机器人总有一天会出现在我们的生活当中，会成为我们人类的好朋友。

机缘巧合，直到两年前的一天，我的好朋友——Rokid公司的创始人Misa找到我，说“我们做机器人吧”，我没有任何犹豫脱口说“好吧，我们一起干！”于是，和Rokid的团队一起开始了这个有趣的探索之旅。在这个探索的过程当中，发现有很多的研究问题大有可为，所以现在也算是乐在其中。

种子

回想起来，从小学到中学随着年龄的增长，我非常喜欢看几本杂志分别是《科学画报》、《飞碟探索》还有《奥秘》，也很喜欢背后的物理跟数学。然后再大一点的话，喜欢看《无线电》。但是后来发现，《无线电》里面很多简单的小制作还可以，但是复杂的制作的话需要很多仪器，对于一个初中生、高中生来说是买不起的。所以觉得不如退一步，因为数学自己还不错吧，就以数学为基本工具来探索这个世界。后来也比较幸运，考上了浙江大学，就读数学系，算是了却了自己的心愿。也就是在大学里，有一次很偶然的机会认识了Misa同学，因为他和我一样很喜欢d吉他，没想到两个人因为d吉他在一起，断断续续合作了很多年。

在大学三年级的时候，大概是1996年前后，有一个很有趣的事情。当时的数学系主任是陈叔平教授，他有一次找我们一帮学生来聊天，问我们对什么东西感兴趣。轮到我讲的时候，脑子里就突然冒出了三个字——机器人。然后我就对陈老师说，我很想做机器人。陈老师当时愣了好一会儿，微笑着鼓励我说，“以后要多学习专业知识，和自动化还有计算机的老师多合作”，也许就是因为师长的这种鼓励，后来促使我花了很多时间去学计算机的技术，并辅修了偏工程的电气专业。

所以说在大学期间的这些经历，在我们70后这一代人的身上埋下了现在做这些智能设备、智能技术的种子，才有了今天Rokid的产品。也正是因此，我们愿意跳出自己的小圈子，把电子器件、计算机技术，以及很多数学的算法逻辑等等元素组合在一起。说实话，是因为喜欢d吉他，喜欢音乐，当年我们这帮人才能够聚拢来，去探索这个有点离经叛道，但有些跨界的美物。

也正是因此，我觉得人工智能，?能简单?解为是一组算法所形成的自动化逻辑，它是软硬件技术的结合体，只有实物化才是王道。

小数据时代

后来很幸运，顺利保送浙大硕士以及直接转为博士，师从数学系的王国瑾教授。他当时给我的论文题目是《复杂形体建模与绘制的离散方法研究》。在这个课题当中，其实我们研究的是一种样条理论，试图通过一种过程式的细分曲面方法来表达三维场景。所以在当时，我广泛的探索了各种各样的三维模型如何去进行表达，怎么样去进行有效绘制之类的问题。

在博士期间，大概2001年左右，我去微软实习了一段时间。加入了微软沈向阳博士领导的视觉组，在他那边做实习生。当时到这个组，给了我一个专门的问题，希望我做重光照（relighTIng）技术方面的研究。什么是重光照？具体而言，就是研究从一张图片或者多张图片中，首先是恢复三维场景，然后再根据这个三维场景的信息进一步猜测计算物体的材质属性（补：最后是对三维场景重新打光）。当时来说，这是一个很难的问题，而且需要用到很多的计算机视觉技术，包括图像分割、立体视觉还有很多数据统计的方法。这些方法都是可以看作是人工智能的一种形态，也是机器学习里面的一些典型方法。当时在微软，有非常好的氛围。我记得当时有很多很厉害的人，现在都已经成为了研究员、教授，比如说孙剑、刘策等等，大家在一起广泛讨论了很多机器学习的方法。

我在微软的工作属于“可视计算”领域。可视计算这个方向实际上是计算机图形学和计算机视觉的交叉领域，这两个方向其实可以说是天生的一对。计算机图形学，是一种正向从三维的场景或者数据去生成二维图像的一个过程；而计算机视觉恰恰是反过来的，是从二维的图像反向去猜测或者是预测三维的结果，特别是基于图像的重建那块的内容，可以说图形学跟计算机视觉是不可分家。所以，在学术界把这两者加在一起叫“可视计算”。

微软期间我印象最深刻的是，从那个时候开始接触所谓的小样本学习方法。因为当时我们有一个讨论班，例如孙剑、王天树、刘策，还有别的一些朋友，包括朱颂春老师，大家在一起讨论各种各样的视觉方法。期间，我们重点研读了，SVM发明人Vapnik博士所写的一本很有名的书叫《统计学习理论的本质》。在这本书里面他广泛研讨了SVM方法的理论。全文的宗旨是希望通过比较小的样本，就能够学习获得一个很好的统计模型，这个模型是通过数据进行计算来获得的。在当时的这样一种氛围底下，其实大家都在探索各种各样的机器学习的方法，除了SVM方法以外，还有比较重要的是一些降维的技术。

博士毕业后，我在香港科大做了一年的博士后，当时在那边合作的老师是戴秋兰教授，跟她一起做的是基于草图的人机交互。香港科大在当时如日中天，集合了一大帮来自于五湖四海的科研人员，有的在那边做博士后的，也有在那边当教员的。这期间我很荣幸结识了张志华老师，大家亲切的把他称为“老张”，他现在在上交大和北大任教。老张既是我的老师，也是我的朋友，我们经常饭后一起在香港科大的海边散步。散步的时候，他就跟我讲好多统计的方法。为此，我们后续合作做了一些数据降维的工作。最终，其中一个算法被用于图形学中的模型分解跟纹理映射。在当时大家都特别推崇小样本的统计方法，用了很多统计学里面的理论和计算技巧。但是当时大家都比较鄙视神经网络方法，这是挺特有意思的一个过程。

大概在2005年到2006年左右的时候，我有幸访问了德国亚琛工大，在那边访问的教授是Leif Kobelt。他当时主要做很多关于三维网格处理的研究，其课题组的很多技术其实最后都输出给宝马汽车，因而有很多的横向课题。在访问Kobelt教授期间，我主要致力于将机器学习技术进一步引入到图形学当中，用于三维模型的处理和分析。因为在当时，我跟浙大CAD实验室的一位博士生叫许栋，做了一个很有趣的工作。我们这个技术，可以在不同的三维模型之间进行插值，背后用的计算理论是网格上的微分方法，我们将其称为“泊松形状插值”。

泊松形状插值的方法，Kobelt教授也非常感兴趣，因为他发现这个技术也许可以用于宝马汽车的外形设计。后来，我们也逐渐意识到这一技术，也许是一种物体的本质表达方法。但是怎么样去验证这件事情不好说，因为需要大量的数据。因此，从这个项目开始，我就越来越关注图形数据库方面的一些进展。这当中我们发现很多数据，其实适合去做一些数据驱动的方法。如果能累积较多数据，不光是能够去做图形的形状分析与搜索，还能够去驱动一些相关的物理仿真。

记得有一年，我和一个叫宋超的博士合作做了一个关于物理仿真的技术。在这个仿真技术里边，我们不光用了是事先采集好的一些形状数据，而且还融汇了一个物理力学模型。我们把两者结合起来，来做到一个比较真实，但是速度非常快的物理仿真效果。

但当时做了这一系列的研究之后，说实话我们在学术方面其实有些迷茫，特别在图形学方向。该方向已经发展到一个非常高的高度，进入了一个平台期。所以我们在做一些尝试，想从别的角度去进行一些挖掘，看看还有没有别的路可以去走。这一点恰恰把我们70年代的人引入到大数据的时代来了。

大数据时代

大概是在2010年左右，我们前前后后做了三个不同的项目，我把这三个项目总结为三个“大”。

大计算

在2010年左右的时候，阿里云的王坚博士找到我们，希望把我们已有的图形计算渲染，这种非常复杂的计算过程，搬到阿里云上。后来这个项目通过两到三年的努力成型后，成为阿里云第一个上线的saas应用。

有一次，我们两边合作总共调集了6500台计算机，或者说计算节点，来完成一部动画电影的渲染任务，这个片叫《昆塔传奇》，是我们杭州本地的一家广告企业博彩传媒拍摄的。我们把这么大规模的计算资源调度起来，做这么一个复杂的计算任务，其实是非常了不起的。正是因为能够大规模的去调动这种计算资源的经历，使我后面可以说是开窍了，让我很兴奋，觉得这种大的计算能力真的可以做一些事情。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/2459044.html

一位70后资深学者眼中人工智能的过去、现在与未来

发表评论

评论列表（0条）