中国版 Prisma 来了,我们今天再聊聊深度学习

中国版 Prisma 来了,我们今天再聊聊深度学习,第1张

中国版Prisma来了,我们今天再聊聊深度学习

全文4454字,阅读时间预计8分钟。

该来了。前天,Prisma中文版发布,名字叫“深黑”。

黑不黑,看完这篇文章,你会看到:

  • 【Prisma前任德国初创企业DeepArt独家专访】

  • 为什么Prisma这种在俄罗斯很流行的应用会被德国人[吐槽]?

    应用在图像领域的玩法【大市场点】

    撰稿丁继星卡陈佳龚放刘一编辑:袁帅顾问:丁程潇邢一楠制图:龚放刘一

    2016年8月16日凌晨00:01,一款名为“深黑”的APP在安卓平台上线公测。描述中“基于人工智能”、“不同于传统滤镜”等字眼,再加上看作品的风格,让人联想到2016年大火的,仅次于PokemanGo的APP――Prisma。

    ▲黑暗作品秀。图片来源:http://www.oandf.cn/deepblack/index.html

    Prisma体现了在当今人工智能时代,人们用计算机取代古代流传下来的画师的野心。印象派、野兽派、浮世绘、波普、解构主义、曾经的艺术风格,都是画家心中难以捉摸的概念。在人工智能时代,所有的艺术风格都被证明是“量化”的,通过机器学习可以不断产生新的作品。

    量化(数学)和风格(艺术)之间,悖论就是时间。列奥纳多·达·芬奇是最勤奋的油画家,画一幅普通的画需要一周左右的时间。在人工智能时代,这个时间是:不到20秒。

    借着Prisma中文版的发布,我们今天就恢复深度学习的图像应用。

    把计算机“调教”成梵高

    欧洲国家似乎比其他地区有更多的艺术群众基础。早在2016年Prisma火灾前一年,三名德国研究人员就想把电脑变成梵高。

    这三名研究人员的名字分别是莱昂·加蒂斯(LeonGatys)、亚历山大·埃克(AlexanderEcker)和马蒂亚斯·贝斯吉(MatthiasBethge),他们来自德国图宾根大学贝斯吉实验室。他们开发了一种算法来模拟人类视觉的处理过程。具体来说,通过训练多层卷积神经网络(CNN),计算机可以识别和学习梵高的“风格”,然后把任何一张普通的照片变成梵高的星星空。

    得到一张“梵高风格”图片的步骤贴在艺术首页,第一步是吸收用户拍摄的照片。第二步:让计算机学习star空图的样式。第三步,计算机输出自己制作的“新画”。

    在人类的视觉系统中,从眼睛里看到一个实体,到大脑里形成一个图像的概念,中间有无数层神经元。最底层神经元获得的信息是具体的,级别越高越抽象。

    这三个德国人发现,如果用计算机模拟网络,分析每一层的结构,可以看出,在采样过程中,底层网络对图像细节的表达非常清晰,层越高,剩下的像素越少,轮廓信息越多。

    深度学习中所谓的“深”就是层数。神经网络的每一层都会提取图像特征,“艺术风格”就是每一层提取结果的叠加。

    这三位德国人把他们的发现写成了两篇论文:《一种艺术风格的神经算法》和《利用卷积神经网络进行纹理合成》,引起了学术界的极大讨论。

    “起初,我们只是想创造一些关于神经科学的新东西。艺术人工神经网络的状态与人类视觉系统有许多相似之处。所以后来,我们认为我们可以用这些照片做一些更有趣的事情。”莱昂斯对深蓝说。

    论文发表后不久,他们成立了一家名为DeepArt的初创公司,并开始实现他们在论文中提出的想法。

    ▲深度艺术网站,图像制作界面。Art提供多种艺术风格选项,图像完成后要发送到用户邮箱。图片来源:https://deepart.io/hire/

    用户在DeepArt的网页上上传自己的照片,然后通过DeepArt提供的“机器人梵高”创作新的画作,整个过程需要等待数小时,由计算机进行数据运算和处理。用户可以选择不同清晰度的作品。用户可以花19欧元买一幅适合明信片的作品,也可以多花100欧元买一幅大尺寸的油画级作品。

    Gettys做的不是美图秀秀的滤镜。在深度艺术出来之前,有很多向莫奈和梵高致敬的滤镜应用,但核心原理和深度艺术完全不同,比如2010年上架的手机莫奈和梵高相机。

    ▲相机莫奈和梵高相机之间的界面显示。这两款滤镜软件都可以分辨出用户的照片被渲染成了某种艺术效果。但核心原理和深艺用的卷积神经网络完全不同(深蓝映射)。

    如果我们把同一张图片放入梵高相机,梵高相机会根据程序员事先构建的“公式”计算出图片中的每一个像素,最终输出一张梵高风格的照片。但只要我们想把画风从梵高改成毕加索,程序员就必须重写一套代码,改变计算“公式”。

    在深度艺术中,写“公式”的程序员是卷积神经网络(CNN)。只需输入梵高的“Star空”,卷积神经网络就能自动提取这幅画的风格特征,并量化为具体的公式。换句话说,艺术史中的所有作品都可以作为过滤源。

    "卷积神经网络可以被看作是一个机器艺术家."盖蒂斯说。

    从德国到俄罗斯

    2016年初,俄罗斯计算机工程师阿列克谢·莫伊谢延科夫(AlexeiMoiseyenkov)阅读了这三名德国人的论文。他敏锐的感觉到德国人做的还不够,这种技术在消费市场还是空白。

    然后他组建了一个四人团队,开发了Prisma,力求自由、快捷、简单。"两个月研究数学模型,一个半月开发它们."莫伊谢延科夫说。

    “Prisma首次成功将这项技术商业化。他们充分考虑了智能手机覆盖率的快速增长,并仔细研究了用户行为。Prisma可以进入数亿美元的市场。”《莫斯科时报》是这样报道他们的:“谁抓住了用户的需求,谁就能成为亿万富翁。”

    Prisma的横版空的诞生,是俄罗斯互联网圈难得的亮点时刻。2016年6月中旬,这款应用刚刚在iOS上发布,15天下载量达到750万次,风靡40个国家。

    巨大的成功甚至让开发团队措手不及,不得不每天将服务器的处理能力翻倍。

    “好像整个俄罗斯都被我们征服了。”莫伊谢延科夫接着在脸书身上写下了这句话。8月2日,Prisma在全球获得了超过5000万的用户。

    ▲拥有2300万粉丝的俄罗斯总统梅德韦杰夫也成为了Prisma的用户。他在Instgram上发布了一个Prisma作品,很快获得了8.7万个赞。

    Prisma比DeepArt更先进,因为它大大缩短了图像处理的时间。在用户还没有达到十亿量级的时候,Prisma系统每张照片的处理时间只有20秒。其次,Prisma是一款免费的手机应用,无疑比网页版的DeepArt拥有更多的用户基础。

    在20秒内,在世界的某个地方,一个用户上传了一张照片,他的照片被发送到莫斯科的服务器上。Prisma利用人工智能和神经网络对其进行处理,然后将“程式化”的图片传回用户手机。

    这个速度在业界是顶尖的。为什么这么快?

    “这肯定花了不少钱,”中国一家著名人脸识别技术公司的工程师告诉深蓝DeepBlue。“在我当时搭建的框架下,以普通笔记本的计算能力,可能需要几个小时才能做出这样一张图片。”

    德国人LeonGetty猜测深蓝DeeperBlue:“我认为他们训练了一个前馈神经网络来制作图片。”

    “Prisma并不完全依赖机器学习,而是控制一些关键内容。”一位业内人士对深蓝DeeperBlue说,“比如用户上传的内容中有相当一部分一定是人像,而Prisma和原来的算法相比,似乎更擅长处理面部细节。可能他们特别加入了人脸的识别和控制。"

    据莫伊谢延科夫本人介绍,Prisma使用了三组神经网络,分工明确:两组神经网络负责风格提取和照片制作,另一组神经网络作为背景,加快整个计算过程。

    相比之下,深度艺术更像是工匠。LeonGetty认为他最初的算法速度较慢,但在细节表达上更好——“它是一件真正的艺术品”,Deepart.io收费提供了一幅大的高分辨率图片,堪比挂在博物馆墙上的一幅画。

    ▲在DeepArt的首页,关于作品定价的界面展示。图片来源:https://deepart.io/pricing/

    “他们的风格化作品弱于原著。我认为他们做了一些更低级的图像处理来掩盖风格化的不足,例如,增强边缘的表现。”莱昂斯告诉深蓝DeepBlue,他认为Prisma为了速度牺牲了艺术质量。

    群雄逐鹿

    大多数人之前都猜测Prisma会推出更多的滤镜来变现,但在Prisma的创始人访问脸书后,有人透露他们的下一个计划是制作视频。2016年7月20日,Prisma创始人Moiseyenkov在脸书官方账号上传了一段29秒的音乐视频。这个视频的每一帧都是艺术风格的渲染。

    Prisma的艺术效果视频。Prisma在官方脸书上发布了几个音乐视频。

    然而,Prisma一家并不是唯一转向视频的人。

    仅仅9天后,Prisma的天使投资人、俄罗斯互联网巨头Mail的副总裁安娜·阿塔莫诺娃。茹,宣布释放的直接竞争的普里斯马,艺术家,对脸书。这是一款结合了神经网络和人工智能技术的视频处理软件,可以给视频添加动态艺术效果。虽然视频长度不能超过10秒,但是著名的画风形象“动起来”确实赏心悦目。阿塔莫诺娃说这个视频软件只花了八天时间就开发出来了。

    ▲阿塔莫诺娃副总统在脸书上连续发布了Artisto制作的视频。图片来源:https://www.facebook.com/artamonova/videos

    安卓版Prisma推出后的第二天,俄罗斯最大的社交网站VKontakte也推出了一款类似Prisma的产品:Vinci,两者在功能和外观上都非常相似。Vinci不仅将图像处理时间缩短至2秒,还迅速打开了iOS和Android市场,覆盖了Prisma未能涉足的WindowsPhone领域,成为WindowsPhone上第一个使用神经网络的软件。值得一提的是,社交网站VKontakte也是Mail的产品。钌

    截至2016年8月2日,在俄罗斯APPStore的免费榜单中,Artisto高居榜首,Vinci位列第二,Prisma跌至第五。

    ▲图片制作软件Vinci的界面展示。图片来源:http://mspoweruser.com/Vinci-great-alternative-prisma-now-available-windows-mobile-devices/

    不仅俄罗斯人在考虑视频,深度艺术的三个德国人也瞄准了视频市场。不久前,深度艺术官网发布了试玩,开始制作付费短视频。一个720p的视频(长达五分钟)售价249欧元。

    Art的产品价格高,速度慢,定位中高端市场。大众消费端,Prisma、Vinci、Artisto这三款免费产品,无论谁赢,都是俄罗斯互联网巨头Mail的胜利。Ru与其说这是几款产品的技术较量,不如说这是互联网资本大鳄的强势布局。

    但实际上,深度学习在视频方面还处于起步阶段,主要面临以下三方面的挑战:

    一是视频的数据处理能力大于图片,对计算能力的要求呈指数级增长;

    其次,如何保持帧图像在时间轴上的信息一致性,而不是分别处理每一帧图像,也是一个难题。

    第三,视频中的物体一直在运动。研究人员还没有找到很好的方法来跟踪它们在空中的动态变化。

    除了我们统计过的这些“滤镜应用”,深度学习在图像处理中还有很多应用。一般来说,深度学习图像应用按照流程可以分为两部分:输入和输出。

  • 输入可以看作是“机器视觉”,即在机器内部建立对图像的理解和认知――比如判断图片中的人像是不是自己,对图片中的物品进行分类等等。

  • 输出是通过分析自动驾驶中摄像头采集的道路信息,做出进一步的判断和决策,触发动作,比如给控制系统发出加速、停车等指令。

    图像识别准确率高的基础上,深度学习可以完成更复杂的任务。比如,如果说百度的图片搜索、微博对图片中敏感词的自动检测是计算机理性认知应用的代表,那么像Prisma这样的应用,在深度学习的帮助下,使计算机不仅能够理性地识别图像,还能够感知图像,理解图像风格与内容的关系。

    这就是人工智能的意义。计算机感知能力的发展决定了机器世界能否真正建立自洽完整的知识体系,最终实现对人的能力的替代、延伸和增强。

    根据领域内容,深度学习在图像中的应用可以分为几类:图像识别、分类、检测、搜索、特征提取和视频处理。其中,人脸识别是突破最快的深度学习图像应用。早在2014年,就有多个初创技术团队达到了接近或超过肉眼的识别率,如下图所示:

    ▲各公司使用自己的公开样本集进行测试,并提交测试结果。结果显示,汤晓鸥教授团队研发的人脸识别产品DeepID已经超越了肉眼识别率。其中技术产品名在小横线上方,团队名在下方。(深蓝色贴图)

    在这些公司中,脸书已经将Deepface的成果集成到了自己的产品中。如今,当用户将照片上传到他们的脸书账户时,系统可以自动给照片中的每个人贴上标签。旷视科技和商汤科技,以汤晓鸥教授为技术核心,主要为金融、安防等部门提供成熟的身份认证产品,客户包括支付宝、招商银行、反恐部队等。

    ▲商汤科技与旷视科技主要客户对比(深蓝图纸)

    脸书可能是深度学习图像应用三巨头中最雄心勃勃的。根据内部可靠消息,脸书将于下周末(2016年8月底)开源他们最新的研究成果代码。如果用最简单的一句话来形容脸书的新突破,那就叫“采用无监督学习,让计算机无中生有,自己生成图片”。

    ▲三大互联网公司在深度学习的布局列表。(深蓝色贴图)

    以前人们用监督学习让计算机做图像生成,也就是需要大量的标记数据来训练人工神经网络,后者才能逐渐学会识别事物。例如,如果你向计算机展示1000张猫的照片,神经网络将逐渐为这些猫建模,并识别其他猫的图像。

    但今天,脸书采用了无监督学习,允许计算机生成一些场景图像样本,包括飞机、汽车、鸟类等。,并让观众相信。

    谷歌的深梦是一台可以画图的电脑。它会自动识别图像,筛选出某些部分,并将其夸大,以创造一种迷幻效果。半年前,深梦在湾区举办了一次成功的展览。《深梦》模仿了500年前文艺复兴时期德国画家汉斯·霍尔拜因的笔法和绘画技巧,画出了一系列硅谷名人。每一幅画都足以让人花上几千美元去收藏。

    但是,深梦的算法有时候也会吓到人。如果它发现你的面部线条有点像狗的,它会把那个区域画成一只完整的狗。“这就像吃了迷幻药,电脑会产生幻觉。所以到处都是狗!”谷歌人工智能实验室的一名员工说。

    ▲GoogleDayDream的画作。图片中的很多区域被电脑处理成狗头和漩涡。

    无论如何,计算机正在向我们展示它们自己的梦想。

    参考资料:

    我,盖提斯,里昂,亚历山大·s·埃克,和马蒂亚斯·贝奇。"使用卷积神经网络的纹理合成."神经信息处理系统进展。2015.

    二世、加蒂、莱昂、亚历山大·s·埃克和马蒂亚斯·贝希。“艺术风格的神经算法。”arXiv预印本arXiv:1508.06576(2015)。

    二、王晓刚。《图像识别中深度学习的研究进展与展望》,2015。

    三、风险扫描器。人工智能市场概述。2016.

    四、何、等,“深度残差学习用于图像识别”arXiv预印本arXiv:1512.03385(2015)。

    v,丹顿,艾米莉l,苏史密斯钦塔拉,和罗布弗格斯。"使用拉普拉斯金字塔对抗网络的深度生成图像模型."神经信息处理系统进展。2015.

    孙,易,等,“基于联合识别-验证的深度学习人脸表示方法”神经信息处理系统进展。2014.

    七、孙、易、、唐晓鸥。“来自预测10000个类的深度学习人脸表示。”IEEE计算机视觉和模式识别会议录。2014.

    孙,易,等,“Deepid3:基于深度神经网络的人脸识别”arXiv预印本arXiv:1502.00873(2015)。

    欢迎转载,如需授权,请联系微信号:jixingjoyce

    欢迎分享,转载请注明来源:内存溢出

    原文地址: http://outofmemory.cn/zz/764276.html

    (0)
    打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
    上一篇 2022-05-01
    下一篇 2022-05-01

    发表评论

    登录后才能评论

    评论列表(0条)

    保存