VR技术在过去的20年里悄悄都潜伏在实验室里面,而2014年VR技术第一次迸发出无穷想象力。3月16日Facebook宣布20亿美元收购Oculus公司,后者正是一家沉浸式虚拟现实技术(VR)的领先公司。这20亿美元买的就是“计算设备和娱乐的未来”。Oculus最著名的就是推出了头戴式显示器Oculus Rift。这款产品利用内置的陀螺仪和显示屏能够打造出真正的虚拟显示场景,把“虚拟”贯穿到视觉、听觉、触觉、动觉当中,替代了“现实”。
如果我们仔细回想一下计算机过去50年里的发展趋势就不难想象VR技术的巨大想象空间。早年因为电脑笨重又大很难是个人的,不便于使用,然后台式机出现了,我们进入了个人可以直接在书桌上与计算机互动的时代。之后,笔记本电脑,我们可以随身携带计算机。今天我们将计算机装进了自己的口袋。按照这种发展模式走下去,计算机会与我们的身体越来越亲密。这意味着未来计算机可能戴在我们头上,然后用眼睛去跟它互动。VR技术实际上就是这种解决方式的先行者。
在过去的2014年,Oculus的发展牵动人心,首批1000个面向开发者的Oculus Rift DK2原型机早早就被抢购一空,市场上一机难求。而分布在全球各地狂热的开发者不知疲倦的让Oculus Rift变得更好玩,在Oculus相关论坛里每天都会有不同的Mod出现供大家测试。在CES 2014上Virtuix Omni还推出了配合Oculus Rift的跑步机来玩
《战地 4》游戏。如果你看过相关视频,你一定会在结尾处大吼一声:这才是游戏的最终形态!
2014年是VR技术大放异彩的元年,在近期的百度BIG Talk大会上,斯坦福大学虚拟互动实验室创始人Jeremy Bailenson说虚拟现实技术很快将会到来。也许未来我们的电脑将会消失,VR将会承载新的使命。
看“脸”时代:图像搜索大数据
你想知道虾和番茄能不能一起吃,于是你输入文字百度了一下,有了答案。而如果你手上有一张名画照片想知道作者怎么办?相信很大一部分人都会束手无策,因为这是一张。
相比语言搜索功能图像搜索被誉为是下一个重要的互联网入口,这源于一个不可逆转的现实——人们从外界获取信息,其中90%来自于视觉。当有东西无法用语言传递、表达时,你第一个想到的就是靠图像、影像。你想想看,当你在街上看到一件别人身上的衣服很好看,你想自己上网搜搜看哪里能买到,在不知道品牌型号的情况下,你要怎么给一个机器解释你的所看所感?就算你形容能力无敌了,但你有心思花那么多时间在组织搜索语言上吗?所以机器还要更加的智能,不但能理解一句话,还要可以直接分析你看到的图像和片段,你总是想要简单的对吧。
搜索就是目前火热的CBIR技术,这个92年由Kato教授提出的理论距今已经20年。CBIR的基础原理是系统对用户输入的图像进行分析并分类统一建模, 然后根据各种图像模型提取图像特征存入特征库,然后寻找符合相关条件的结果进行反馈。目前Google、Bing、百度三大搜索引擎均具备相关技术。其中Google搜索从Googlelabs一个项目演化而成,目前支持上传搜索和URL地址检索。而微软旗下的Bing则只支持基础的关键字图像匹配,精确度算法还有待提高。其他类似TinyEy等创业型图像搜索引擎脱胎于大学实验室,而曾经火过一段时间的GozoPa已经低调关闭B2C转型B2B业务。
小公司在做需要大数据的工程总显得捉襟见肘。再举个国内的反例,淘宝在12年推出过类似图像搜索的功能,不过随后运营不佳关闭。目前中国具备做好图像搜索能力的就只有百度,14年8月手机百度正式更新到55版,新版本新增的拍照搜索,被业界定义为图像搜索的20版本,在目前大多数用户还在扫描二维码、提前设定场景等OCR功能的拍照产品当中,手机百度是全球首款支持任意实物进行拍照搜索的产品。不过相信在未来,图像搜索会随着VR技术的成熟变等更大众普及,前景不可估量。
语音技术:能说的,就不用动手
如果说搜索解决了机器对的“理解”,那么语音技术就是解决了人与机器“交流”的问题。语音技术从IBM的一个小工具软件到今天已经有了十来年历史。而随着3G/4G带动的移动互联网市场兴起,语音识别成为有希望挑战传统搜索引擎的下一个产品,最近四年是语音技术发展最快的黄金期。
从技术角度来讲,语音识别主要流程为“语音提取——声纹转化——分词——语义识别”的过程,在后三步都需要借鉴到庞大的数据库,需要大投入长时间的研究,技术资金门槛较高。而其中的分词,尤其是中文分词,需要海量的数据样本做分析。而目前语音市场分为三大派系:
1:国企、大学院校研发背景的传统语音厂商(科大讯飞、捷通华声)。
2:互联网巨头厂商(百度、阿里、腾讯)
3:小的创业公司例如云之声、思必驰等。
这些厂商均有各自擅长的领域,其中科大讯飞在军用、行业级当中应用颇广。而百度为首的互联网厂商则在民用商业化方面捷足先登,创业公司则更加专注于细分市场。从目前来看科大讯飞目前在识别行业处于领头羊地位,产品适用范围广技术底蕴强,目前的军用、企业级使用较多,值得一提的是科大讯飞在技术专利方面也可以与国外语音巨头Nuance一拼。
不过,从消费者层面来讲好的语音识别系统很大程度上依靠经验,专利和算法什么的并没有多重要。语音识别这两年并没有着力于传统路线,而是向上发展为神经网络(你可以理解为每台服务器就是大脑的一个神经元),也就是语义识别,这里面涉及的就是人工智能和深度学习。如果说科大讯飞国内地位类似国外的Nuance,那么百度就是国外的Google。类似Google近两年来频繁挖语音牛人一样,百度邀请了吴恩达加盟,担任百度的首席科学家,负责百度研究院,他的研究领域就是机器学习和人工智能,研究重点是深度学习(deep learning)。深度学习就是神经网络当中非常重要的一个环节。
对于移动时代的搜索引擎来说,语音的重要性巨大,一旦这个环节落后未来可能直接被淘汰,所以Google和百度如此重视不是没有道理。像百度2010年就已经开始进行语音布局,深度神经网络技术(DNN),自然语言处理技术(NLP)以及百度多年的搜索技术积累,语音技术进入到例如手机百度这样的移动产品当中,成为语音输入的入口,足可以见重视程度。不过其实笔者认为,除了搜索外,移动端一切产品形态都离不开语音和图像交互,这源于移动本身的属性,不早点布局语音的互联网公司,早晚会在交互上吃亏。英文缩写 DNN
英文全称 Dynamic Neural Neork
中文解释 动态神经系统
缩写分类 生物科学 电子电工
缩写简介 动态神经系统
DNN属于判定模型。直接学习参数。
DBN属于生成模型。生成概率分布。
这是两者的主要区别。
我在云课堂开了深度学习的视频教程,前几节免费观看。感兴趣的可以来看看。
从广义上来说,NN(或是更美的DNN)确实可以认为包含了CNN、RNN这些具体的变种形式。在实际应用中,所谓的深度神经网络DNN,往往融合了多种已知的结构,包括卷积层或是LSTM单元。但是就题主的意思来看,这里的DNN应该特指全连接的神经元结构,并不包含卷积单元或是时间上的关联。
因此,题主一定要将DNN、CNN、RNN等进行对比,也未尝不可。其实,如果我们顺着神经网络技术发展的脉络,就很容易弄清这几种网络结构发明的初衷,和他们之间本质的区别。神经网络技术起源于上世纪五、六十年代,当时叫感知机(perceptron),拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。
早期感知机的推动者是Rosenblatt。(扯一个不相关的:由于计算技术的落后,当时感知器传输函数是用线拉动变阻器改变电阻的方法机械实现的,脑补一下科学家们扯着密密麻麻的导线的样子…)但是,Rosenblatt的单层感知机有一个严重得不能再严重的问题,即它对稍复杂一些的函数都无能为力(比如最为典型的“异或” *** 作)。
连异或都不能拟合,你还能指望这货有什么实际用途么。随着数学的发展,这个缺点直到上世纪八十年代才被Rumelhart、Williams、Hinton、LeCun等人(反正就是一票大牛)发明的多层感知机(multilayer perceptron)克服。多层感知机,顾名思义,就是有多个隐含层的感知机。
1错误
2正确
正确答案:错误
美国有线电视新闻网(CableNewsNetwork,CNN)由特纳广播公司(TBS)特德·特纳于1980年6月创办,通过卫星向有线电视网和卫星电视用户提供全天候的新闻节目,总部设在美国佐治亚州的亚特兰大。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)