谷歌近期的确是成果颇丰,接连发了好几篇博客,分别介绍了自动语音分离、无监督细胞荧光标记和AR显微镜癌症检测的深度学习应用。
1 自动语音分离在《Looking to Listen at the Cocktail Party》一文中,谷歌提出了一种深度学习音频-视觉模型,用于将单个语音信号与背景噪声、其他人声等混合声音分离开来。
在这篇文章中,谷歌通过计算生成视频,增强其中特定人员的语音,同时减弱其他人的声音。
研究者的方法用在具有单个音频轨道的普通视频上,用户需要做的就是在视频中选出他们想要听到的说话人的面部,或者结合语境用算法选出这样的人。
这种方法用途广泛,从视频中的语音增强和识别、视频会议,到改进助听器,不一而足,尤其适用于有多个说话人的情景。
这项技术的独特之处是结合了输入视频的听觉和视觉信号来分离语音。
直观地讲,人的嘴的运动应当与该人说话时产生的声音相关联,这反过来又可以帮助识别音频的哪些部分对应于该人。
视觉信号不仅在混合语音的情况下显著提高了语音分离质量(与仅仅使用音频的语音分离相比,正如在本文中所证明的),但是重要的是,它还将分离的干净语音轨道与视频中的可见说话者相关联。
{!-- PGC_VIDEO:{"thumb_height": 360, "file_sign": "14eb0c61bf77288819b6c44d4b7b48b0 "vname": " "vid": "e1dfc08c65ea4ddaa0c870d4844ae86d "thumb_width": 640, "vu": "e1dfc08c65ea4ddaa0c870d4844ae86d "src_thumb_uri": "7c1a0007d4eb46b385b4 "sp": "toutiao "update_thumb_type": 1, "vposter": "http://p1.toutiaoimg.com/origin/7c1a0007d4eb46b385b4 "video_size": {"high": {"duration": 34.44, "h": 480, "subjective_score": 0, "w": 854, "file_size": 866677}, "ultra": {"duration": 34.44, "h": 720, "subjective_score": 0, "w": 1280, "file_size": 1501922}, "normal": {"duration": 34.44, "h": 360, "subjective_score": 0, "w": 640, "file_size": 668672}}, "duration": 34.44, "thumb_url": "7c1a0007d4eb46b385b4 "md5": "14eb0c61bf77288819b6c44d4b7b48b0"} --}谷歌认为该项技术有很广泛的应用前景,目前正在探索如何将该技术整合到谷歌的产品中,敬请期待!2 无监督细胞荧光标记谷歌在《细胞》(Cell)杂志上发表了一篇名为《In Silico Labeling: Predicting Fluorescent Labels in Unlabeled Images》的文章。
在论文中,研究者指出,深层神经网络可以从透射光图像预测荧光图像,在不对细胞做出改变的情况下生成标记的有用图像,同时有可能实现未修饰细胞的纵向研究、用于细胞治疗的微创细胞筛选以及使用大量同时标记的研究。
此外,谷歌还开源了模型、完整的训练和测试数据、经过培训的模型检查点及示例代码。
上画展示了相同细胞的透射光图像、荧光图像,以及用谷歌的模型预测的荧光标记。
Outset 2 表明尽管输入图像中有伪影,该模型也可以预测正确的标记。
Outset 3 表明模型推断出这些结构是轴突,可能是因为它们离最近邻的细胞比较远。
Outset 4 表明模型可以发现顶部很难察觉的细胞,并正确地将左侧的目标识别为无 DNA 的细胞碎片。
3 AR显微镜癌症检测谷歌在美国癌症研究协会(AACR)年会上发表演讲,介绍论文《An Augmented Reality Microscope for Realtime Automated Detection of Cancer》(under review)。
演讲介绍了一种增强现实显微镜(ARM)原型平台,有望帮助加速和促进世界各地病理医生对深度学习工具的采用。
该平台包含改良光学显微镜,可以实时地将图像分析和机器学习算法结果直接呈现。
重要的是,ARM 平台可以利用低价、易获取的组件进行改造,以适应世界各地医院、诊所的现有光学显微镜,且无需分析组织的整张幻灯片数字图像。
左:ARM 的概述图。
数字摄像头捕捉和用户相同的视野,并将图像传递给附加的计算单元,以运行机器学习模型进行实时推断。
结果将被反馈给自定义的 AR 显示器,该显示器和目镜串联,可将模型输出投影到和幻灯片相同的平面上。
右:设备原型,已被改造成典型的临床应用级别光学显微镜。
通过 ARM 目镜观察到的图像示例。
这些图像展示了淋巴结癌细胞转移示例,显微镜物镜分别是 4x、10x、20x 和 40x。
{!-- PGC_VIDEO:{"thumb_height": 360, "file_sign": "be5d899c8792ff3df58b4b46c72b1d7a "vname": " "vid": "9267d2d0931745bc84a1beeb91a5931d "thumb_width": 640, "vu": "9267d2d0931745bc84a1beeb91a5931d "src_thumb_uri": "7c1b0007579511e02342 "sp": "toutiao "update_thumb_type": 1, "vposter": "http://p1.toutiaoimg.com/origin/7c1b0007579511e02342 "video_size": {"high": {"duration": 105.773, "h": 480, "subjective_score": 0, "w": 854, "file_size": 4206695}, "ultra": {"duration": 105.773, "h": 720, "subjective_score": 0, "w": 1280, "file_size": 7766314}, "normal": {"duration": 105.773, "h": 360, "subjective_score": 0, "w": 640, "file_size": 3047276}}, "duration": 105.773, "thumb_url": "7c1b0007579511e02342 "md5": "be5d899c8792ff3df58b4b46c72b1d7a"} --}谷歌认为 ARM 可以对世界医疗状况产生巨大影响,尤其是发展中国家的传染病诊断,如肺结核、疟疾等。
此外,即使对于采用了数字化病理诊断工作流程的医院,ARM 也可与数字化工作流程结合使用,数字化工作流程中扫描仪仍然面临很大挑战或者仍然需要快速周转(如细胞学检查、荧光成像或术中冰冻切片)。
当然,光学显微镜在病理科之外的很多方面也被证明有效,谷歌认为 ARM 可以得到大范围的应用,如医疗、生命科学研究和材料科学。
谷歌将继续探索 ARM,帮助加速机器学习技术对世界的积极影响。
分享最近6月7月份的google发布的两篇关于深度学习应用的文章,生物医学和机器人,google在深度学习方面的研究方向很多,有很多底层算法的创新和优化,希望国内企业多多努力,一起加油!1.automating drug discoveries using computer vision,利用计算机视觉实现药物发现的自动化。
这篇文章来自谷歌brain team的首席科学家vincent vanhoucke.文中指出该项研究的目的在于帮助科学家在实验中自动识别出蛋白质晶体,蛋白质晶体是生物医学研究中发现复杂生物分子结构的关键步骤,这种结构决定了分子功能,它帮助科学家设计出专门针对该功能的药物。
但是蛋白质晶体很难被发现,以往主要通过目视检查来识别蛋白质晶体,容易发生人为错误而错过它,错过它会导致失去重要的生物医学发现的机会。
目前研究讨论通过机器识别可以获得超过94%的精度,对这一领域的研究来说是会是一个很大的进步。
直观讲就是通过机器视觉识别出科学家需要的晶体,不过这种晶体非常小,结构各不相同,且需要足够样本数据来训练和深度学习,这些都增加了很大的难度。
如果这项研究获得成功,那么未来新药物的研究速度会有很大提升,意义非凡。
2.Scalable Deep Reinforcement Learning for Robotic Manipulation,机器人 *** 作的可扩展深度强化学习。
文章来自Alex Irpan,软件工程师,谷歌大脑团队和Peter Pastor,高级机器人学家。
文中指出机器人在执行重复任务时,比如建造产品是相当常见的,希望能够设计出视周围环境的变化而执行最佳动作的机器人,而且可以对意外结果做出正确的反应。
难点在于能够分辨真实世界的细微差异,并预测对象的动作,这需要强化学习算法,并在训练中有足够多的多样性的数据。
总结下来就是需要机器人具备人类的一切感知和反应能力,这真的很难,目前科学家们用7个机器人运行4个月的时间,用15到30%的时间采集数据,当它动作执行的更好一些的时候,从数据采集切换到学习模型,这项算法用相机拍到的图像,然后指挥手臂和夹钳如何移动,目前已经收集了1000多个不同的离线数据。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)