各种百度搜索引擎早已发布了依次搜索图片的功能。它可以完成键入与图片名称或内容相似的关键字来检索相关图片。比如电商购物,微信扫描及其100 -度建筑地图识别都应用了这项技术。然而,随着视频内容的普及,业界发展出了一种新的技术——基于图像的视频搜索,即你可以根据这种技术从大量的视频中检索出整体的目标视频。
那么问题来了,这是一种什么技术?它和搜索图片有什么区别?有哪些技术问题?
因此,图林网络科技CEO魏静静被本期硬创示范课邀请,为大家讲解这个疑惑。
魏静静:中国科学技术大学计算机科学学士/研究生学位。毕业后,她先后在IBM北京产品R&D实验室和硅谷产品R&D实验室担任技术工程师和产品 *** 作员。然后她在一家咨询公司和一家投资管理公司工作。她在叶巍同创做了四年的风险投资人,并成为项目投资主管。现在是图林网络科技的CEO。
简易详细介绍下图麟科技?魏静静:图林科技的核心技术精英团队在图像处理和识别行业拥有十多年的工作经验。如今,关键致力于大量图像/视频的检索、识别和数据分析系统解决方案。关键优化算法精英团队来自全球最先进的图像和视频分辨率技术科研机构,拥有超过十五年的图像和视频科研经验。
在视频-图像行业,我们开发了一个基于视频的企业来获取特性,并完成了视频-图像技术的具体业务。
以图搜视频是用哪些的技术方法完成的?它解决了哪些的难题?应用领域有什么?魏静静:先说功效,让视频搜索解决今天大量视频内容准确快速检索的缺陷。
随着人们日常生活和具体应用中图片、视频等数据信息的爆炸,就像当初文本互联网技术的爆炸一样,人们必须用合理的方法快速选择和获取图像、视频内容。为了更好的实现这个总体目标,大量的视频检索是一个非常必要的专用工具。
与视频识别相比,按图像进行视频搜索是在大量视频中对一般对象进行快速准确的视频检索。
先说它的关键技术。
基于图像的视频搜索技术包括经典的计算机视觉和深度神经网络技术,其基本原理是将经典的计算机视觉技术和深度神经网络技术相结合,实现大量视频检索在精度和速度上的最佳组合。
并且应用领域很好理解。
视频检索的应用领域涵盖了人们日常生活和工作的许多方面。简单来说,现阶段人们在各种互联网科技视频网站、视频网页上搜索自己非常感兴趣的视频时,只能根据文字关键词进行搜索。
如果集成了地图搜索视频的技术,可以根据某个电影场景、集锦、海报的即时图片内容进行搜索。
另外 ,在网络安全行业,目前还没有办法保证图像和视频内容的全自动审批,非常高的水平需要依靠人力资源。根据图像搜索技术,可以全自动审批图像或视频的包 中包含的信息内容,提高了网络安全行业图像和视频内容审批的高效率。类似的应用领域也存在于很多领域,比如智能安防、互联网媒体、 我的图片和视频管理方法的应用等。
以图搜图与图像识别技术,物体识别的差别是啥?魏静静:其实“图像/视频检索”和“图像/物体识别”是鸾生的一对兄弟 。在某些情况下,这两种技术可以通用。比如为了更好的识别物体,可以先进行图像检索再进行图像识别技术,达到识别的实际效果;为了达到更好的图像检索,我们还可以 先识别物体,再进行检索,达到图像检索的实际效果。
自然,他们之间也有很多不同之处。为了更好地实现通用的图像/视频检索,现阶段经典的图像/视频检索优化算法没有加入图像识别技术。这有几个原因:
1.没有增加图像识别技术,可以合理减少遮挡导致的物体无法识别的问题。图像/视频检索可以根据物体的某些特征进行合理搭配,准确搜索整体目标物体。即使整体目标对象大部分被遮挡,也不会妨碍检索的准确性。
2. 为了更好的搜索宇宙万物,现阶段不可能加入对世间万物的识别。即使深度神经网络技术飞速发展,大家仍然无法合理识别所有物体。因此,为了使检索更准确 ,依靠宇宙的识别是不实际的。视频黄色识别只是用来识别一类具有特征的一般目标物体,但是我们要完成所有一般物体的搜索,所以现在还不能加入 识别技术。
然而,随着深度神经网络技术的发展趋势,一个很好的发展趋势是将深度神经网络技术与过去经典的图像/视频检索技术相结合。图林科技的实践有两个层次:
1.根据识别技术和检索技术的合理统一,将原来的两步全过程(检索和识别分为两个独立的过程)真正转化为统一的全过程进行检索。这就涉及到优化算法的每一个过程中两种技术的结合和统一,包括svm算法的全过程和对这些关键点的检查。
2.在一些可以限制的宽泛行业,根据识别问题定义类别,然后在合理识别的小类中进行快速图像/视频检索。视频识别只是在一种情况下,也有很多客户的特殊应用领域。该方法可以快速合理地进行推广和整合,快速合理地整合身份识别和视频检索技术。
以图搜视频的对比以图搜图,技术上存有什么差别与难题?魏 晶晶:视频的本质是图像编码序列。所以用地图搜索视频遇到的一个最直接的问题就是信息量巨大,一秒视频等于25-30张图片。所以一定要采用一个好的 的方式,把这个图像编码序列的特征紧凑、快速、合理的组合起来,而不是简单的对每一张图片进行svm算法,然后选择一个图。
简单来说,相对于搜索图片和视频,需要根据视频进行企业的svm算法,才有可能在具体应用中实现。这就是相对论和搜索图片视频的区别和难点。
再次,作为企业为了更好的完成基于视频的svm算法,中间会不断涉及视频内容本身的认知能力和优化算法,会超出图片搜索中检查每张图片的范围,算法复杂度和难度较高。
那麼以视频搜视频又有哪些的技术特性呢?魏静静:逐个视频搜索。大家都深信这一定是未来的发展趋势。在这个阶段,相关性也受到限制,因为视频搜索是基于图像的,或者搜索是基于每个图像的。
以图林科技为例。我们已经完成了视频搜索技术,融合仍然是前面提到的某企业基于视频的svm算法的基础优化算法。它可以对客户键入的这段视频进行合理的svm算法,根据优化算法识别出客户对视频中的某些物体或场景感兴趣,然后在大量视频中快速搜索相似的视频片段。
总之,视频搜索是中间的关键技术,也是前面提到的企业用视频的svm算法。与搜索每张图片作为整体目标相比,这是一个进步。
那样的优点实际反映在哪儿?图林科技优化算法负责人张工:现在很多情况下,人们还是把视频作为一个独立的帧来进行视频检索,也就是先获取多个帧的特征,最后一一匹配。
那看起来很详细,但是会造成数据库查询过于庞大,实际上除了效率低,精度也不是很好。林的做法是在视频层面而不是帧层面查询机构数据库,在效率和精度上有相对提升。
所述不一样类型的图象处理技术应用前景怎样?魏静静:如前所述,图片搜索、视频搜索、按图片搜索视频,立刻解决了目前图片/视频获取快、考虑多的问题。
类似于2000年前后,互联网文本信息内容的爆发,立即催生了对文本检索功能的需求和过度考虑。现阶段,在每个人都工作的日常生活行业,图片和视频的获取就像你输入文字一样方便快捷。
这立刻引起了大家对图片/视频的大量信息内容的接触。另外,随着基础硬件配置的不断提升,图片和视频的解决也越来越方便和经济。所以未来视频检索将成为各行各业的刚性需求。实际应用领域之前的回应也包含了很多方面,这里不做解释。
精彩纷呈解答:问:视频检索现在主要应用于公安机关和智能安防,那么未来会有新的发展前景吗?
答:从现阶段大家接触到的客户需求来看,公安机关和智能安防只是其中一个比较小的行业,大量的机构和拥有大量图片和视频的机构,主要表现为对视频搜索的一种即时的、迫切的需求。
目前很多企业已经在图片和视频中积累了大量的数据信息,但是没有办法让他们对这些数据信息进行合理的交互和访问,而这正是视频检索的立足点,类似于广电网络,互联网技术,文化艺术,营销推广。
问:你认为在智能机器人技术中有可能使用视频搜索技术吗,也就是说,你对智能机器人技术中的这项技术有什么想法?
答: 图片搜索视频本身包含了很多底层技术,包括图像识别技术、深度神经网络、计算机视觉、视频检索等。从品类上看,这些都是CV行业非常重要的底层技术,都可以直接应用到机器人视觉层面。简而言之,智能机器人视觉效果所必需的物体识别、定位和导航视觉效果控制模块和图像。
通过视频搜索视频,其实是和智能机器人的场景紧密结合的。智能机器人根据监控摄像头打出视频后,可以快速合理地定位自己所处的场景,并对其个人行为进行反馈。其他方面的识别,坚信大家都很了解。
问:“从视频层面,而不是帧层面查询机构数据库”,能否对此进行阐述?
a:嗯,一个视频有100个小时,现阶段市面上很多视频检索系统软件,数据库查询大概都是存储单帧,所以总共有100*3600*25帧,数据库查询这么大。但是,如果将视频内容按级别分类,很可能只有许多单独的视频片段,这样会小得多,检索起来也更快。
问:您经常访问这些技术社区论坛及其社区吗?
答:我个人喜欢看一些国际顶尖的毕业论文,比如CVPR、ICML和ICLR。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)