随着机器视觉及其应用的最新进展,相比基于帧的CCD或CMOS图像传感器,业界对更快、更节能、更灵敏的传感器硬件的需求越来越高。除了基于传统CMOS技术并已达到较高成熟度的事件相机(硅视网膜),现在对新型图像采集和数据预处理技术的研究也越来越多,其中许多技术模拟了人类视觉系统的某些神经生物学功能。
近几十年来,一种被称为像素合并(pixel binning)的图像预处理技术得到了应用,它是将图像中相邻的n个点像素相加合并变为一个点像素的过程。这提供了很多优势,例如(1)由于输出数据量减少而提高了帧速率,以及(2)在低光水平或短曝光时间下,提高了信噪比(SNR)等。对于后者来说,正常模式下每个探测像素都会受到暗噪声的影响,但在合并模式下,每个像素仅受到一次噪声影响。然而,合并的代价是空间分辨率降低,或者说丢失信息。在模式识别应用中,即使信噪比很高,这也会降低结果的准确性。
据麦姆斯咨询介绍,维也纳技术大学(Vienna University of Technology)光子学研究所的一支研究团队通过将大量传感像素合并成一个“超像素”,将合并的概念推向了极限。超像素的最佳形状通过机器学习算法在训练数据中确定。研究人员展示了在超短时间尺度上对光学投影图像分类,具有增强的动态范围,并且不损失分类精度。这项研究成果已发表于ScienTIfic Reports期刊。
像素合并
不同类型像素合并的人工神经网络(ANN)分类精度。传统像素合并可以在低光照强度下扩展动态范围,但随着光照强度的提高会牺牲精度。数据驱动(Data-driven)的像素合并则不存在这个缺点。
对于具有独热编码(one-hot encoding)的多类分类,每个类都需要一个这样的超像素。对于传统合并,系统对噪声变得更具d性,并且提高了动态范围。然而,与传统情况相比,对于更高的光照强度,其分类精度没有损失,因此性能没有妥协。当然,这些优势的代价是降低了灵活性,因为每个特定应用都需要自定义配置/设计。
光电传感器实现
下图展示了这款采用数据驱动像素合并的光电传感器示意图。该传感器由N个像素组成,排列成二维阵列。每个像素最多被划分为M个子像素,这些子像素连接合并在一起形成M超像素,测量其输出电流。
(a)光电传感器示意图。(b)用于MNIST数据集分类的NB分类器的显微图像,N=14 x 14像素,M=10个输出通道。(c)具有两个金属层的GaAs肖特基光电二极管剖面图。(d)光学照明下其中一个探测器元件的电流-电压特性。
注:MNIST数据集(Mixed NaTIonal InsTItute of Standards and Technology database)是美国国家标准与技术研究院收集整理的大型手写数字数据库,包含60,000个示例的训练集以及10,000个示例的测试集。
朴素贝叶斯(NB)光电传感器
(a)工作原理示意图。(b)实验装置示意图。(c)根据MNIST训练数据集确定的NB分类器的超像素形状。(d)计算混淆矩阵。(e)测量的光响应图。(f)实验混淆矩阵由10⁴位数字光学投影逐个确定,并将已知/真实类别标签与传感器预测的标签进行对比。
ANN光电传感器
(a)具有权重和偏差约束的ANN示意图。(b)ANN传感器的混淆矩阵。(c)最高和所有其他输出电流之间的相对差。ANN相比NB分类器展现了更宽的输出电流分布。(d)ANN的超像素形状。
数据驱动像素合并的优势
显然,与在传统CMOS图像传感器中读出整个图像相比,读出M超像素信号需要的时间、资源和能量更少。事实上,光电二极管阵列本身根本不消耗任何能量;能量仅由选择最高光电流的电子电路消耗。模式识别和分类实时进行,并且仅受光电流产生的物理特性和/或数据采集系统的电带宽的限制。
器件性能评估
结语
研究人员总结提出了未来研究的建议路线。当前器件的主要限制是缺乏可重构性。虽然在某些情况下(例如专用光谱应用)可能是合适的,但通常很看重传感器的可重构性。例如,这可以通过利用具有可调响应的光电探测器或基于非易失性存储器材料的可编程网络将各个像素合并在一起来实现。
除了标准独热编码之外的其他方案,还可以节省硬件资源并进一步扩展动态范围。这项技术的可能应用包括需要高速识别简单物体或图案的工业图像识别系统,以及光谱学应用,其中入射光被分散成不同的颜色,传感器经过训练以识别某些特征光谱。在这两种应用中,经典机器学习算法将为数据集的逼近提供足够的繁复和深度。
审核编辑:彭静欢迎分享,转载请注明来源:内存溢出
评论列表(0条)