图像记忆的原理和方法 [图像拼接原理及方法]

图像记忆的原理和方法 [图像拼接原理及方法],第1张

第一章 绪论

11 图像拼接技术的研究背景及研究意义

图像拼接(image mosaic)是一个日益流行的研究领域,他已经成为照相绘图学、计算机视觉、图像处理和计算机图形学研究中的热点。图像拼接解决的问题一般式,通过对齐一系列空间重叠的图像,构成一个无缝的、高清晰的图像,它具有比单个图像更高的分辨率和更大的视野。

早期的图像拼接研究一直用于照相绘图学,主要是对大量航拍或卫星的图像的整合。近年来随着图像拼接技术的研究和发展,它使基于图像的绘制(IBR )成为结合两个互补领域——计算机视觉和计算机图形学的坚决焦点,在计算机视觉领域中,图像拼接成为对可视化场景描述(Visual Scene Representaions)的主要研究方法:在计算机形学中,现实世界的图像过去一直用于环境贴图,即合成静态的背景和增加合成物体真实感的贴图,图像拼接可以使IBR 从一系列真是图像中快速绘制具有真实感的新视图。

在军事领域网的夜视成像技术中,无论夜视微光还是红外成像设备都会由于摄像器材的限制而无法拍摄视野宽阔的,更不用说360 度的环形了。但是在实际应用中,很多时候需要将360 度所拍摄的很多张合成一张,从而可以使观察者可以观察到周围的全部情况。使用图像拼接技术,在根据拍摄设备和周围景物的情况进行分析后,就可以将通过转动的拍摄器材拍摄的涵盖周围360 度景物的多幅图像进行拼接,从而实时地得到超大视角甚至是360 度角的全景图像。这在红外预警中起到了很大的作用。

微小型履带式移动机器人项目中,单目视觉不能满足机器人的视觉导航需要,并且单目视觉机器人的视野范围明显小于双目视觉机器人的视野。利用图像拼接技术,拼接机器人双目采集的图像,可以增大机器人的视野,给机器人的视觉导航提供方便。在虚拟现实领域中,人们可以利用图像拼接技术来得到宽视角的图像或360 度全景图像,用来虚拟实际场景。这种基于全景图的虚拟现实系统,通过全景图的深度信息抽取,恢复场景的三维信息,进而建立三维模型。这个系统允许用户在虚拟环境中的一点作水平环视以及一定范围内的俯视和仰视,同时允许在环视的过程中动态地改变焦距。这样的全景图像相当于人站在原地环顾四周时看到的情形。在医学图像处理方面,显微镜或超声波的视野较小,医师无法通过一幅图像进行诊视,同时对于大目标图像的数据测量也需要把不完整的图像拼接为一个整体。所以把相邻的各幅图像拼接起来是实现远程数据测量和远程会诊的关键环节圆。在遥感技术领域中,利用图像拼接技术中的图像配准技术可以对来自同一区域的两幅或多幅图像进行比较,也可以利用图像拼接技术将遥感卫星拍摄到的有失真地面图像拼接成比较准确的完整图像,作为进一步研究的依据。

从以上方面可以看出,图像拼接技术的应用前景十分广阔,深入研究图像拼接技术有着很重要的意义

12图像拼接算法的分类

图像拼接作为这些年来图像研究方面的重点之一,国内外研究人员也提出了很多拼接算法。图像拼接的质量,主要依赖图像的配准程度,因此图像的配准是拼接算法的核心和关键。根据图像匹配方法的不同仁阔,一般可以将图像拼接算法分为以下两个类型:

(1) 基于区域相关的拼接算法。

这是最为传统和最普遍的算法。基于区域的配准方法是从待拼接图像的灰度值出发,对

待配准图像中一块区域与参考图像中的相同尺寸的区域使用最小二乘法或者其它数学方法计算其灰度值的差异,对此差异比较后来判断待拼接图像重叠区域的相似程度,由此得到待拼接图像重叠区域的范围和位置,从而实现图像拼接。也可以通过FFT 变换将图像由时域变换到频域,然后再进行配准。对位移量比较大的图像,可以先校正图像的旋转,然后建立两幅图像之间的映射关系。

当以两块区域像素点灰度值的差别作为判别标准时,最简单的一种方法是直接把各点灰度的差值累计起来。这种办法效果不是很好,常常由于亮度、对比度的变化及其它原因导致拼接失败。另一种方法是计算两块区域的对应像素点灰度值的相关系数,相关系数越大,则两块图像的匹配程度越高。该方法的拼接效果要好一些,成功率有所提高。

(2) 基于特征相关的拼接算法。

基于特征的配准方法不是直接利用图像的像素值,而是通过像素导出图像的特征,然后以图像特征为标准,对图像重叠部分的对应特征区域进行搜索匹配,该类拼接算法有比较高的健壮性和鲁棒性。

基于特征的配准方法有两个过程:特征抽取和特征配准。首先从两幅图像中提取灰度变化明显的点、线、区域等特征形成特征集冈。然后在两幅图像对应的特征集中利用特征匹配算法尽可能地将存在对应关系的特征对选择出来。一系列的图像分割技术都被用到特征的抽取和边界检测上。如canny 算子、拉普拉斯高斯算子、区域生长。抽取出来的空间特征有闭合的边界、开边界、交叉线以及其他特征。特征匹配的算法有:交叉相关、距离变换、动态编程、结构匹配、链码相关等算法。

13本文的主要工作和组织结构

本文的主要工作:

(1) 总结了前人在图像拼接方面的技术发展历程和研究成果。

(2) 学习和研究了前人的图像配准算法。

(3) 学习和研究了常用的图像融合算法。

(4) 用matlab 实现本文中的图像拼接算法

(5) 总结了图像拼接中还存在的问题,对图像拼接的发展方向和应用前景进行展望。 本文的组织结构:

第一章主要对图像拼接技术作了整体的概述,介绍了图像拼接的研究背景和应用前景,以及图像拼接技术的大致过程、图像拼接算法的分类和其技术难点。第二章主要介绍讨论了图像预处理中的两个步骤,即图像的几何校正和噪声点的抑制。第三章主要介绍讨论了图像配准的多种算法。第四章主要介绍讨论了图像融合的一些算法。第五章主要介绍图像拼接软件实现本文的算法。第六章主要对图像拼接中还存在的问题进行总结,以及对图像拼接的发展进行展望。

14 本章小结

本章主要对图像拼接技术作了整体的概述,介绍了图像拼接的研究背景和应用前景,以图像拼接算法的分类和其技术难点,并且对全文研究内容进行了总体介绍。

第二章 图像拼接的基础理论及图像预处理

21图像拼接

图像拼接技术主要有三个主要步骤:图像预处理、图像配准、图像融合与边界平滑, 如图。

图像拼接技术主要分为三个主要步骤:图像预处理、图像配准、图像融合与边界平滑,图像预处理主要指对图像进行几何畸变校正和噪声点的抑制等,让参考图像和待拼接图像不存在明显的几何畸变。在图像质量不理想的情况下进行图像拼接,如果不经过图像预处理,很容易造成一些误匹配。图像预处理主要是为下一步图像配准做准备,让图像质量能够满足图像配准的要求。图像配准主要指对参考图像和待拼接图像中的匹配信息进行提取,在提取出的信息中寻找最佳的匹配,完成图像间的对齐。图像拼接的成功与否主要是图像的配准。待拼接的图像之间,可能存在平移、旋转、缩放等多种变换或者大面积的同色区域等很难匹配的情况,一个好的图像配准算法应该能够在各种情况下准确找到图像间的对应信息,将图像对齐。图像融合指在完成图像匹配以后,对图像进行缝合,并对缝合的边界进行平滑处理,让缝合自然过渡。由于任何两幅相邻图像在采集条件上都不可能做到完全相同,因此,对于一些本应该相同的图像特性,如图像的光照特性等,在两幅图像中就不会表现的完全一样。图像拼接缝隙就是从一幅图像的图像区域过渡到另一幅图像的图像区域时,由于图像中的某些相关特性发生了跃变而产生的。图像融合就是为了让图像间的拼接缝隙不明显,拼接更自然

22 图像的获取方式

图像拼接技术原理是根据图像重叠部分将多张衔接的图像拼合成一张高分辨率全景图 。这些有重叠部分的图像一般由两种方法获得 : 一种是固定照相机的转轴 , 然后绕轴旋转所拍摄的照片 ; 另一种是固定照相机的光心 , 水平摇动镜头所拍摄的照片。其中 , 前者主要用于远景或遥感图像的获取 , 后者主要用于显微图像的获取 , 它们共同的特点就是获得有重叠的二维图像。

23 图像的预处理

231 图像的校正

当照相系统的镜头或者照相装置没有正对着待拍摄的景物时候,那么拍摄到的景物图像就会产生一定的变形。这是几何畸变最常见的情况。另外,由于光学成像系统或电子扫描系统的限制而产生的枕形或桶形失真,也是几何畸变的典型情况。几何畸变会给图像拼接造成

很大的问题,原本在两幅图像中相同的物体会因为畸变而变得不匹配,这会给图像的配准带来很大的问题。因此,解决几何畸变的问题显得很重要。

图象校正的基本思路是,根据图像失真原因,建立相应的数学模型,从被污染或畸变的图象信号中提取所需要的信息,沿着使图象失真的逆过程恢复图象本来面貌。实际的复原过程是设计一个滤波器,使其能从失真图象中计算得到真实图象的估值,使其根据预先规定的误差准则,最大程度地接近真实图象。

232 图像噪声的抑制

图像噪声可以理解为妨碍人的视觉感知,或妨碍系统传感器对所接受图像源信息进行理解或分析的各种因素,也可以理解成真实信号与理想信号之间存在的偏差。一般来说,噪声是不可预测的随机信号,通常采用概率统计的方法对其进行分析。噪声对图像处理十分重要,它影响图像处理的各个环节,特别在图像的输入、采集中的噪声抑制是十分关键的问题。若输入伴有较大的噪声,必然影响图像拼接的全过程及输出的结果。根据噪声的来源,大致可以分为外部噪声和内部噪声;从统计数学的观点来定义噪声,可以分为平稳噪声和非平稳噪声。各种类型的噪声反映在图像画面上,大致可以分为两种类型。一是噪声的幅值基本相同,但是噪声出现的位置是随机的,一般称这类噪声为椒盐噪声。另一种是每一点都存在噪声,但噪声的幅值是随机分布的,从噪声幅值大小的分布统计来看,其密度函数有高斯型、瑞利型,分别成为高斯噪声和瑞利噪声,又如频谱均匀分布的噪声称为白噪声等。

1 均值滤波

所谓均值滤波实际上就是用均值替代原图像中的各个像素值。均值滤波的方法是,对将处理的当前像素,选择一个模板,该模板为其邻近的若干像素组成,用模板中像素的均值来替代原像素的值。如图24所示,序号为0是当前像素,序号为1至8是邻近像素。求模板中所有像素的均值,再把该均值赋予当前像素点((x, y),作为处理后图像在该点上的灰度g(x,y),即

g(x,y)= (2-2-2-1)

其中,s 为模板,M 为该模板中包含像素的总个数。

图2221模板示意图

2 中值滤波

中值滤波是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术。它的核心算法是将模板中的数据进行排序,这样,如果一个亮点(暗点)的噪声,就会在排序过程中被排在数据序列的最右侧或者最左侧,因此,最终选择的数据序列中间位置上的值一般不是噪声点值,由此便可以达到抑制噪声的目的。

取某种结构的二维滑动模板,将模板内像素按照像素值的大小进行排序,生成单调上升(或下降)的二维数据序列。二维德中值滤波输出为

( 2-2-2-2 )

其中,f(x,y),g (x,y)分别为原图像和处理后的图像,w 二维模板,k ,l为模板的长宽,Med 为取中间值 *** 作,模板通常为3 3 、5 5 区域,也可以有不同形状,如线状、圆形、十字形、圆环形。

24 本章小结

本章主要介绍了图像几何畸变校正和图像噪声抑制两种图像预处理

第三章 图像配准算法

31 图像配准的概念

图像配准简而言之就是图像之间的对齐。图像配准定义为:对从不同传感器或不同时间或不同角度所获得的两幅或多幅图像进行最佳匹配的处理过程。为了更清楚图像配准的任务,我们将图像配准问题用更精确的数学语言描述出来。配准可以用描述为如下的问题:

给定同一景物的从不同的视角或在不同的时间获取的两个图像I ,I 和两个图像间的相似度量S(I ,I ),找出I ,I 中的同名点,确定图像间的最优变换T, 使得S(T(I ),I )达到最大值。 图像配准总是相对于多幅图像来讲的,在实际工作中,通常取其中的一幅图像作为配准的基准, 称它为参考图, 另一幅图像, 为搜索图。图像配准的一般做法是,首先在参考图上选取以某一目标点为中心的图像子块,并称它为图像配准的模板,然后让模板在搜索图上有秩序地移动,每移到一个位置,把模板与搜索图中的对应部分进行相关比较,直到找到配准位置为止。

如果在模板的范围内,同一目标的两幅图像完全相同,那么完成图像配准并不困难。然而,实际上图像配准中所遇到的同一目标的两幅图像常常是在不同条件下获得的,如不同的成像时间、不同的成像位置、甚至不同的成像系统等,再加上成像中各种噪声的影响,使同一目标的两幅图像不可能完全相同,只能做到某种程度的相似,因此图像配准是一个相当复杂的技术过程。

32 基于区域的配准

321 逐一比较法

设搜索图为s 待配准模板为T ,如图31所示,S 大小为M N,T 大小为U V,如图所示。

图31搜索图S 与模板T 示意图

逐一比较法的配准思想是:

在搜索图S 中以某点为基点(i,j),截取一个与模板T 大小一样的分块图像,这样的基点有(M-U+1) (N-V+1)个,配准的目标就是在(M-U+1) (N-V+1)个分块图像中找一个与待配准图像最相似的图像,这样得到的基准点就是最佳配准点。

设模板T 在搜索图s 上移动,模板覆盖下的那块搜索图叫子图S ,(i,j)为这块子图的左上角点在S 图中的坐标,叫做参考点。然后比较T 和S 的内容。若两者一致,则T 和S 之差为零。在现实图像中,两幅图像完全一致是很少见的,一般的判断是在满足一定条件下,T 和S 之差最小。

根据以上原理,可采用下列两种测度之一来衡量T 和S 的相似程度。D(i,j)的值越小,则该窗口越匹配。

D(i,j)=

或 [S (m,n)-T(m,n)] (3-1)

D(i,j)= [S (m,n)-T(m,n) (3-2)

或者利用归一化相关函数。将式(3-1)展开可得:

D(i,j)= [S (m,n)] -2 S (m,n)T(m,n)+ [T(m,n)] (3-3)

式中等号右边第三项表示模板总能量,是一常数,与(i,j)无关; 第一项是与模板匹配区域的能量,它随((i,j)的改变而改变,当T 和S 匹配时的取最大值。因此相

关函数为:

R(i,j)= (3-4) 当R(i,j)越大时,D(i,j)越小,归一化后为:

R(i,j)= (3-5)

根据Cauchy-Schwarz 不等式可知式(3-5)中0 R(i,j) 1,并且仅当值S (m, n)/T (m, n)=常数时,R(i,j)取极大值。

该算法的优点:

(1)算法思路比较简单,容易理解,易于编程实现。

(2)选用的模板越大,包含的信息就越多,匹配结果的可信度也会提高,同时能够对参考图像进行全面的扫描。

该算法的缺点:

(1)很难选择待配准图像分块。因为一个如果分块选择的不正确,缺少信息量,则不容易正确的匹配,即发生伪匹配。同时,如果分块过大则降低匹配速度,如果分块过小则容易降低匹配精度。·

(2)对图像的旋转变形不能很好的处理。算法本身只是把待配准图像分块在标准参考图像中移动比较,选择一个最相似的匹配块,但是并不能够对图像的旋转变形进行处理,因此对照片的拍摄有严格的要求。

322 分层比较法

图像处理的塔形(或称金字塔:Pyramid)分解方法是由Burt 和Adelson 首先提出的,其早期主要用于图像的压缩处理及机器人的视觉特性研究。该方法把原始图像分解成许多不同空间分辨率的子图像,高分辨率(尺寸较大) 的子图像放在下层,低分辨率(尺寸较小) 的图像放在上层,从而形成一个金字塔形状。

在逐一比较法的思想上,为减少运算量,引入了塔形处理的思想,提出了分层比较法。利用图像的塔形分解,可以分析图像中不同大小的物体。同时,通过对低分辨率、尺寸较小的上层进行分析所得到的信息还可以用来指导对高分辨率、尺寸较大的下层进行分析,从而大大简化分析和计算。在搜索过程中,首先进行粗略匹配,每次水平或垂直移动一个步长,计算对应像素点灰度差的平方和,记录最小值的网格位置。其次,以此位置为中心进行精确匹配。每次步长减半,搜索当前最小值,循环这个过程,直到步长为零,最后确定出最佳匹配位置。

算法的具体实现步骤如下:

(1)将待匹配的两幅图像中2 2邻域内的像素点的像素值分别取平均,作为这一区域(2 2)像素值,得到分辨率低一级的图像。然后,将此分辨率低一级的图像再作同样的处理,

也就是将低一级的图像4 4邻域内的像素点的像素值分别取平均,作为这一区域(4 4)点的像素值,得到分辨率更低一级的图像。依次处理,得到一组分辨率依次降低的图像。

(2)从待匹配的两幅图像中分辨率最低的开始进行匹配搜索,由于这两幅图像像素点的数目少,图像信息也被消除一部分,因此,此匹配位置是不精确的。所以,在分辨率更高一级的图像中搜索时,应该在上一次匹配位置的附近进行搜索。依次进行下去,直到在原始图像中寻找到精确的匹配位置。

算法的优点:

(1)该算法思路简单,容易理解,易于编程实现。

(2)该算法的搜索空间比逐一比较要少,在运算速度较逐一比较法有所提高。

算法的缺点:

(1)算法的精度不高。在是在粗略匹配过程中,移动的步长较大,很有可能将第一幅图像上所取的网格划分开,这样将造成匹配中无法取出与第一幅图像网格完全匹配的最佳网格,很难达到精确匹配。

(2)对图像的旋转变形仍然不能很好的处理。与逐一比较法一样,该算法只是对其运算速度有所改进,让搜索空间变小,并无本质变化,因此对图像的旋转变形并不能进行相应处理。

323 相位相关法

相位相关度法是基于频域的配准常用算法。它将图像由空域变换到频域以后再进行配准。该算法利用了互功率谱中的相位信息进行图像配准,对图像间的亮度变化不敏感,具有一定的抗干扰能力,而且所获得的相关峰尖锐突出,位移检测范围大,具有较高的匹配精度。 相位相关度法思想是利用傅立叶变换的位移性质,对于两幅数字图像s,t ,其对应的傅立叶变换为S,T ,即:

S=F{s}= e T=F{t}= e (3-6)

若图像s,t 相差一个平移量(x ,y ),即有:

s(x,y) = t(x-x ,y-y ) (3-7)

根据傅立叶变换的位移性质,上式的傅立叶变换为:

S( )=e T( ) (3-8)

也就是说,这两幅图像在频域中具有相同的幅值,只是相位不同,他们之间的相位差可以等效的表示为互功率谱的相位。两幅图的互功率谱为:

=e (3-9)

其中为共扼符号, 表示频谱幅度。通过对互功率谱式(3-9)进行傅立叶逆变换,在((x,y)空间的(x ,y ),即位移处,将形成一个单位脉冲函数 ,脉冲位置即为两幅被配准图像间的相对平移量x 和y

式(3-9)表明,互功率谱的相位等价于图像间的相位差,故该方法称作相位相关法。

相位相关度法的优点:

(1)该算法简单速度快,因此经常被采用。对于其核心技术傅立叶变换,现在己经出现了很多有关的快速算法,这使得该算法的快速性成为众多算法中的一大优势。另外,傅立叶变换的硬件实现也比其它算法容易。

(2)该算法抗干扰能力强,对于亮度变化不敏感。

相位相关度法的缺点:

(1)该算法要求图像有50%左右的重叠区域,在图像重叠区域很小的时,算法的结果很难保证,容易造成误匹配。

(2)由于Fourier 变换依赖于自身的不变属性,所以该算法只适用于具有旋转、平移、比例缩放等变换的图像配准问题。对于任意变换模型,不能直接进行处理,而要使用控制点方法,控制点方法可以解决诸如多项式、局部变形等问题。

33 基于特征的配准

331 比值匹配法

比值匹配法算法思路是利用图像中两列上的部分像素的比值作为模板,即在参考图像T 的重叠区域中分别在两列上取出部分像素,用它们的比值作为模板,然后在搜索图S 中搜索最佳的匹配。匹配的过程是在搜索图S 中,由左至右依次从间距相同的两列上取出部分像素,并逐一计算其对应像素值比值; 然后将这些比值依次与模板进行比较,其最小差值对应的列就是最佳匹配。这样在比较中只利用了一组数据,而这组数据利用了两列像素及其所包含的区域的信息。

该算法的具体实现步骤如下:

(1)在参考图像T 中间隔为c 个像素的距离上的两列像素中,各取m 个像素,计算这m 个像素的比值,将m 个比值存入数组中,将其作为比较的模板。

(2)从搜索图S 中在同样相隔c 个像素的距离上的两列,各取出m+n个像素,计算其比值,将m+n个比值存入数组。假定垂直错开距离不超过n 个像素,多取的n 个像素则可以解决图像垂直方向上的交错问题。

(3)利用参考图像T 中的比值模板在搜索图S 中寻找相应的匹配。首先进行垂直方向上的比较,即记录下搜索图S 中每个比值数组内的最佳匹配。再将每个数组的组内最佳匹配进行比较,即进行水平方向的比较,得到的最小值就认为是全局最佳匹配。此时全局最佳匹配即为图像间在水平方向上的偏移距离,该全局最佳匹配队应的组内最佳匹配即为图像间垂直方向上的偏移距离。

比值匹配法的优点:

(1)算法思路清晰简单,容易理解,实现起来比较方便。

(2)在匹配计算的时候,计算量小,速度快。

比值匹配法的缺点:

(1)利用图像的特征信息太少。只利用了两条竖直的平行特征线段的像素的信息,没有能够充分利用了图像重叠区域的大部分特征信息。虽然算法提到,在搜索图S 中由左至右依次从间距相同的两列上取出部分像素,计算其对应像素的比值,然后将这些比值依次与模版

进行比较,好像是利用了搜索图S 中的重叠区域的大部分图像信息,但在参考图像T 中,只是任意选择了两条特征线,没有充分利用到参考图像T 的重叠区域的特征信息。

(2)对的采集提出了较高的要求。此算法对照片先进行垂直方向上的比较,然后再进行水平方向上的比较,这样可以解决上下较小的错开问题。在采集的时候只能使照相机在水平方向上移动。然而,有时候不可避免的照相机镜头会有小角度的旋转,使得拍摄出来的照片有一定的旋转,在这个算法中是无法解决的。而且对重叠区域无明显特征的图像,比较背景是海洋或者天空,这样在选取特征模版的时候存在很大的问题。由于照片中存在大块纹理相同的部分,所以与模版的差别就不大,这样有很多匹配点,很容易造成误匹配。

(3)不易对两条特征线以及特征线之间的距离进行确定。算法中在参考图像T 的重叠区域中取出两列像素上的部分像素,并没有给出选择的限制。然而在利用拼接算法实现自动拼接的时候,如果选取的特征线不是很恰当,那么这样的特征线算出来的模版就失去了作为模版的意义。同时,在确定特征线间距时,选的过大,则不能充分利用重叠区域的图像信息。选择的过小,则计算量太大。

图像是指物体的描述信息,数字图像是一个物体的数字表示。视觉是人类感知外部世界的最重要手段,据统计,在人类获取的信息中,视觉信息占60%,而图像正式人类获取信息的重要途径,因此,和视觉紧密相关的数字图像处理技术的项目的开发越来越受到人们的关注,逐渐形成图像识别技术。
随着数字图像处理技术的发展和实际应用的需求。许多问题不要求其输出结果是一幅完整的图像本身,而是将经过一定处理后的图像再分割和描述,提取有效的特征,进而加以判断分类,这种技术就是图像的模式识别。
图像识别技术是利用计算机视觉采集物理对象,以图像数据为基础,让机器模仿人类视觉,自动完成某些信息的处理功能,达到人类所具有的对视觉采集图像进行识别的能力,以代替人去完成图像分类及辨别的任务。对图像识别来说,面对的是二维数据信号或平面图形,除掉它们各不相同的物理内容,考虑对样品数据分类这一共性来研究的,把同一种共性者归为一类,另一种共性者归为一类。要求在最小的错误概率条件下,使识别的结果尽量与客观物体相符合,具备人所具有的对各种事物、现象进行分析、描述与判断的能力。
图像的识别属于当代计算机科学研究的重要领域,已发展成为一门独立的学科。这一学科在近几年里,发展十分迅速,应用范围相当广泛,几乎遍及各个领域,从宇航领域拓展到生物科学、信息科学、资源环境科学、天文学、物理学、工业、农业、国防、教育、艺术等各个领域与行业,在国防经济、国防建设、社会治安和社会发展等方面得到广泛应用,对整个社会都产生了深远的影响。目前, 光学字符识别(如手写数字识别、邮政编码识别、汽车牌号识别、汉字识别、条形码识别等), 以及 生物特征识别(如人脸识别、指纹识别、虹膜识别等) 已经在人类日常生活中广泛应用,对经济、军事、文化及人们的日常生活产生重大影响。

光学字符识别使用OCR读取设备和智能视觉系统软件,识别可同时被机器和肉眼读取的文本。OCR所使用的输设备入设备可以是任何一种图像采集设备,如CCD、扫描仪、数字相机等。通过使用这类采集设备,OCR系统将书写者自己写好的文字作为图像输入到计算机中,然后由计算机去识别。光学字符识别技术已经广泛应用于各种商业活动,现在又开始应用到自动化任务中。字符识别处理的信息可分为3大类:文字信息识别、数字信息识别和条形码识别。

生物特征识别就是采用某种技术和手段对人的身份进行标识,从而依据该标识对人进行身份识别,以达到监督、管理和控制目的的一种技术。用于身份识别和个人信息管理的技术和手段层出不穷,传统的个人信息鉴定方法包括个人特征。如身份z、工作者、学生证、磁卡、智能卡、口令密码等,这些分身验证方法普遍存在易丢失、易破解、易伪造、不易携带等缺点,而且在安全性和鉴定速度方面也已经不能满足人们的需求,这些技术虽然方便快捷,但其致命的缺点是安全性差、易伪造、易窃取等。近年来,计算机的广泛应用使得生物特征识别进行身份识别成为可能。
生物特征识别的方法越来越多地被应用于身份识别领域。生物特征识别技术(Biometric Identification Technology)是指人体固有的特征为判别标准,达到精确鉴定人身份的技术。这些固有特征包括人脸、虹膜、指纹、掌纹等,也被称为生物模态。这些特征除了外伤等特殊情况下一般会伴随人的一生,而不会改变或者变化很小。生物识别技术对每个个体都具有随身携带性和持久性;对不同个体具有普遍性和唯一性等优于传统身份识别的特点。基于人类生物特征的识别技术具有安全可靠、特征唯一、不易伪造、不可窃取等优点。
结合计算机技术,发展起来了众多jiy基于人类生物特征的人类身份识别技术,如人脸识别技术、指纹识别技术、虹膜识别技术。这些识别技术具有特征录入较为方便、信息丰富、使用范围广等优点。因此有着广阔的应用前景。
(1)人脸识别主要通过人脸特征进行识别,也是人们最早使用的生物特征识别技术之一,是一种比较友好、直观、更容易被人接受的识别方式。在实际应用中,人脸识别易于使用,无须使用者的主动参与,尤其适用于视屏监控等应用。但人脸识别的缺点在于稳定性较差,很容易受周围环境、饰物、年龄、表情等干扰,造成错误的识别。另外,对双胞胎、多胞胎的鉴别仍然无能为力。
(2)虹膜识别主要基于虹膜的生理结构,利用虹膜中存在的细丝、斑点、凸点、射线、皱纹和条纹等特征进行识别。据称,没有任何两个虹膜是一样的。虹膜身份认证的可靠性高,其错误接受率和错误拒绝率很低。
(3)指纹识别主要通过分析指纹的全局特征和局部特征进行识别,常用的特征如指纹中的嵴、谷、终点、分叉点和分歧点等。随着指纹识别技术的发展和指纹采集设备的价格降低,指纹识别不仅广泛应用于司法和商务活动中,也越来越多地在笔记本电脑、手机、存储器等终端设备中使用。但采集指纹时要求保持手指的洁净和光滑,污垢和疤痕都会给识别带来困难。老年人和手工劳动者的指纹由于磨损严重而不易识别。另外,在实际采集中发现,由于在犯罪记录中常使用指纹,导致很多人害怕将指纹记录在案,从心理上不愿意接收这种识别方式。
目前,无论是字符识别(如手写数字识别、邮政编码识别、汽车牌照识别、文字识别等)还是人类生物特征识别(如人脸识别、指纹识别、虹膜识别等)的项目开发技术,他们涉及数字图像处理、模式识别、人工智能、智能计算等多个学科领域。 随着高科技的发展,这些项目应用已成为衡量当代高科技水平的重要手段。

图像识别技术 是数字图像处理 模式识别技术 相结合的产物。数字图象处理是利用计算机或其他数字设备对图像信息进行各种加工和处理,以满足目标识别需求的基础行为。模式识别研究如何用机器来实现人对事物的学习、识别和判断能力,因而是以满足目标识别的判断行为。
为了模拟人类图像识别活动,人们提出了不同的 图像识别模型 。例如,模版匹配模型。这种模型认为,识别图像中的某个物体,必须在过去的经验中有有这个图像对对物体的记忆模式,又叫 模板 ,当前的刺激如果能与大脑中的模板相匹配,这个物体就被识别了。
图像识别的基本过程 是抽取代表未知样本模式的本质表达形式(如各种特征)和预先存储在机器中的标准模式表达形式的集合(称为字典)逐一匹配,用一定的准则进行判别,在机器存储的标准模式表达形式的集合中,找到最接近输入样本子模式的表达形式,该表达模式对应的类别就是识别结果。因此, 图像识别技术是一种从大量信息和数据出发,在已有经验和认识的基础上,利用计算机和数学推理的方法自动完成图像中物体的识别和评价的过程。
图像识别过程包括图像采集(特征分析)、图像预处理、特征提取、模式匹配4个环节。

首先,通过高清摄像机、扫描仪或其他图像采集仪器采集图像的原始信息。图像的采集过程中,由于设备的机械原因或是其他人为因素造成的图像尺寸、角度、格式、光照强度等的不同,会对以后的 *** 作产生较大影响,所以要对采集来的原始图像进行预处理 *** 作。图像预处理的作用可以总结为:采用某种手段将图像信息归一化,以便于后续处理工作。图像特征提取部分的作用是提取出最能表征一个物体的特征信息,并将其转变成特征向量或矩阵的形式。模式匹配是指系统用待测图像的特征与特征库中的信息进行比对,通过选择合适的分类器达到识别的目的。

图像预处理技术就是对图像进行正式处理前所做的一系列 *** 作。因为图像在传输过程和存储过程中难免会受到某种程度的破坏和各种各样的噪声污染,导致图像丧失了本质或者偏离了人们的需求,而这就需要一系列的预处理 *** 作来消除图像受到的影响。总的来说,图像预处理技术分为两大方面,即图像增强和图像复原技术。图像增强技术在图像预处理中占有较大的比重,是图像预处理所必需的步骤,它与图像复原技术的不同之处在于图像复原是以恢复图像原来的本质为目的的。而图像增强是以突出人们需要的特征并弱化不需要的特征为原理的。一般来说,图像增强技术有两种方法:空间域和频率域法。空间域法则主要是直接在空间域内对图像进行运算处理,分为两个方面:点运算和领域运算(局部运算)。其中,点运算包括图像灰度变换、直方图均衡化和局部统计法等几种方法;领域运算包括图像平滑和图像锐化等几个方面。频率域法则只在图像的某种变换域里对图像的变换值进行运算,如我们对图像进行傅立叶变换,然后在变换域里对图像的频谱进行某种计算,最后把计算后的图像逆变换到空间域。频率域法通常分为高、低通滤波、频率带通和带阻滤波等。图像复原技术就是利用图像的先验知识来改变一副被退化的图像的过程。图像复原技术需要我们建立图像模型,然后逆向反解这个退化过程,最后获得退化前的最优图像。

图像变换域处理是以空间频率(波数)为自变量描述图像的特征的,可以将一幅图像元值在空间上的变化分解为具有不同振幅、空间频率和相位的简振函数的线性叠加,图像中各种空间频率成分和分布称为空间频谱。这种对图像的空间频率特征进行分解、处理和分析称为空间频率域处理或波数域处理。在众多的图像变换技术中,常用的有离散余弦变换、沃什尔变换、傅立叶变换、Gabor变换和小波变换等。
(1)离散余弦变换DCT变换矩阵的基向量由于近似于托伯利兹向量,常常被认为是对语言和图像信号进行变换的最佳变换,虽然在压缩效率上略逊于具有最好压缩能力的K-L变换,但其可做到的高效处理型是K-L变换无法比拟的,并成为H261、JPEG和MPEG等国际标准的主要环节。被广泛应用于图像编码方面。
(2)沃什尔变换是一种正交变换,能将相邻取样点的相关性消除掉,使信号能量集中在变换矩阵的左上角,其它部分出现很多零值;或在误差允许范围内,允许省略掉小值,这样可以达到数据压缩的目的。沃什尔变换在图像传输、雷达、通信和生物医学等领域曾得到广泛应用。
(3)傅立叶变换是一种常用的正交变换,其最主要的数学理论基础就是傅立叶级数,由著名数学家Fourier在1822年提出,其主要思想是将周期函数展开成正弦级数。傅立叶变换的提出奠定了图像的理论基础,其通过在时空域和频率域来回切换图像,对图像的信息特征进行提取和分析,简化了计算工作量,被喻为描述图像信息的第二种语言,广泛应用于图像变换、图像编码与压缩、图像分割和图像重建中。
(4)Gabor变换属于加窗傅立叶变换,是短时Fourier变换中当窗函数取为高斯函数时的一种特殊情况。由于傅立叶变换存在一定的局限性,所以Gabor1946年提出了加窗傅立叶变换。加窗傅立叶变换方法的一个典型就是低通滤波器。Gabor 函数可以在频域不同尺度和不同方向上提取相关特征。
(5)小波变换受到傅立叶变换的启发,Morlet于1984年提出了小波分析的概念。1986年著名数学家Meyer和Mallat合作构建了图像小波函数的统一方法——多尺度分析。目前在图像去噪应用方面,小波变换理论取得非常好的效果。
频率域去噪主要是由于有的图像在空间域处理的效果并不理想,因此想到转换到频率域进行处理,即用一组正交的函数系去逼近要处理的目标函数,从而进一步得到相应级数的系数。频率域处理主要用于与图像空间频率有关的处理中,如图像恢复、图像重建、辐射变换、边缘增强、图像平滑、噪声压制、频谱分析和纹理分析等处理和分析中。

特征提取计算机所视觉和图像处理中的一个概念,它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续曲线或者连续的区域。
(1)特征选择
原始数量的特征很大,或者说原始样本处于一个高维空间中,从一组特征挑选出一些最有效的特征以达到降低特征空间维数的目的,这个过程就叫做特征选择。也就是说,将对类别可分离性无贡献或者贡献不大的特征简单地忽略掉。特征选择是图像识别中的一个关键问题。
(2)特征变换
通过映射或变换的方法可以将高维空间中的特征描述用低维空间的特征来描述,这个过程就叫做特征变换。通过特征变换获得的特征是原始特征集的某种组合,新的特征中包含了原有全体特征的信息。主成份分析法是最常用的特征变换方法。
特征的选择与提取是非常重要的,特征选择是模式识别中的一个关键问题。由于在很多实际问题中常常不容易找到那些最重要的特征,或受条件限制不能对它们进行测量,这就使特征选择与提取的任务复杂化而成为构造模式识别系统中最困难的任务之一。这个问题已经越来越受到人们的重视。特征选择与提取的基本任务是如何从许多特征中找出那些最有效的特征。解决特征选择与特征提取问题,最核心的内容就是如何对现有特征进行评估,以及如何通过现有特征产生更好的特征。
常见的图像特征提取与描述方法如颜色特征、纹理特征和几何形状特征提取与描述方法。

根据有无标准样本,模式识别可分为监督学习和非监督学习。模式识别分类或描述通常是基于已经得到分类或描述的模式集合而进行的,人们称这个模式集合为训练集,由此产生的学习策略称为监督学习。学习也可以是非监督学习,在此意义下产生的系统不需要提供模式类的先验知识,而是基于模式的统计规律或模式的相似性学习判断模式的类别。

(1)数据采集
数据采集是指利用各种传感器把被研究对象的各种信息转换为计算机可以接收的数值或符号(串)集合。习惯上称这种数值或符号(串)所组成的空间为模式空间。这一步的关键是传感器的选取。
一般获取的数据类型如下。

(2)预处理
为了从这些数字或符号(串)中抽取出对识别有效的信息,必须进行预处理,目的是为了消除输入数据或信息中的噪声,排除不相干的信号,只留下与被研究对象的性质和采用的识别方法密切相关的特征(如表征物体的形状、周长、面积等)。举例来说,在啊进行指纹识别时,指纹扫描设备每次输出的指纹图像会随着图像的对比度、亮度或背景等的不同而不同,有时可能还会产生变形,而人们感兴趣的仅仅是图像中的指纹线、指纹分叉点和端点等,而不需要指纹的其他部分和背景。因此,需要采用合理的滤波算法,如基于块方图的方向滤波和二值滤波等,过滤掉指纹图像中这些不必要的部分。
(3)特征提取
对原始数据进行交换,从许多特征中寻找出最有效的特征,得到最能反应分类本质的特征,将维数较高的测量空间(原始数据组成的空间)转变为维数较低的特征空间(分类识别赖以进行的空间),以降低后续处理过程的难度。人类很容易获取的特征,对于机器来说就很难获取了,这就是模式识别中的特征选择与提取的问题。特征选择与提取是模式识别的一个关键问题。一般情况下,候选特征种类越多,得到的结果应该越好。但是,由此可能会引发维数灾害,即特征维数过高,计算机难以求解。如何确定合适的特征空间是设计模式识别系统一个十分重要的问题。对特征空间进行优化有两种基本方法。一是特征选择,如果所选用的特征空间能使同类物体分布具有紧致性,为分类器设计成功提供良好的基础;反之,如果不同类别的样品在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性;另一种是特征的组合优化,通过一种映射变换改造原特征空间,构造一个新的精简的特征空间。
(4)分类决策
基于模式特征空间,就可以进行模式识别的最后一部分:分类决策。该阶段最后输出的可能是对象所属的类型,也可能是模型数椐库中与对象最相似的模式编号。己知若干个样品的类别及特征,例如,手写阿拉伯数字的判别是具有10类的分类问题,机器首先要知道每个手写数字的形状特征,对同一个数字,不同的人有不同的写法,甚至同一个人对同一个数字也行多种写法,就必须让机器知道它属于哪一类。因此,对分类问题需要建立样品库。根椐这些样品库建立判别分类函数,这—过程是由机器来实现的,称为学习过程。然后对一个未知的新对象分析它的特征,决定它属于哪一类,这是一种监督分类的方法。
具体步骤是建立特征空间中的训练集,已知训练集里每个点的所属类别,从这些条件出发,寻求某种判别函数或判别准则,设计判决函数模型,然后根据训练集中的样品确定模型中的参数,便可将这模型用于判别,利用判别函数或判别准则去判别每个未知类别的点应该属于哪一个类。在模式识别学科中,一般把这个过程称为训练与学习的过程。
分类的规则是依据训练样品提供信息确定的。分类器设计在训练过程中完成,利用一批训练样品,包括各种类别的样品,由这些样品大致勾画出各类事物在特征空间分布的规律性,为确定使用什么样的数学公式及这些公式中的参数提供了信息。一般来说,决定使用什么类型的分类函数是人决定的。分类器参数的选择或者在学习过程中得到的结果取决于设计者选择什么样的准则函数。不同准则函数的最优解对应不同的学习结果,得到性能不同的分类器。数学式子中的参数则往往通过学习来确定,在学习过程中,如果发现当前采用的分类函数会造成分类错误,那么利用错误提供应如何纠正的信息,就可以使分类函数朝正确的方向前进,这就形成了一种迭代的过程。如果分类函数及其参数使出错的情况越来越少,就可以说是逐渐收敛,学习过程就收到了效果,设计也就可以结束。
针对不问的应用目的,模式识别系统4部分的内容有很大的差异,特别楚在数据预处理和分类决策这两部分。为了提高识别结果的可靠性,往往需要加入知识库(规则)以对可能产生的错误进行修正,或通过引入限制条件大大缩小待识别模式在模型库中的搜索空间,以减少匹配计算量。

1
基本上归一化思想是利用图像的不变矩寻找一组参数使其能够消除其他变换函数对图
像变换的影响。也就是转换成唯一的标准形式以抵抗仿射变换
图像归一化使得图像可以抵抗几何变换的攻击,
它能够找出图像中的那些不变量,
从而
得知这些图像原本就是一样的或者一个系列的。
因为我们这次的有好多都是一个系列的,所以老师把这个也作为我研究的一个方
向。
我们主要要通过归一化减小医学由于光线不均匀造成的干扰。
2matlab
里图像数据有时候必须是浮点型才能处理,而图像数据本身是
0-255

UNIT
型数
据所以需要归一化,转换到
0-1
之间。
3
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,
成为纯量。
目的是为了:
(1)
避免具有不同物理意义和量纲的输入变量不能平等使用
(2)bp
中常采用
sigmoid
函数作为转移函数,归一化能够防止净输入绝对值过大引起的神经
元输出饱和现象
(3)
保证输出数据中数值小的不被吞食
3
神经网络中归一化的原因
归一化是为了加快训练网络的收敛性,可以不进行归一化处理
归一化的具体作用是归纳统一样本的统计分布性。
归一化在
0-1
之间是统计的概率
分布,归一化在
-1--+1
之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是
为了建模还是为了计算,
首先基本度量单位要同一,
神经网络是以样本在事件中的统计分别
几率来进行训练(概率计算)和预测的,归一化是同一在
0-1
之间的统计概率分布;
当所
有样本的输入信号都为正值时,
与第一隐含层神经元相连的权值只能同时增加或减小,
从而
导致学习速度很慢。
为了避免出现这种情况,
加快网络学习速度,
可以对输入信号进行归一
化,使得所有样本的输入信号其均值接近于
0
或与其均方差相比很小。
归一化是因为
sigmoid
函数的取值是
0

1
之间的,
网络最后一个节点的输出也是
如此,
所以经常要对样本的输出归一化处理。
所以这样做分类的问题时用
[09 01 01]
就要比

[1 0 0]
要好。
但是归一化处理并不总是合适的,
根据输出值的分布情况,
标准化等其它统计变换方法有时
可能更好。
二、如何归一化
matlab
中的归一化处理有三种方法
1 premnmx

postmnmx

tramnmx
2 restd

poststd

trastd
3
自己编程
(1)
线性函数转换,表达式如下:
y=(x-MinValue)/(MaxValue-MinValue)
说明:
x

y
分别为转换前、后的值,
MaxValue

MinValue
说明:以
10
为底的对数函数转换。
(3)
反余切函数转换,表达式如下:
y=atan(x)2/PI
(4)
一个归一化代码

I=double(I);
maxvalue=max(max(I)');%max
在把矩阵每列的最大值找到,
并组成一个单行的数组,
转置一
下就会行转换为列,再
max
就求一个最大的值,如果不转置,只能求出每列的最大值。
f = 1 - I/maxvalue; %
为什么要用
1
去减?
Image1=f;
图像归一化到
[0,255]
(im
-
min(min(im)))
/
(max(max(im))

min(min(im))) 255


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/13404337.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-07-29
下一篇 2023-07-29

发表评论

登录后才能评论

评论列表(0条)

保存