Python如何图像识别

Python如何图像识别,第1张

在一定的范围内,无论物体是大还是小,人眼都可以分辨出来。然而计算机要有相同的能力却不是那么的容易,在未知的场景中,计算机视觉并不能提供物体的尺度大小,其中的一种方法是把物体不同尺度下的图像都提供给机器,让机器能够对物体在不同的尺度下有一个统一的认知。在建立统一认知的过程中,要考虑的就是在图像在不同的尺度下都存在的特征点。

在早期图像的多尺度通常使用图像金字塔表示形式。图像金字塔是同一图像在不同的分辨率下得到的一组结果其生成过程一般包括两个步骤:

多分辨率的图像金字塔虽然生成简单,但其本质是降采样,图像的局部特征则难以保持,也就是无法保持特征的尺度不变性。

我们还可以通过图像的模糊程度来模拟人在距离物体由远到近时物体在视网膜上成像过程,距离物体越近其尺寸越大图像也越模糊,这就是高斯尺度空间,使用不同的参数模糊图像(分辨率不变),是尺度空间的另一种表现形式。

构建尺度空间的目的是为了检测出在不同的尺度下都存在的特征点,而检测特征点较好的算子是Δ^2G(高斯拉普拉斯,LoG)

使用LoG虽然能较好的检测到图像中的特征点,但是其运算量过大,通常可使用DoG(差分高斯,Difference of Gaussina)来近似计算LoG。

从上式可以知道,将相邻的两个高斯空间的图像相减就得到了DoG的响应图像。为了得到DoG图像,先要构建高斯尺度空间,而高斯的尺度空间可以在图像金字塔降采样的基础上加上高斯滤波得到,也就是对图像金字塔的每层图像使用不同的参数σ进行高斯模糊,使每层金字塔有多张高斯模糊过的图像。

如下图,octave间是降采样关系,且octave(i+1)的第一张(从下往上数)图像是由octave(i)中德倒数第三张图像降采样得到。octave内的图像大小一样,只是高斯模糊使用的尺度参数不同。

对于一幅图像,建立其在不同尺度scale下的图像,也称为octave,这是为了scale-invariant,也就是在任何尺度都能有对应的特征点。下图中右侧的DoG就是我们构建的尺度空间。

为了寻找尺度空间的极值点,每一个采样点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小。如图所示,中间的检测点和它同尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较,以确保在尺度空间和二维图像空间都检测到极值点。 一个点如果在DOG尺度空间本层以及上下两层的26个领域中是最大或最小值时,就认为该点是图像在该尺度下的一个特征点。下图中将叉号点要比较的26个点都标为了绿色。

找到所有特征点后, 要去除低对比度和不稳定的边缘效应的点 ,留下具有代表性的关键点(比如,正方形旋转后变为菱形,如果用边缘做识别,4条边就完全不一样,就会错误;如果用角点识别,则稳定一些)。去除这些点的好处是增强匹配的抗噪能力和稳定性。最后,对离散的点做曲线拟合,得到精确的关键点的位置和尺度信息。

近来不断有人改进,其中最著名的有 SURF(计算量小,运算速度快,提取的特征点几乎与SIFT相同)和 CSIFT(彩色尺度特征不变变换,顾名思义,可以解决基于彩色图像的SIFT问题)。

其中siftdetectAndCompute()函数返回kp,des。

上图dog的shape为(481, 500, 3),提取的特征向量des的shape为(501, 128),501个128维的特征点。

该方法可以在特征点处绘制一个小圆圈。

>

#初始化一个矩形npmax(marks)+1行,3列,默认值为0

colorTab = npzeros((npmax(marks)+1,3))

#遍历数组,给每行的3列赋值,就是RGB颜色值,8位的

for i in range(len(colorTab)):

    aa = nprandomuniform(0,255)

    bb = nprandomuniform(0,255)

    cc = nprandomuniform(0,255)

    colorTab[i] = nparray([aa,bb,cc],npuint8)

#初始化另一个跟img图像形状大小一样的图像,一副黑色图像

bgrImage = npzeros(imgshape,npuint8)

#遍历marks形状的行列

for i in range(marksshape[0]):

    for j in range(marksshape[1]):

        index = marks[i][j]

        #判断是不是区域与区域之间的分界,如果是边界(-1),则使用白色显示

        if index == -1:

            bgrImage[i][j] = nparray([255,255,255]) #像素点设置位白色

        else:

            bgrImage[i][j] = colorTab[index]    #像素点设置位上边随机生成的颜色值

#显示处理后的图像图像

cv2imshow('After ColorFill',bgrImage)

#总结,先生成一个跟marks相同数量的rowcol的一张颜色表,然后创建一个跟marks相同大小的一副黑色图像

#最后对黑色图像画出白色边界和内部随机彩色像素值

图像识别技术可以用来解决人脸识别或字符识别等多种问题。在本文中,我将对算法进行实际编码来演示识别手写字,特别是手写的数字。我将会使用Python以及Python的许多模块,比如numpy、PIL等。1#从PIL库中导入Image

以上就是关于Python如何图像识别全部的内容,包括:Python如何图像识别、数字图像处理基于Python如何数一张图片的物体有多少个、pythonopencv读取图像有省略号等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/10152137.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-05
下一篇 2023-05-05

发表评论

登录后才能评论

评论列表(0条)

保存