数据集是Kinect获取的三通道深度图，怎么变成单通道且无信息损失_框架

在python中numpy是很好用的数据处理包。不了解你说的数据结构但是可以尝试把数据转成numpy的md数组格式。之后可以在数组中进行检查看是不是所有的三通道都相等。如果说这样的话那么理论上三通道和三通道代表的信息都是一样的，直接在里面切片不会影响结果。

ros保存障碍物位置，内容如下：

RViz是ROS的三维可视化工具。它的主要目的是以三维方式显示ROS消息，可以将数据进行可视化表达。例如，可以无需编程就能表达激光测距仪（LRF）传感器中的传感器到障碍物的距离，RealSense、Kinect或Xtion等三维距离传感器的点云数据（PCD，PointCloudData），从相机获取的图像值等。

另外，利用用户指定的多边形（polygon）支持各种表现形式，交互标记（InteractiveMarkers）可以表达接收来自用户节点的命令和数据并互交的过程。在ROS中，机器人以URDF描述，它可以表示为三维模型，并且每个模型可以根据自由度进行移动或驱动，因此可以用于仿真或控制。

SDK 安装

kinect 是输入。类似鼠标即时动态捕捉、影像辨识、麦克风输入、语音辨识

Kinect 是一组传感器的组合，包含一个彩色摄像头，一对深度摄像头（一个用以发射红

外，一个用以接收），一组麦克风阵列和底座马达。

彩色摄像头想必大家都已经很熟悉了。深度摄像头是由红外线提供的，返回画面上每个

点的深度值（离 Kinect 的距离，单位是 mm，标称精度约 5mm）。麦克风阵列其实是数个水平放置的麦克风，因为彼此间有距离，所以可以识别说话人的方向，借此粗略估计是哪个玩家在说话，便于想象的话可以理解为类似声纳图（声音我们不涉及）。

读取彩色数据流，可以获得一张1080p的(19201080);

犹如拍照应用

看SDK自带示例

Color Depth D2D 彩色数据流

和许多输入设备不一样，Kinect 能够产生三维数据，它有红外发射器和摄像头。 Kinect SDK 从红外摄像头获取的红外数据后，对其进行计算处理，然后产生景深影像数据。

深度帧数据中，每个像素占 16 位，即每一个像素占 2 个字节。每一个像素的深度值只占用了 16 个位中的 13 个位。

获取每一个像素的距离很容易，但是要直接使用还需要做一些位 *** 作。如上图所示，深度值存储在第 3 至 15 位中，要获取能够直接使用的深度数据需要向右移位，将游戏者索引(Player Index)位移除

看SDK自带示例

Depth Basics-D2D 深度数据流

05-45米

25个关节点每个关节点的 3D空间坐标和转向

看SDK自带示例

Body Basics D2D 骨骼数据流

示例：

Color Depth D2D 彩色数据流

Depth Basics-D2D 深度数据流

Coordinate Mapping Basics 扣出人物，置换背景

Body Basics D2D 骨骼数据流

体感设备是连接到游戏主机上的机器，它可以通过感应器，接收玩家的动作或语音信息，从而可以完成游戏的转换。体感设备突破了传统意义上的游戏模式，让玩家可以丢掉手中的游戏控制手柄。

Kinect的拆开效果图

左边的第一个圆圈装置是红外投射器，中间的是RGB摄影机，最右边的为红外感应器。

红外投射器不断向外发出红外结构光，就相当于蝙蝠向外发出的声波，红外结构光照到不同距离的地方强度会不一样，如同声波会衰减一样。红外感应器，相当于蝙蝠的耳朵，用来接收反馈的消息，不同强度的结构光会在红外感应器上产生不同强度的感应，这样，Kinect就知道了面前物体的深度信息，将不同深度的物体区别开来。

Kinect会从上到下扫描你，然后根据你的身高给逐步判断出你的膝盖在哪，手掌在哪，肚子在哪，并把这些相对的位置数据绑定到一个虚拟的骨骼上面，这样，就完成了真人到虚拟人的映射。

机器人抓取时怎么定位的？用什么感测器来检测

机械手动作是靠伺服电机上的编码器反馈到工控机处理中心讯号与预设定引数比较、修正再输出给伺服电机执行精确定位的。也就是说靠预先程式设计决定的，不是靠感测器定位的。程式设计可解决机械手三维空间动作精确方向、速度、执行时间…………

依靠定位点以及零点位置，机器手定期修正累加误差，抓取最高阶的是应用影象技术，配合物料定位点。

一般是照相定位的。感测器是COMS或者CCD。

用预先程式设计及其执行中该伺服电机轴尾的编码器反馈讯号至计算中心精确修整偏差定位的。

机器人家上了解到，机器人领域的视觉（Machine Vision）跟计算机领域（Computer Vision）的视觉有一些不同：机器视觉的目的是给机器人提供 *** 作物体的资讯。所以，机器视觉的研究大概有这几块：

物体识别（Object Recognition）：在影象中检测到物体型别等，这跟 CV 的研究有很大一部分交叉；

位姿估计（Pose Estimation）：计算出物体在摄像机座标系下的位置和姿态，对于机器人而言，需要抓取东西，不仅要知道这是什么，也需要知道它具体在哪里；

相机标定（Camera Calibration）：因为上面做的只是计算了物体在相机座标系下的座标，我们还需要确定相机跟机器人的相对位置和姿态，这样才可以将物姿转换到机器人位姿。

当然，我这里主要是在物体抓取领域的机器视觉；SLAM 等其他领域的就先不讲了。

由于视觉是机器人感知的一块很重要内容，所以研究也非常多了，我就我了解的一些，按照由简入繁的顺序介绍吧：

0 相机标定

这其实属于比较成熟的领域。由于我们所有物体识别都只是计算物体在相机座标系下的位姿，但是，机器人 *** 作物体需要知道物体在机器人座标系下的位姿。所以，我们先需要对相机的位姿进行标定。内参标定就不说了，参照张正友的论文，或者各种标定工具箱；外参标定的话，根据相机安装位置，有两种方式：

Eye to Hand：相机与机器人极座标系固连，不随机械臂运动而运动

Eye in Hand：相机固连在机械臂上，随机械臂运动而运动两种方式的求解思路都类似，首先是眼在手外（Eye to Hand）

只需在机械臂末端固定一个棋盘格，在相机视野内运动几个姿态。由于相机可以计算出棋盘格相对于相机座标系的位姿、机器人运动学正解可以计算出机器人底座到末端抓手之间的位姿变化、而末端爪手与棋盘格的位姿相对固定不变。这样，我们就可以得到一个座标系环

而对于眼在手上（Eye in Hand）的情况，也类似，在地上随便放一个棋盘格（与机器人基座固连），然后让机械臂带着相机走几个位姿，然后也可以形成一个的座标环。

1 平面物体检测

这是目前工业流水线上最常见的场景。目前来看，这一领域对视觉的要求是：快速、精确、稳定。所以，一般是采用最简单的边缘提取+边缘匹配/形状匹配的方法；而且，为了提高稳定性、一般会通过主要打光源、采用反差大的背景等手段，减少系统变数。

目前，很多智慧相机（如 cognex）都直接内嵌了这些功能；而且，物体一般都是放置在一个平面上，相机只需计算物体的三自由度位姿即可。另外，这种应用场景一般都是用于处理一种特定工件，相当于只有位姿估计，而没有物体识别。当然，工业上追求稳定性无可厚非，但是随着生产自动化的要求越来越高，以及服务类机器人的兴起。对更复杂物体的完整位姿估计也就成了机器视觉的研究热点。

2 有纹理的物体

机器人视觉领域是最早开始研究有纹理的物体的，如饮料瓶、零食盒等表面带有丰富纹理的都属于这一类。当然，这些物体也还是可以用类似边缘提取+模板匹配的方法。但是，实际机器人 *** 作过程中，环境会更加复杂：光照条件不确定（光照）、物体距离相机距离不确定（尺度）、相机看物体的角度不确定（旋转、仿射）、甚至是被其他物体遮挡（遮挡）。

幸好有一位叫做 Lowe 的大神，提出了一个叫做 SIFT （Scale-invariant feature transform）的超强区域性特征点： Lowe, David G "Distinctive image features from scale-invariant keypoints"International journal of puter vision 602 (2004): 91-110 具体原理可以看上面这篇被引用 4万+ 的论文或各种部落格，简单地说，这个方法提取的特征点只跟物体表面的某部分纹理有关，与光照变化、尺度变化、仿射变换、整个物体无关。因此，利用 SIFT 特征点，可以直接在相机影象中寻找到与资料库中相同的特征点，这样，就可以确定相机中的物体是什么东西（物体识别）。

对于不会变形的物体，特征点在物体座标系下的位置是固定的。所以，我们在获取若干点对之后，就可以直接求解出相机中物体与资料库中物体之间的单应性矩阵。如果我们用深度相机（如Kinect）或者双目视觉方法，确定出每个特征点的 3D 位置。那么，直接求解这个 PnP 问题，就可以计算出物体在当前相机座标系下的位姿。

↑ 这里就放一个实验室之前毕业师兄的成果当然，实际 *** 作过程中还是有很多细节工作才可以让它真正可用的，如：先利用点云分割和欧氏距离去除背景的影响、选用特征比较稳定的物体（有时候 SIFT 也会变化）、利用贝叶斯方法加速匹配等。而且，除了 SIFT 之外，后来又出了一大堆类似的特征点，如 SURF、ORB 等。

3 无纹理的物体

好了，有问题的物体容易解决，那么生活中或者工业里还有很多物体是没有纹理的：

我们最容易想到的就是：是否有一种特征点，可以描述物体形状，同时具有跟 SIFT 相似的不变性？不幸的是，据我了解，目前没有这种特征点。所以，之前一大类方法还是采用基于模板匹配的办法，但是，对匹配的特征进行了专门选择（不只是边缘等简单特征）。

简单而言，这篇论文同时利用了彩色影象的影象梯度和深度影象的表面法向作为特征，与资料库中的模板进行匹配。由于资料库中的模板是从一个物体的多个视角拍摄后生成的，所以这样匹配得到的物姿只能算是初步估计，并不精确。但是，只要有了这个初步估计的物姿，我们就可以直接采用 ICP 演算法（Iterative closest point）匹配物体模型与 3D 点云，从而得到物体在相机座标系下的精确位姿。

当然，这个演算法在具体实施过程中还是有很多细节的：如何建立模板、颜色梯度的表示等。另外，这种方法无法应对物体被遮挡的情况。（当然，通过降低匹配阈值，可以应对部分遮挡，但是会造成误识别）。针对部分遮挡的情况，我们实验室的张博士去年对 LineMod 进行了改进，但由于论文尚未发表，所以就先不过多涉及了。

4 深度学习

由于深度学习在计算机视觉领域得到了非常好的效果，我们做机器人的自然也会尝试把 DL 用到机器人的物体识别中。

首先，对于物体识别，这个就可以照搬 DL 的研究成果了，各种 CNN 拿过来用就好了。有没有将深度学习融入机器人领域的尝试？有哪些难点？ - 知乎这个回答中，我提到 2016 年的『亚马逊抓取大赛』中，很多队伍都采用了 DL 作为物体识别演算法。然而，在这个比赛中，虽然很多人采用 DL 进行物体识别，但在物姿估计方面都还是使用比较简单、或者传统的演算法。似乎并未广泛采用 DL。如 @周博磊所说，一般是采用 semantic segmentation neork 在彩色影象上进行物体分割，之后，将分割出的部分点云与物体 3D 模型进行 ICP 匹配。

当然，直接用神经网路做位姿估计的工作也是有的

它的方法大概是这样：对于一个物体，取很多小块 RGB-D 资料（只关心一个patch，用区域性特征可以应对遮挡）；每小块有一个座标（相对于物体座标系）；然后，首先用一个自编码器对资料进行降维；之后，用将降维后的特征用于训练Hough Forest。

5 与任务/运动规划结合

这部分也是比较有意思的研究内容，由于机器视觉的目的是给机器人 *** 作物体提供资讯，所以，并不限于相机中的物体识别与定位，往往需要跟机器人的其他模组相结合。

我们让机器人从冰箱中拿一瓶『雪碧』，但是这个『雪碧』被『美年达』挡住了。我们人类的做法是这样的：先把『美年达』移开，再去取『雪碧』。所以，对于机器人来说，它需要先通过视觉确定雪碧在『美年达』后面，同时，还需要确定『美年达』这个东西是可以移开的，而不是冰箱门之类固定不可拿开的物体。当然，将视觉跟机器人结合后，会引出其他很多好玩的新东西。由于不是我自己的研究方向，所以也就不再班门弄斧了。

机器作定位由先由工程式设计决定空前、左右、位置定位精度由伺服电机同轴尾端编码传器反馈讯号经伺服电机驱卡至处理处理再输作自微量调整

机器人多工位动作及其执行中定位全部由人工编写 *** 作程式而决定的，此与感测器暂不搭界。若要根据生产工艺改进，则要重新编写程式，或在原程式中作修改调整。

机器人抓取定位是预先程式设计的，工控机输出带动伺服电机精确定位，包括伺服电机编码器反馈讯号经电机驱动卡直至工控机进一步调整。若用感测器检测定位误差极大，根本不可能细微修正定位精度。

机器人抓取目前最常用的是通过视觉定位，CCD/CMOS感测器拍摄当前视野内，找到MARK点，算出偏移的座标和角度，再通过网口或者串列埠将资料反馈到机器人，机器人作出相应修正

----------众合航迅科技有限公司邓经理为您解答

机器人动作定位由先由人工程式设计决定它在空中前后、左右、上下位置的。定位精度由伺服电机同轴尾端编码感测器反馈讯号经此伺服电机驱动卡至处理中心处理后再输出作自动微小量调整

以上就是关于数据集是Kinect获取的三通道深度图，怎么变成单通道且无信息损失全部的内容，包括:数据集是Kinect获取的三通道深度图，怎么变成单通道且无信息损失、ros保存障碍物位置、Kinect结合Unity基础使用（一）等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/web/10176327.html

数据集是Kinect获取的三通道深度图，怎么变成单通道且无信息损失

发表评论

评论列表（0条）