Java实现darknet+yolov4的目标检测_随笔

Java实现darknet+yolov4的目标检测

1、darknet 简介

2、yolov4

3、java 如何实现

3.1、OpenCV 原理和内存管理

3.2、实现详解

3.3、完整代码

4、结语

1、darknet 简介

darknet 是 c 语言实现的开源 AI 深度学习框架，一般用于物体分类识别。他的优点就是轻量级、开源、没有什么依赖、支持 CPU 和 GPU 两种计算模式。官网默认的网络模型能够支持80种常见物体的分类识别。当然也可以使用自己的数据集进行训练自己的网络模型，实现自定义的场景。具体的请看darknet 官网文档。

2、yolov4

YOLO（you only look once）的第4个版本。是非常优秀的卷积神经网络，对象检测和定位的实现算法，优点就是速度快，精度高。github 项目网址，上面对 yolov4 的环境和训练做了详细的说明。

3、java 如何实现

darknet 框架是 c 语言的，是可以通过 JNI 或者 JNA 来实现调用，但是很有幸，java openCV 在 3.x 版本后推出了 DNN（深度学习）模块，已经内置实现了 darknet、torch、ONNX、caffe、tensorflow 等常见的深度学习框架，直接使用即可，非常简单。

当然实现之前，需要下载 3 个 yolov4 的文件（需要科学上网下载，不然贼慢或打不开）

配置文件：https://raw.githubusercontent.com/AlexeyAB/darknet/master/cfg/yolov4.cfg

权重文件：https://github.com/AlexeyAB/darknet/releases/download/darknet_yolo_v3_optimal/yolov4.weights

类别名称：darknet/coco.names at master · AlexeyAB/darknet · GitHub （能够检测的对象）

百度网盘：（后面抽空上传一份）

3.1、OpenCV 原理和内存管理

java OpenCV 的原理是借助 javaCPP 包（底层依然是 JNI）实现 C 代码的调用；

（非常重要）只要涉及到 java 调用 C/C++ 这种情况，就一定要注意内存管理，因为 C/C++ 是 JVM 堆外内存，GC 是无法自动管理的，所以一定要记得手动释放 C/C++ 内存、一定要记得手动释放 C/C++ 内存、一定要记得手动释放 C/C++ 内存（重要的事情说3遍）。

java OpenCV 已经很人性化的帮我们封装了 release 和 delete 这两个释放 C/C++ 内存的方法了，所以只要使用 OpenCV 包中的类，就一定要记得看看有没有这两个方法，如果有的，在使用完这个对象一定调用下。

3.2、实现详解

maven 依赖


    org.bytedeco
    opencv-platform
    4.5.3-1.5.6

只需要依赖 opencv-platform 即可，不需要依赖 java-opencv，后者依赖了很多平台，下载大量的包。

加载网络

使用前面下载的配置文件、权重文件初始化 darknet，注意，文件最终都是在 C 代码中加载的，所以要绝对路径才能加载到。

// 加载 opencv
Loader.load(opencv_java.class);

// 指定配置文件和模型文件加载网络
String cfgFile = "D:\xxx\ai-demo\src\main\resources\yolov4.cfg";
String weights = "D:\xxx\ai-demo\src\main\resources\yolov4.weights";
// opencv 的 Dnn 模块初始化网络
Net net = Dnn.readNetFromDarknet(cfgFile, weights);
if(net.empty){
    System.out.println("init net fail");
    return;
}

// 设置计算后台：如果电脑有GPU，可以指定为：DNN_BACKEND_CUDA
net.setPreferableBackend(Dnn.DNN_BACKEND_OPENCV);
// 指定为 CPU 模式，如果电脑有 GPU，指定CUDA模式
net.setPreferableTarget(Dnn.DNN_TARGET_CPU);

// 读取类别名称
String[] names = new String[80];
try (BufferedReader reader = new BufferedReader(new InputStreamReader(DarknetMain.class.getClassLoader().getResourceAsStream("coco.names")))) {
	for (int i = 0; i < names.length; i++) {
		names[i] = reader.readLine();
	}
}

输入检测图片

现在就输入一张我们需要检测的图片给网络检测；我们输入的图片大小可能是不一样的，但是网络的图片输入都是一个尺寸，这个尺寸最好是与 yolov4.cfg 中配置的 width、height 一致，所以在输入之前需要对图片进行预处理；

// 图片绝对路径
String img_file = "D:\xxx\ai-demo\src\main\resources\dog_bike_car.jpg";
// 使用 opencv 提供的 api 读取图片
Mat im = Imgcodecs.imread(img_file, Imgcodecs.IMREAD_COLOR);
if (im.empty) {
    System.out.println("read img fail");
    return;
}
// 成功读取到了图片，进行预处理
float scale = 1 / 255F;
Mat inputBlob = Dnn.blobFromImage(im, scale, new Size(416, 416), new Scalar(0), true, false);
// 将处理后的图片输入到网络中
net.setInput(inputBlob);

这里简单讲解下 blobFromImage 的各个参数：
第一个参数：要处理的图片；
第二个参数：缩放比例因子，执行完平均减法后对图片的缩放因子，1表示不缩放，值见opencv文档的约定：https://github.com/opencv/opencv/blob/master/samples/dnn/models.yml#L31
第三个参数：处理后的大小，与网络配置 cfg 中的 width、height 一致；
第四个参数：平均减法的均值，通道顺序为RGB，是用来减少光照影响，值见opencv文档的约定：https://github.com/opencv/opencv/blob/master/samples/dnn/models.yml#L30 (非0图片会变色)
第五个参数：是否转换R和B通道的顺序，因为 openCV 的图片通道顺序为BGR，而平均减法的通道顺序是RGB，所以需要转换顺序。
第六个参数：是否在调整图片大小后裁剪图片，所以是false，不要裁剪。

opencv 的 blobFromImage 的论文参考：Deep learning: How OpenCV's blobFromImage works - PyImageSearch

对象检测（推理）、处理结果集

yolov4 神经网络是存在 3 个yolo输出层，第1层507个单元，第2层2028个单元，第3层8112个单元，最后一个输出层才是输出最精准的结果，所以直接拿这个输出层的结果。

// 从网络中获取所有输出层，index =0对应的是第3层输出层
List outLayersNames = net.getUnconnectedOutLayersNames();
// 推理，并指定需要输出的层
Mat out = net.forward(outLayersNames.get(0));
if (outs.empty()) {
    System.out.println("forward result is null");
    return;
}

通过 forward 推理，我们已经拿到对象检测的结果集了；但是，这些结果集是不能直接使用的，需要丢弃掉置信度比较低的结果、box去重（box信息用来画框，在图片上标注出检测的物体位置）。

首先来过滤置信度比较低的结果，并转换 box 信息，记录每个类别的索引和该类别的置信度等结果信息：

List rect2dList = new ArrayList<>();  // box 信息集
List confList = new ArrayList<>();     // 置信度
List objIndexList = new ArrayList<>(); // 对象类别索引，与 names 的索引对应

// 每个 row 就是一个单元的预测结果，cols 就是当前单元的预测框信息和每个类型的置信度
for (int i = 0; i < out.rows(); i++) {
	int size = out.cols() * out.channels();
	float[] data = new float[size];
	// 将结果拷贝到 data 中，0 表示从索引0开始拷贝
	out.get(i, 0, data);
	float confidence = -1; // 置信度
	int objectClass = -1;  // 类别索引

	// data中的前4个是box的数据，第5个是分数，后面是每个 classes 的置信度，所以从5开始
	int pro_index = 5;
	for (int j = pro_index; j < out.cols(); j++) {
		if (confidence < data[j]) {
			// 记录本单元中最大的置信度及其类别索引
			confidence = data[j];
			objectClass = j - pro_index;
		}
	}
	if (confidence > 0.5) { // 置信度大于 0.5 的才记录
		for (int j = 0; j < out.cols(); j++) {
			System.out.println(" " + j + ":" + data[j]); // 输出 data 中的所有数据看看
		}
		// 计算中点、长宽、左下角点位
		float centerX = data[0] * im.cols();
		float centerY = data[1] * im.rows();
		float width = data[2] * im.cols();
		float height = data[3] * im.rows();
		float leftBottomX = centerX - width / 2;
		float leftBottomY = centerY - height / 2;

		System.out.println("Class: " + names[objectClass]); // names 是读取的类别名称
		System.out.println("Confidence: " + confidence);
		System.out.println("ROI: " + leftBottomX + "," + leftBottomY + "," + width + "," + height);
		System.out.println("");
		// 记录box信息、置信度、类型索引
		rect2dList.add(new Rect2d(leftBottomX, leftBottomY, width, height));
		confList.add(confidence);
		objIndexList.add(objectClass);
	}
}

置信度比较低的结果已经过滤掉了，经过这一步，已经拿到了 rect2dList、confList、objIndexList 三个结果集，这三个结果集 size 相等，并且 index 相互对应；但是现在还存在重复的结果，展示下效果：

所以进行去重：

// 去重后保留的索引值，用于获取三个List的结果集
MatOfInt indexs = new MatOfInt();
// 转换 box 的结果集
MatOfRect2d boxes = new MatOfRect2d(rect2dList.toArray(new Rect2d[0]));
// 转换置信度的结果集
float[] confArr = new float[confList.size()];
for (int i = 0; i < confList.size(); i++) {
	confArr[i] = confList.get(i);
}
MatOfFloat con = new MatOfFloat(confArr);
// 使用 dnn 的 NMS 算法去重，并将去重后的索引结果保存在 indexs 中
Dnn.NMSBoxes(boxes, con, 0.5F, 0.5F, indexs);
if (indexs.empty()) {
	System.out.println("indexs is empty");
	return;
}

NMSBoxes 方法的简单讲解：
第一个参数：要去重的 box 数据；
第二个参数：要去重的置信度数据；
第三个参数：置信度阈值，如果低于这个置信度的 box 将被过滤（前面过滤了一次了）
第四个参数：NMS 的过滤阈值；
第五个参数：去重后的索引信息，用于从三个List中获取最后的结果；

NMS 算法就是通过计算重叠率（交并比 IoU），如果当前两个框的IoU大于了NMS阈值，保留置信度最高的一个。所以要注意了，当两个相同类别的对象，本来就重叠了，并且成功检测出来了，这个时候 NMS 的阈值就很重要了，遇到这种情况，多调整下阈值测试下。或者在校验权重文件的时候也是会输出 IoU 值，这里进行配置即可。

输出结果

对图片画框、输出每种类别出现的次数

// 去重后的索引
int[] ints = indexs.toArray();
int[] classesNumberList = new int[names.length]; // 记录每种类别出现的次数
for (int i : ints) {
    // i 与 names 的索引位置相对应
	Rect2d rect2d = rect2dList.get(i);
	Integer obj = objIndexList.get(i);
	classesNumberList[obj] += 1; // 记录次数
	// 将 box 信息画在图片上, Scalar 对象是 BGR 的顺序，与RGB顺序反着的。
	Imgproc.rectangle(im, new Point(rect2d.x, rect2d.y), new Point(rect2d.x + rect2d.width, rect2d.y + rect2d.height),
			new Scalar(0, 255, 0), 1);
}

String jpgFile = Paths.get("D:\xxx\ai-demo\outs", "out_" + System.currentTimeMillis() + ".jpg").toString();
// 保存图片
Imgcodecs.imwrite(jpgFile, im);
// 输出每种类别的数量
for (int i = 0; i < names.length; i++) {
	System.out.println(names[i] + ": " + classesNumberList[i]);
}

去重后的结果：

最后最后，不要忘记释放内存

try {
    //...上面的代码
} finally {
	if (im != null) {
		im.release(); // 输入图片释放
	}
	if (out != null) { // 推理的结果集释放
		out.release();
	}
    // 去重过程中的对象释放
	if (indexs != null) {
		indexs.release();
	}
	if (boxes != null) {
		boxes.release();
	}
	if (con != null) {
		con.release();
	}
}

3.3、完整代码

其实就是上面的代码拼装到一起

package com.chc.ai.darknet;

import org.bytedeco.javacpp.Loader;
import org.bytedeco.opencv.opencv_java;
import org.opencv.core.*;
import org.opencv.dnn.Dnn;
import org.opencv.dnn.Net;
import org.opencv.imgcodecs.Imgcodecs;
import org.opencv.imgproc.Imgproc;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.nio.file.Paths;
import java.util.ArrayList;
import java.util.List;


public class DarknetMain {

    public static void main(String[] args) throws IOException {
        Loader.load(opencv_java.class); // 加载opencv

        // 读取类别名称
        String[] names = new String[80];
        try (BufferedReader reader = new BufferedReader(new InputStreamReader(DarknetMain.class.getClassLoader().getResourceAsStream("coco.names")))) {
            for (int i = 0; i < names.length; i++) {
                names[i] = reader.readLine();
            }
        }

        // 定义对象
        Mat im = null;
        Mat out = null;
        MatOfInt indexs = null;
        MatOfRect2d boxes = null;
        MatOfFloat con = null;
        try {
            // 指定配置文件和模型文件加载网络
            String cfgFile = "D:\xxx\ai-demo\src\main\resources\yolov4.cfg";
            String weights = "D:\xxx\ai-demo\src\main\resources\yolov4.weights";
            Net net = Dnn.readNetFromDarknet(cfgFile, weights);
            if (net.empty()) {
                System.out.println("init net fail");
                return;
            }
            // 设置计算后台：如果电脑有GPU，可以指定为：DNN_BACKEND_CUDA
            net.setPreferableBackend(Dnn.DNN_BACKEND_OPENCV);
            // 指定为 CPU 模式
            net.setPreferableTarget(Dnn.DNN_TARGET_CPU);
            System.out.println("create net success");

            // 读取要被推理的图片
            String img_file = "D:\xxx\ai-demo\src\main\resources\dog_bike_car.jpg";
            im = Imgcodecs.imread(img_file, Imgcodecs.IMREAD_COLOR);
            if (im.empty()) {
                System.out.println("read image fail");
                return;
            }
            

            // 图片预处理：将图片转换为 416 大小的图片，这个数值最好与配置文件的网络大小一致
            // 缩放因子大小，opencv 文档规定的：https://github.com/opencv/opencv/blob/master/samples/dnn/models.yml#L31
            float scale = 1 / 255F;
            Mat inputBlob = Dnn.blobFromImage(im, scale, new Size(416, 416), new Scalar(0), true, false);
            // 输入图片到网络中
            net.setInput(inputBlob);

            // 推理
            List outLayersNames = net.getUnconnectedOutLayersNames();
            out = net.forward(outLayersNames.get(0));
            if (outs.empty()) {
                System.out.println("forward result is null");
                return;
            }
            System.out.println("net forward success");

            // 处理 out 的结果集: 移除小的置信度数据和去重
            List rect2dList = new ArrayList<>();
            List confList = new ArrayList<>();
            List objIndexList = new ArrayList<>();
			// 每个 row 就是一个单元，cols 就是当前单元的预测信息
			for (int i = 0; i < out.rows(); i++) {
				int size = out.cols() * out.channels();
				float[] data = new float[size];
				// 将结果拷贝到 data 中，0 表示从索引0开始拷贝
				out.get(i, 0, data);
				float confidence = -1; // 置信度
				int objectClass = -1; // 类型索引
				// data中的前4个是box的数据，第5个是分数，后面是每个 classes 的置信度
				int pro_index = 5;
				for (int j = pro_index; j < out.cols(); j++) {
					if (confidence < data[j]) {
						// 记录本单元中最大的置信度及其类型索引
						confidence = data[j];
						objectClass = j - pro_index;
					}
				}
				if (confidence > 0.5) { // 置信度大于 0.5 的才记录
					System.out.println("result unit index: " + i);
					for (int j = 0; j < out.cols(); j++) {
						System.out.println(" " + j + ":" + data[j]);
					}
					// 计算中点、长宽、左下角点位
					float centerX = data[0] * im.cols();
					float centerY = data[1] * im.rows();
					float width = data[2] * im.cols();
					float height = data[3] * im.rows();
					float leftBottomX = centerX - width / 2;
					float leftBottomY = centerY - height / 2;

					System.out.println("Class: " + names[objectClass]);
					System.out.println("Confidence: " + confidence);
					System.out.println("ROI: " + leftBottomX + "," + leftBottomY + "," + width + "," + height);
					System.out.println("");
					// 记录box信息、置信度、类型索引
					rect2dList.add(new Rect2d(leftBottomX, leftBottomY, width, height));
					confList.add(confidence);
					objIndexList.add(objectClass);
				}
			}
            if (rect2dList.isEmpty()) {
                System.out.println("not object");
                return;
            }
            // box 去重
            indexs = new MatOfInt();
            boxes = new MatOfRect2d(rect2dList.toArray(new Rect2d[0]));
            float[] confArr = new float[confList.size()];
            for (int i = 0; i < confList.size(); i++) {
                confArr[i] = confList.get(i);
            }
            con = new MatOfFloat(confArr);
            // NMS 算法去重
            Dnn.NMSBoxes(boxes, con, 0.5F, 0.5F, indexs);
            if (indexs.empty()) {
                System.out.println("indexs is empty");
                return;
            }
            // 去重后的索引
            int[] ints = indexs.toArray();
            int[] classesNumberList = new int[names.length];
            for (int i : ints) {
                // 与 names 的索引位置相对应
                Rect2d rect2d = rect2dList.get(i);
                Integer obj = objIndexList.get(i);
                classesNumberList[obj] += 1;
                // 将 box 信息画在图片上, Scalar 对象是 BGR 的顺序，与RGB顺序反着的。
                Imgproc.rectangle(im, new Point(rect2d.x, rect2d.y), new Point(rect2d.x + rect2d.width, rect2d.y + rect2d.height),
                        new Scalar(0, 255, 0), 1);
            }

            String jpgFile = Paths.get("D:\xxx\ai-demo\outs", "out_" + System.currentTimeMillis() + ".jpg").toString();
            Imgcodecs.imwrite(jpgFile, im);
            for (int i = 0; i < names.length; i++) {
                System.out.println(names[i] + ": " + classesNumberList[i]);
            }
        } finally {
            // 释放资源
            if (im != null) {
                im.release();
            }
            if (out != null) {
                out.release();
            }
            if (indexs != null) {
                indexs.release();
            }
            if (boxes != null) {
                boxes.release();
            }
            if (con != null) {
                con.release();
            }
        }
    }
}

4、结语

java 语言其实不是非常适合做 AI，至少不是首选语言，唯一的优点就是对 java 工程师友好，没有学习新语言的成本（小公司可是很在意成本的）。我接触到的就是 opencv dnn 模块和 AWS 推出的 DJL。

opencv dnn 模块通过 JNI 桥接到 C/C++ 让java有能力实现 AI 的推理过程，还是非常棒的，填补了 java 在 AI 的空白。

DJL 官网说的是专门为 java 开发的 AI 套件，可以使用 DJL 做训练、推理，但是目前还没有过多的尝试，暂且不评论。

最后还是那句话，不要忘记释放 c 内存，不然内存爆了不好排除原因。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5713786.html

Java实现darknet+yolov4的目标检测

发表评论

评论列表（0条）