您现在的位置是：首页 > 后端

当前栏目

目标检测算法YOLO3论文解读

算法论文检测解读目标 yolo3

2023-06-13 09:12:15 时间

大家好，又见面了，我是你们的朋友全栈君。

论文题目：YOLOv3: An Incremental Improvement

论文地址：https://arxiv.org/abs/1804.02767

代码地址：https://github.com/aloyschen/tensorflow-yolo3

一、论文解读

1、bounding box prediction（边界框预测）

YOLO2预测bounding boxes是使用anchor boxes，这个网络为每个bounding box预测了4个坐标：tx、ty、tw、th，用（cx，cy）表示当前网格左上角坐标偏移图像左上角坐标的距离，用pw，ph表示先验框（piror）的宽和高，可以得到下面式子：

在训练期间，使用平方和误差（sum of squared error loss）。真值用

表示，梯度就是真值减去预测值：

。

YOLO3用logistic regression为每个bounding box预测一个分数。算法只为每个真值匹配一个最优的先验框。

2、多标签预测

每个bounding box可能含有多类物体，也就是多标签预测。所以用logistic（sigmoid）代替softmax，因为softmax表示每个框只有一类对象，而sigmoid可以预测多标签分类。那么如何用sigmoid来做多标签分类呢？其实就是针对logits中每个分类计算的结果分别作用一个sigmoid分类器，分别判定样本是否属于某个类别。在训练期间，使用二元交叉熵损失函数进行类别预测。

sigmoid多标签预测参考博客：https://blog.csdn.net/qq_32172681/article/details/97936956。

3、结合不同卷积层的特征，提取更细粒度的信息，做多尺度预测

YOLO3用3个不同的尺度预测boxes，网络采用类似特征金字塔的概念，从不同的尺度提取特征。在原先的基本特征提取器上新增了几个卷积层，最后用一个3维的张量表示bounding box、objectness和class predictions。在COCO中，在每个尺度上预测3个boxes，因此张量为N*N*[3*(4+1+80)]，分别对应4个bounding boxes、1个objectness prediction和80个class predictions。接下来，从前面的两个图层中提取特征图，并将其向上采样2倍。从早期的网络中获取一个特征图，并使用串联将其与上采样特征合并。这种方法允许我们从上采样的特性中获得更有意义的语义信息，并从早期的特性图中获得更细粒度的信息。然后再添加一些卷积层来处理这个组合的特征图，并最终预测一个类似的张量，尽管现在的大小是原来的两倍。再次执行相同的设计，以预测最终框的尺寸。在过去，YOLO难以预测小的物体，现在通过多尺度预测，明显改善。

4、网络结构（DarkNet53 = Darknet19 + ResNet）

结合残差思想，提取更深层次的语义信息。
仍然使用连续的3×3和1×1的卷积层。
通过上采样对三个不同尺度做预测。如将8*8的特征图上采样和16*16的特征图相加再次计算，这样可以预测出更小的物体。
采用了步长为2的卷积层代替pooling层，因为池化层会丢失信息。

如图所示：

5、预测更多目标

YOLO3仍然使用k-均值聚类来确定模板框，为每个网格预测9个bounding boxes（YOLO2只有5个、YOLO1只有2个），这样可以提高recall。

6、损失函数

在训练期间，使用二元交叉熵损失函数进行类别预测。YOLO v2损失函数的后三项是平方误差，而YOLO v3则更改为交叉熵误差项，也就是说YOLO v3的物品置信度和分离预测使用的是逻辑回归算法。

二、代码理解

1、构造残差块

2、darknet53网络结构，用于提取特征（使用了残差块）

3、yolo块（图中Convs）

yolo3在Darknet53提取的特征层基础上，又加了针对3种不同比例的feature map的block，这样来提高对小物体的检测率

4、构造yolo3模型结构，输出三种尺度的卷积层（conv2d_59, conv2d_67, conv2d_75）

5、目标检测模块，输出预测结果x,y,w,h,confidence,class_prob

根据不同大小的feature map做多尺度的检测（三种feature map大小分别为13x13x255, 26x26x255, 52x52x255）

6、之前输入图像时，按照长宽比缩放，对图像进行了填充，此处对box的坐标进行修正

7、损失函数（共4部分：框位置xy,wh,置信度confidence,类别class）

8、k-mean聚类算法（用于生成模版框）

9、对三个不同尺度的输出做非极大值抑制，得到最后物体检测框和预测类别

10、计算mAP，评价模型

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/150540.html原文链接：https://javaforall.cn

猜你喜欢

目标检测再升级！YOLOv8模型训练和部署
如何快速配置MSSQL地址（mssql配置地址）
Oracle HEX替换精准快速的字符串改写方式（oracle hex替换）
性能爆表：SpringBoot利用ThreadPoolTaskExecutor批量插入百万级数据实测！
MySQL Error number: MY-011670; Symbol: ER_GRP_RPL_APPLIER_INITIALIZED; SQLSTATE: HY000 报错故障修复远程处理
利用Oracle图形化界面实现数据处理（oracle图形化界面）
罗技键盘手机app_罗技k480键盘教程
Redis 6379: The Universal Database（redis6379）
ubuntu17 安装中文输入法详解程序员
Linux下操作日期的命令介绍（linux日期命令）
PHP读取文件内容代码(txt,js等)
【Android Gradle 插件】 Splits 配置 ① ( BaseExtension#splits 配置 | Splits 配置简介 )
MySQL数据库容量有限导致不够大，怎么办（mysql 不够大）
前端自适应方案总结，前端最佳自适应方案
如何在Linux系统中修改文件名前缀（linux修改前缀）
全美FinTech创企估值No.1，Stripe能否坐稳这把交椅？
MongoDB技术：存储文件的新方式（mongodb存文件）
Oracle 11g极致性能更高效率（oracle11g产品）
三种方式获取XMLHttpRequest对象

zl程序教程

当前栏目

目标检测算法YOLO3论文解读

二、代码理解

相关文章