基于YOLO分析人员工服识别算法
基于YOLO分析人员工服识别算法依据大规模不同外观数据识别训练,新设计的基础模型(特征提取器),称作darknet-19,包括19个卷积层5个maxpooling层,darknet的设计与VGG16的设计原理一致,主要采用3*3卷积,采用2*2max pooling层之后,特征图维度降低2倍,而同时特征图的channels增加2倍,最后采用global avgpooling做预测。并在3*3卷积之间添加1*1卷积压缩通道。darknet每个卷积层之后使用了batch normalization。
该网络结构包括 24 个卷积层,最后接 2 个全连接层。Draknet[13]网络借鉴 GoogleNet 的思想,在每个1x1的卷积层之后再接一个3∗3的卷积层的结构替代 GoogleNet 的Inception结构。论文中还提到了更快版本的 Yolo,只有 9 个卷积层,其他则保持一致。
YOLO v1全部使用了均方差(mean squared error)作为损失(loss)函数。由三部分组成:坐标误差、IOU误差和分类误差。
考虑到每种loss的贡献率,YOLO v1给坐标误差(coordErr)设置权重λcoord=5。在计算IoU误差时,包含物体的格子与不包含物体的格子,二者的IOU误差对网络loss的贡献值是不同的。若采用相同的权值,那么不包含物体的格子的置信度值近似为0,变相放大了包含物体的格子的置信度误差,在计算网络参数梯度时的影响。为解决这个问题,YOLO 使用λnoobj=0.5修正(置信度误差)iouErr。(此处的‘包含’是指存在一个物体,它的中心坐标落入到格子内)。
YOLOv1最后直接使用全连接层对边界框进行预测,其中边界框的高度是相对整张照片大小的,而由于各个图片中存在不同尺寸和长宽比的物体,YOLOv1在训练过程中学习适应不同物体的形状是比较困难的,这也导致YOLOv1在精确定位方面的表现较差。
YOLOv2借鉴Faster-CNN的RPN网络的先验框,PRN对CNN特征提取器得到的特征图进行卷积来预测每个位置的边界框以及置信度(是否有目标),并且各个位置设置不同尺寸和比例的先验框,所有RPN预测的是边界框相对于先验框的偏移值,使用先验框使得更容易学习
相关文章
- 反光衣实时识别检测系统
- 工地安全帽佩戴识别
- TPAMI 2022 | 不同数据模态的人类动作识别综述,涵盖500篇文章精华
- AI车辆检测/人脸检测智能分析网关新增烟火检测识别与烟火告警
- 软件方法(下)第8章分析之分析类图—知识篇Part12-识别泛化关系
- 高通工具QXDM_高通qpst识别不到手机端口
- 《人月神话》作者去世;英特尔推出假脸识别神器FakeCatcher;1350万核AI超级计算机将问世 |AI一周快讯
- AI人工智能识别技术如何助力构建风险监测预警系统?
- 安全帽识别算法技术原理
- NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
- 可信生物识别:隐私保护增强算法实现、技术性能与应用合规全方位透视,11月29日晚7点见
- Python中识别DataFrame中的nan详解编程语言
- PRICAI 2016 论文精选 | 基于稀松K-SVD算法的自发性微表情识别
- 亚马逊的人工智能将实时语音识别错误率降低了6.2%