您现在的位置是：首页 > 云平台

当前栏目

如何正确的理解RPN网络的train和test[通俗易懂]

网络如何通俗易懂理解正确 test RPN train

2023-06-13 09:12:23 时间

大家好，又见面了，我是你们的朋友全栈君。

刚开始学Faster RCNN时，遇到些困惑不知其他人有没有： 1、RPN网络训练的输出是什么？ 2、RPN网络在train中的作用是什么？ 3、RPN网络在test中的作用是什么？其实这些我们如果不看源码都很难真正理解！以Faster-RCNN_TF的源码为例，以下代码取自./lib/networks/VGGnet_train.py

 #========= RPN ============
 #以下代码的先后顺序我调整了一下，便于理解
 (self.feed('conv5_3')
     .conv(3,3,512,1,1,name='rpn_conv/3x3')
     .conv(1,1,len(anchor_scales)*3*2 ,1 , 1, padding='VALID', relu = False, name='rpn_cls_score'))

 (self.feed('rpn_conv/3x3')
     .conv(1,1,len(anchor_scales)*3*4, 1, 1, padding='VALID', relu = False, name='rpn_bbox_pred'))
     .anchor_target_layer(_feat_stride, anchor_scales, name = 'rpn-data' ))

重点：

anchor_target_layer的返回值’rpn-data’，这是一个字典 key分别是：rpn_labels, rpn_bbox_targets, rpn_bbox_inside_weights, rpn_bbox_outside_weights

rpn_labels 是 [1,1,A*height,width],如果把它reshape成[1,A,height,width]会更好理解，即feature map上每一点都是一个anchor，每个anchor对应A个bbox，如果一个bbox与gt_box的重叠度大于0.7（其实还有一个条件），就认为这个bbox包含一个前景，则 rpn_labels 矩阵中相应位置就设置为1。 gt_box的label不能直接用来做训练的目标(target)，在训练中使用rpn_labels作为训练的目标 gt_box的唯一作用就在于判断产生的共A*W*H个bbox哪些属于前景，哪些不属于，将那些属于前景的bbox设置为训练目标去训练rpn_cls_score_reshape。在test中，正好相反，训练好的网络会产生一个rpn_cls_score_reshape，它可以转化成一个[1,A,height,width]的矩阵 #proposal_layer 产生的[1,A,height,width]个bbox哪些属于前景，哪些属于背景。我们会把属于前景的挑出来，按照得分排序，取前300个输入后面的fc层，fc层会产生两个输出：一个是cls_score，用于判断bbox中物体的类型另一个是bbox_pred，用于微调bbox，使其向gt_box进一步靠近（由于bbox都是从anchor产生的，他们不会和gt_box重合，还需要进一步微调）

rpn_bbox_targets 根据 rpn_labels 我们已经可以挑选出300个bbox，这些bbox都是在[1,W,H,A*4]中根据与gt_box的重合程度挑选出来的，与gt_box并不相同，有一些偏差，这些偏差表示为[dx,dy,dw,dh]，这就是rpn_bbox_targets。因为传进后面全卷积网络的是bbox，与gt_boxes不完全重合，为了使最终的结果更加接近gt_box,还需要进一步微调而全卷积层的输出bbox_pred就是用于微调的，rpn_bbox_targets就是它训练的目标(target) 损失函数的计算：

# RPN
# classification loss
rpn_cls_score = tf.reshape(self.net.get_output('rpn_cls_score_reshape'),[-1,2])
rpn_label = tf.reshape(self.net.get_output('rpn-data')[0],[-1])
rpn_cls_score = tf.reshape(tf.gather(rpn_cls_score,tf.where(tf.not_equal(rpn_label,-1))),[-1,2])
rpn_label = tf.reshape(tf.gather(rpn_label,tf.where(tf.not_equal(rpn_label,-1))),[-1])
rpn_cross_entropy = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=rpn_cls_score, labels=rpn_label))

# bounding box regression L1 loss
rpn_bbox_pred = self.net.get_output('rpn_bbox_pred')
rpn_bbox_targets = tf.transpose(self.net.get_output('rpn-data')[1],[0,2,3,1])
rpn_bbox_inside_weights = tf.transpose(self.net.get_output('rpn-data')[2],[0,2,3,1])
rpn_bbox_outside_weights = tf.transpose(self.net.get_output('rpn-data')[3],[0,2,3,1])

rpn_smooth_l1 = self._modified_smooth_l1(3.0, rpn_bbox_pred, rpn_bbox_targets, rpn_bbox_inside_weights, rpn_bbox_outside_weights)
rpn_loss_box = tf.reduce_mean(tf.reduce_sum(rpn_smooth_l1, reduction_indices=[1, 2, 3]))

其余代码：

# Loss of rpn_cls & rpn_boxes

(self.feed('rpn_conv/3x3')
     .conv(1,1,len(anchor_scales)*3*4, 1, 1, padding='VALID', relu = False, name='rpn_bbox_pred'))

#========= RoI Proposal ============
(self.feed('rpn_cls_score')
     .reshape_layer(2,name = 'rpn_cls_score_reshape')
     .softmax(name='rpn_cls_prob'))

(self.feed('rpn_cls_prob')
     .reshape_layer(len(anchor_scales)*3*2,name = 'rpn_cls_prob_reshape'))

(self.feed('rpn_cls_prob_reshape','rpn_bbox_pred','im_info')
     .proposal_layer(_feat_stride, anchor_scales, 'TRAIN',name = 'rpn_rois'))

(self.feed('rpn_rois','gt_boxes')
     .proposal_target_layer(n_classes,name = 'roi-data'))


#========= RCNN ============
(self.feed('conv5_3', 'roi-data')
     .roi_pool(7, 7, 1.0/16, name='pool_5')
     .fc(4096, name='fc6')
     .dropout(0.5, name='drop6')
     .fc(4096, name='fc7')
     .dropout(0.5, name='drop7')
     .fc(n_classes, relu=False, name='cls_score')
     .softmax(name='cls_prob'))

(self.feed('drop7')
     .fc(n_classes*4, relu=False, name='bbox_pred'))

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/152315.html原文链接：https://javaforall.cn

猜你喜欢

HTML5 语义元素
2018年9月12日 Oracle 环境建设的量力而为（h境?量oracle,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,2018-09-12）
java打包jar和war的区别[通俗易懂]
C/C++ 实现提升访问令牌权限
如何在Linux中查看DB2数据库的端口信息（linux查看db2端口）
sqlserver数据库危险扩展删除和恢复代码
Linux CHM文件的使用方法（linuxchm文件）
MySQL无需导出某一张表（mysql 不导出指定表）
探索Oracle数据库的触发器类型（oracle触发器类型）
ORA-46053: Invalid Cookie specified ORACLE 报错故障修复远程处理
民生银行AI全布局
深入理解MongoDB分片的管理
微信小程序–电池容量、电池剩余电量样式
Ubuntu 22+ 设置静态IP
从ResNet101到ResNet50
WhatsApp被曝内部收集用户数据
PHP 7.3 新增的三个常用函数，在 WordPress 中可以立即使用

zl程序教程

当前栏目

如何正确的理解RPN网络的train和test[通俗易懂]

相关文章