YOLO算法解析

YOLOv1

预测阶段

输入:448×448×3,通过卷积操作,得到7×7×1024的feature map,拉平放到4096神经元全连接层,在放到1470的全连接层,排成7×7×30的张量。(对于Pascal VOC,20个类,7×7个grid,7×7×(2×5+20))。置信度乘以最高类别概率是全概率。

预测后处理

一个框20个全概率,一共两个框,一共49个格,总共98个20×1的全概率。依次对每个类先用阈值门限,再NMS(从最高的概率开始,依次让更低的概率和最高概率比较,如果IOU超过某个值,也就是认为是同一个物体,把低的过滤掉)

训练阶段

拟合的思路:让含有物体中心点的网格生成的那个IOU更大的预测框去逼近目标,不含有物体中心的网格生成的框置信度变成0。

问题

定位差 全检测差 小目标密集目标差

YOLOv2

改进

Batch Normalization

High Resolution Classifier

Anchor Dimension Clusters Direct location prediction

YOLOv3