Zao - 个人主页

问题描述

最近训练了pt文件（yolo），通过瑞芯微提供的框架转换成了onnx 官方提供的ultralytics：

1.置信度分支添加sigmoid算子

2.移除后处理结构，

3.移动dfl结构到模型外部

因此三个检测头变成了六个检测头，我再把onnx（float32）转成rknn（float16）时，模型精度分析发现模拟器simulator的余弦相似度和golden差不多，但是runtime（板端）测试时，这三个置信度输出的检测头余弦相似度特别低。实测时置信度低了很多(10%-40%) 图片描述

尝试解决

初步怀疑是sigmoid的原因

图片描述

图1：yolov10原版检测头，分类和回归一起输出

图片描述

图2：修改后的检测头，置信度加sigmoid层，分类头放后处理部分

根据图2来看,YOLOv10 原本采用 SiLU 激活函数（SiLU(x) = x * Sigmoid(x)），在导出 ONNX 时会被拆解为 Sigmoid 和 Mul 算子。其他层由于残差连接和乘法操作（x * Sigmoid(x)），即使 Sigmoid 饱和（输出趋近于 1），仍能通过线性部分（x）保留有效信息，因此量化时影响较小。然而，置信度分支直接使用 Sigmoid 将输出压缩到 (0,1) 区间，在量化过程中容易因饱和而导致失真（如所有高分值被压缩到 0.99）。

个人觉得瑞芯微优化团队可能将 Sigmoid 替换为硬件友好但精度损失较大的近似计算，而量化团队未意识到该操作对置信度的严重影响，导致模型部署后性能下降。相比之下，其他层的 Sigmoid 因 SiLU 的残差结构而避免了完全失真，使得问题集中在置信度分支上。 (这里准备去看瑞芯微提供的NPU算子,很有可能是用了查表法实现非线性激活函数量化

【NPU sigmoid算子参考1】https://zhuanlan.zhihu.com/p/638006169

【NPU sigmoid算子参考2】https://blog.csdn.net/u011622208/article/details/123525286)