如何在使用 TensorRT C++ API 编写的 TensorRT 模型上运行半精度推理?

How to run half precision inference on a TensorRT model, written with TensorRT C++ API?

本文关键字：TensorRT 运行模型推理精度 C++ API 更新时间：2023-10-16

我正在尝试使用用 TensorRT C++ API 原生编写的模型运行半精度推理(不是从其他框架解析的，例如 caffe、tensorflow(; 据我所知，这个问题没有公共工作的例子;我找到的最接近的是 TensorRT 4.0.0.3 发布的 sampleMLP 示例代码，但发行说明说不支持 fp16;

我的玩具示例代码可以在此存储库中找到。它包含 API 实现的架构和推理例程，以及我用来将训练权重字典转换为 wtd TensorRT 格式的 python 脚本。

我的玩具架构只包含一个卷积; 目标是在 fp32 和 fp16 之间获得类似的结果，除了一些合理的精度损失; 该代码似乎适用于 fp32，而我在 fp16 推理的情况下获得的是完全不同的数量级值 (~1e40(; 所以看起来我在转换过程中做错了什么;

我将不胜感激任何帮助来理解这个问题。

谢谢

f

在快速阅读您的代码后，我可以看到您所做的工作超出了获得半精度优化网络所需的工作。您不应手动将加载的权重从float32转换为float16。相反，您应该像往常一样创建网络，并使用nvinfer1::IBuilder对象调用nvinfer1::IBuilder::setFp16Mode(true)，让 TensorRT 在合适的情况下为您进行转换。