如何在使用 TensorRT C++ API 编写的 TensorRT 模型上运行半精度推理?
How to run half precision inference on a TensorRT model, written with TensorRT C++ API?
我正在尝试使用用 TensorRT C++ API 原生编写的模型运行半精度推理(不是从其他框架解析的,例如 caffe、tensorflow(; 据我所知,这个问题没有公共工作的例子;我找到的最接近的是 TensorRT 4.0.0.3 发布的 sampleMLP 示例代码,但发行说明说不支持 fp16;
我的玩具示例代码可以在此存储库中找到。它包含 API 实现的架构和推理例程,以及我用来将训练权重字典转换为 wtd TensorRT 格式的 python 脚本。
我的玩具架构只包含一个卷积; 目标是在 fp32 和 fp16 之间获得类似的结果,除了一些合理的精度损失; 该代码似乎适用于 fp32,而我在 fp16 推理的情况下获得的是完全不同的数量级值 (~1e40(; 所以看起来我在转换过程中做错了什么;
我将不胜感激任何帮助来理解这个问题。
谢谢
f
在快速阅读您的代码后,我可以看到您所做的工作超出了获得半精度优化网络所需的工作。您不应手动将加载的权重从float32
转换为float16
。相反,您应该像往常一样创建网络,并使用nvinfer1::IBuilder
对象调用nvinfer1::IBuilder::setFp16Mode(true)
,让 TensorRT 在合适的情况下为您进行转换。
相关文章:
- 运行同一解决方案的另一个项目的项目
- CMake-按正确顺序将项目与C运行时对象文件链接
- 如何运行位于boost/libs/python/example/tutorial目录中的hello.cpp和Jamfil
- 代码在main()中运行,但在函数中出现错误
- 我在c++代码中生成了一个运行时#3异常
- 如何在linux终端中同时编译和运行c++代码
- 为什么在运行时没有向我们提供有关分段错误的更多信息?
- 如何在运行中期切换GTK CSS style_context
- 如何在MS Visual Studio 2019中运行QT UI
- 如何通过cpp程序运行shell脚本
- IPC使用多个管道和分支进程来运行Python程序
- 删除指向指针的指针是运行时错误吗
- 如何用参数值调用函数(仅在运行时已知)
- 为什么即使使用-cudart-static进行编译,库用户仍然需要链接到cuda运行时
- 是否可以在编译时初始化数组,以便在运行时不会花费时间?
- c++中的指针和运行时错误
- 在C应用程序中运行C++(带有STL)函数
- 运行程序时出现问题
- 控制允许动态运行c++的并发操作数
- 如何在使用 TensorRT C++ API 编写的 TensorRT 模型上运行半精度推理?