Tencent / TNN
- суббота, 13 июня 2020 г. в 00:22:15
C++
TNN:由腾讯优图实验室打造,移动端高性能、轻量级推理框架,同时拥有跨平台、高性能、模型压缩、代码裁剪等众多突出优势。TNN框架在原有Rapidnet、ncnn框架的基础上进一步加强了移动端设备的支持以及性能优化,同时也借鉴了业界主流开源框架高性能和良好拓展性的优点。目前TNN已经在手Q、微视、P图等应用中落地,欢迎大家参与协同共建,促进TNN推理框架进一步完善。
TNN:由腾讯优图实验室打造,移动端高性能、轻量级推理框架,同时拥有跨平台、高性能、模型压缩、代码裁剪等众多突出优势。TNN框架在原有Rapidnet、ncnn框架的基础上进一步加强了移动端设备的支持以及性能优化,同时也借鉴了业界主流开源框架高性能和良好拓展性的优点。目前TNN已经在手Q、微视、P图等应用中落地,欢迎大家参与协同共建,促进TNN推理框架进一步完善。
使用 TNN 非常简单,如果你有一个已经训练好的模型, 那么一般而言通过以下三个步骤就能完成模型在目标平台上的部署。
第一步是把训练好的模型转换成TNN的模型,为此我们提供了丰富的工具来帮助你完成这一步,无论你使用的是 TensorFlow、PyTorch、或者 Caffe,都可以轻松完成转换。 详细的手把手教程可以参见这里如何转换模型。
当你完成了模型的转换,第二步就是编译目标平台的 TNN 引擎了,你可以根据自己的目标平台的硬件支持情况,选择 CPU/ARM/OpenCL/Metal 等加速方案。 对于这些平台,TNN 都提供了一键编译的脚本,使用非常方便。详细步骤可以参考这里如何编译TNN。
最后一步就是使用编译好的 TNN 引擎进行推理,你可以在自己的应用程序中嵌入对 TNN 的调用,这方面我们提供了丰富而详实的 demo 来帮助你完成。
目前TNN已经在手Q、微视、P图等应用中落地,其具有的以下特性获得了广泛的好评。
计算优化
低精度优化
内存优化
主流模型实测性能:v0.1 2020.05.29
麒麟970:
model | cpu time(单线程,ms) | gpu time(ms) |
---|---|---|
Mobilenet_v1 | 88 | 12 |
Mobilenet_v1_int8 | 55 | |
Mobilenet_v2 | 58 | 11 |
Mobilenet_v2_int8 | 41 | |
squeezenet_v1.0 | 127 | 20 |
squeezenet_v1.0_int8 | 82 |
骁龙835:
model | cpu time(单线程,ms) | gpu time(ms) |
---|---|---|
Mobilenet_v1 | 94 | 16 |
Mobilenet_v1_int8 | 62 | |
Mobilenet_v2 | 61 | 14 |
Mobilenet_v2_int8 | 47 | |
squeezenet_v1.0 | 122 | 28 |
squeezenet_v1.0_int8 | 93 |
骁龙845:
model | cpu time(单线程,ms) | gpu time(ms) |
---|---|---|
Mobilenet_v1 | 60 | 10 |
Mobilenet_v1_int8 | 37 | |
Mobilenet_v2 | 39 | 8 |
Mobilenet_v2_int8 | 28 | |
squeezenet_v1.0 | 74 | 14 |
squeezenet_v1.0_int8 | 56 |
TNN架构图:
通过 ONNX 支持 TensorFlow, PyTorch, MXNet, Caffe 等多种训练框架,充分利用和融入不断完善的 ONNX 开源生态。当前支持 ONNX 算子55个,近期会完善到约80个,覆盖主流CNN网络
支持主流安卓、iOS、Embedded Linux 操作系统,支持 ARM CPU, GPU 硬件平台(近期还会加入达芬奇 NPU 支持)
模块化设计,将模型解析、计算图构建、优化、底层硬件适配、高性能 kernel 实现各部分抽象隔离,通过 Factory Mode 注册、构建设备,方便接入更多的底层硬件、加速方案。
Runtime 无任何第三方库依赖,CPU 动态库尺寸仅约 400KB,并提供基础图像变换操作,调用简单便捷。跨平台模型统一、调用接口统一,通过单个配置参数快速切换。
TNN参考和借鉴了下列项目:
欢迎大家参与,协同共建,打造业界最好的移动端推理框架。
技术交流 QQ 群: 913940506 答案:TNN
QQ 群二维码: