NVIDIA宣佈開源NVIDIA TensorRT推理服務器

編譯:chux

出品:ATYUN訂閱號

2018年9月,NVIDIA推出了NVIDIA TensorRT推理服務器,這是一種適用於數據中心推理部署的生產就緒解決方案。TensorRT推理服務器最大化GPU利用率,支持所有流行的AI框架,今天NVIDIA宣佈開源NVIDIA TensorRT推理服務器。

開源TensorRT推理服務器將允許開發人員自定義並將其集成到他們的數據中心推理工作流程中。開發人員如何擴展TensorRT推理服務器的示例包括:

  • 自定義預處理和後處理:開發人員現在可以更靈活地進行預處理和後處理,讓他們可以自定義TensorRT推理服務器,以實現圖像增強,功能擴展或視頻解碼等功能。與單獨處理這些任務相比,將處理直接集成到推理服務器可以提高性能。
  • 其他的框架後端:TensorRT Inference Server通過ONNX路徑支持TensorFlow,TensorRT,Caffe2等,支持所有頂級深度學習框架。現在,開發人員可以自由地將他們選擇的其他框架直接集成到推理服務器中,以進一步簡化其環境中的模型部署。

爲了幫助開發人員,除了API參考文檔之外,TensorRT推理服務器文檔還包括詳細的構建和測試說明。

通過動態批處理提高利用率

NVIDIA將繼續與社區一起開發TensorRT推理服務器,以增加新的特性和功能。例如,最新版本包括廣泛要求的功能,動態批處理。

在將請求發送到處理之前對其進行批處理可以顯著降低開銷並提高性能,但需要編寫邏輯來處理批處理。使用新的動態批處理功能,TensorRT推理服務器自動組合單獨的請求,以動態創建批處理。用戶可以控制批量大小和延遲,以根據特定需求調整性能。這消除了在推理服務器之前編寫和部署批處理算法所需的工作,從而簡化了集成和部署。

開源TensorRT推理服務器允許社區幫助確定產品的方向,並允許用戶立即構建特定於其用例的解決方案,同時幫助具有類似需求的其他人。

要了解如何入門,請閱讀新的博客文章:devblogs.nvidia.com/speed-up-inference-tensorrt/

代碼:github.com/NVIDIA/tensorrt-inference-server

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章