在线观看亚洲AV日韩AV,亚洲日韩一区精品射精,亚洲国产av玩弄放荡人妇

英偉達發(fā)布TensorRT8.0版本運行速度和精準度提升1倍

2021-08-19 15:46:36 來源：芯東西

英偉達昨日發(fā)布了其TensorRT 的 8.0 版本。TensorRT 可以看作是在英偉達各種 GPU 硬件平臺下運行的一個深度學習推理框架，其核心是一個 C++ 庫。

開發(fā)者可以將其他框架訓練好的模型轉(zhuǎn)化為 TensorRT 格式，并通過 TensorRT 推理引擎提升該模型的運行速度。芯東西等媒體和英偉達 AI 軟件部的產(chǎn)品管理總監(jiān) Kari Briski、產(chǎn)品營銷主管 Siddharth Sharma 就 TensorRT 8 的技術(shù)細節(jié)、應用落地等進行了深入地探討。

此外，Kari Briski 和 Siddharth Sharma 也分享了英偉達團隊在推薦系統(tǒng)競賽中所取得的成績。

一、運行速度和精準度提升 1 倍，推理延遲僅有 1 毫秒

Kari Briski 首先回顧了英偉達 TensorRT 的推出背景和成績。她說，AI 模型正在以指數(shù)級的速度增長，很多公司不得不縮減模型大小以追求響應速度。而英偉達 2016 年推出的 TensorRT 可以幫助這些企業(yè)擴大其模型規(guī)模，提升精度。5 年來，已經(jīng)有超過 35 萬名開發(fā)者下載了 250 萬次 TensorRT。TensorRT 7 也幫助英偉達創(chuàng)造了多項基準測試記錄。

而相比 7.0 版本，TensorRT 8 的運行速度和精準度都提升了 1 倍。此外，TensorRT 8 還有 2 項較為關(guān)鍵的特性，提升了其 AI 推理性能。

第一個是稀疏性(Sparsity)技術(shù)，該技術(shù)能夠提升英偉達 Ampere 架構(gòu) GPU 性能，可以在保持推理精度的同時，降低模型中的部分權(quán)重。這意味著模型所需的帶寬和內(nèi)存也會更小。

第二個是量化感知訓練(Quantization Aware Training)。這使開發(fā)者能夠利用訓練好的模型，以 INT8 精度進行推理，既保證精度，也減少了計算和存儲成本。

當前，開源 AI 公司 Hugging Face 和醫(yī)療方案解決商 GE 醫(yī)療正在應用 TensorRT。

Hugging Face 產(chǎn)品總監(jiān) Jeff Boudier 稱，通過采用 TensorRT 8，Hugging Face 在 BERT(預訓練的語言表征模型)上的推理延遲僅有 1.2 毫秒。

GE 醫(yī)療心血管超聲首席工程師 Erik Steen 也談道，當前臨床醫(yī)生需要花費寶貴的時間來選擇和評估超聲圖像。TensorRT 則憑借其實時推理能力，提高了 GE 醫(yī)療的視圖檢測算法性能，能夠加快臨床醫(yī)生的工作效率。

二、連獲 3 項冠軍，7 分鐘即可完成 CPU 近 24 小時工作

除了 TensorRT 8 的具體細節(jié)，Kari Briski 和 Siddharth Sharma 也分享了英偉達推薦系統(tǒng)團隊在 RecSys 推薦系統(tǒng)數(shù)據(jù)科學競賽中所獲得的成績。推薦系統(tǒng)作為計算機科學較新的分支，能夠幫助互聯(lián)網(wǎng)用戶找到自己想看、想玩、想買的內(nèi)容。

在本次 ACM RecSys 挑戰(zhàn)賽中，Twitter 會在 28 天內(nèi)向參與者提供數(shù)百萬個數(shù)據(jù)點，要求他們預測用戶會點贊或轉(zhuǎn)發(fā)哪些推文。規(guī)則要求選手的模型上限為 20 千兆字節(jié)，必須基于云端 CPU 的單一內(nèi)核運行，且時間不能超過 24 小時。

英偉達的 7 人團隊則第二次獲得了這一比賽的冠軍。

英偉達參賽成員之一的 Gilberto Titericz 認為，其推理模型需要去適應 CPU 核心是本次比賽的難點之一，對英偉達的團隊來說“就好像回到了遠古時代”。事實上，在比賽后，該團隊在單個 NVIDIA A100 Tensor Core GPU 上運行了比賽模型，CPU 花費將近 24 小時的工作，英偉達 A100 GPU僅用了 7 分鐘就完成運行。

此前 5 個月中，英偉達還參與了 Booking.com 挑戰(zhàn)賽和 SIGIR 電子商務數(shù)據(jù)挑戰(zhàn)賽。前者要求選手使用匿名數(shù)據(jù)點預測歐洲度假者最終選擇前往的城市，后者則提供了 3700 萬個數(shù)據(jù)點要求選手預測消費者會購買哪些產(chǎn)品。

這 2 項比賽吸引了阿里巴巴、沃爾瑪?shù)绕髽I(yè)參與，而英偉達最終獲得了 2 項比賽的冠軍。

結(jié)語：TensorRT 可有效提升英偉達 GPU 推理表現(xiàn)

TensorRT 作為英偉達 GPU 的推理庫，5 年中更新了 7 個版本。本次，英偉達推出的 TensorRT 8 相比上一版本再次有較大幅度的性能提升，側(cè)面體現(xiàn)出了英偉達對推理領(lǐng)域的重視。

另外，TensorRT 也支持 Python 調(diào)用，可在數(shù)據(jù)中心、嵌入式和汽車等平臺中應用。TensorRT 可以提升視頻流傳輸、語音識別、推薦和自然語言處理等工作的推理延遲，滿足了許多實時服務、自動和嵌入式應用的要求。

熱點圖集：

Arm推出新高能效核心A510 與老款A55相比其能提升35%
亞馬遜網(wǎng)絡(luò)服務宣布 AWSOutposts支持微軟SQLServer運行
“和平精英號”火箭曝光原型為快舟一號甲運載火箭
Xbox Series X/S樣機有什么區(qū)別？都一樣嗎？
Dolby Vision需要什么才能支持？
打出“絕對熱心的關(guān)注”的名號 pepper機器人究竟怎么樣？
蘋果到底有沒有用上北斗？蘋果用的是什么系統(tǒng)？
Apple Watch 心電圖功能檢測出心臟病？蘋果 CEO 庫克回應
細胞能不能無限長大？細胞有控制自己大小的方法
飛船原型SN5驚天一躍！面向未來星際旅行迎來重大進展
北斗三號全球衛(wèi)星導航系統(tǒng)正式開通：可提供厘米級精度服務
中國首次！火星探測任務天問一號探測器發(fā)射成功：場面壯觀

英偉達發(fā)布TensorRT8.0版本運行速度和精準度提升1倍

熱點話題

熱點推薦

頭條

英偉達發(fā)布TensorRT8.0版本 運行速度和精準度提升1倍

熱點話題

熱點推薦

頭條

英偉達發(fā)布TensorRT8.0版本運行速度和精準度提升1倍