基於XPU的硬件戰略、開放的軟件棧,英特爾正在推動音視頻產業向動態、豐富、多維和可交互的下一個拐點邁進

作者|鬥鬥

出品|產業傢

2022年被稱為“雲演出”元年。

從上億人湧入周傑倫線上演唱會,到 westlife 為中國歌迷定制線上演唱會在朋友圈刷屏。“雲演出”把人們從疫情的陰霾中,瞬間拉到那個人聲鼎沸的現場。

人們在追憶青春、緬懷過去的同時,也在驚嘆線上演出帶來的視聽盛宴。

過去,短信、網站是唯一與明星互動的方式;後來直播興起,在線為偶像打 call,拉近瞭粉絲和明星之間的距離,但在延遲時間、卡頓頻率方面卻不盡人意。例如,在體育賽事直播中,時常會出現賽點卡頓的現象,當恢復正常後,卻早已錯過精彩瞬間;如今,隨著直播技術的優化和升級,這些都發生瞭基礎性的改變,即時互動、視頻流暢已經成為標配。

而在直播行業迅速發展的背後,也是音視頻廠商不斷以技術和服務賦能,從而帶動產業向上發展的一個縮影。

疫情之下,出行受限,線上演出、線上辦公、線上招聘、直播帶貨成為常態;另外,元宇宙概念下,VR、AR領域再次興起;加之短視頻平臺較強的增長趨勢。越來越多的應用場景被挖掘。

據IDC發佈的《中國視頻雲市場跟蹤(2021上半年)》顯示,2021 上半年中國視頻雲市場規模達到 43.7 億美元,同比增長達到 38.7%。

毋庸置疑,音視頻賽道正迎來前所未有的發展機遇。

然而,新的機遇也對應著新的挑戰。站在風口的音視頻賽道,誰會成為下一個破局者?

一、風口之下,再現產業困境

1872年,英國的攝影師麥佈裡奇,為瞭驗證馬在奔跑過程中是否會四蹄騰空,借助 24 臺相機,連續拍攝瞭 24 張照片,由此創造瞭人類歷史上第一個“視頻”。1877 年,著名發明傢愛迪生在他的“圓筒留聲機”上,錄下瞭他親自朗讀的《瑪麗有隻小羊羔》的歌詞。這短短數秒的聲音,成為瞭人類歷史上第一條音頻。

由此,人類正式進入瞭音視頻時代。

技術更迭下,音視頻從膠片轉向光盤,繼而轉向手機、電腦等移動設備上,承載方式不斷更迭。進入 21 世紀後,短視頻業務的爆發,以及全民直播的興起,更是將音視頻平民化推向瞭新的高潮。

這期間,“流量”成為用戶更加關註的指標。而互聯網音視頻平臺及其底層技術,無論是消費者、企業還是投資人,並沒有對它產生過多的關註。

然而,新冠疫情的爆發,打破瞭這種固有的局面。

受疫情催化下,商業活動以及人口流動受阻,導致遠程協作與線上娛樂剛性強需求瞬間釋放。

例如,企業線下活動被迫遷移線上、大量企業采取遠程辦公的模式代替線下辦公方式、學校開辦“雲”課堂……使得實時互動需求猛增。據咨詢公司 IDC 數據披露,2020 全年,中國視頻會議市場規模較同比上漲 18.9%,達到約 65.2 億元人民幣,呈現爆發式增長。

另外,線上教育場景的市場規模也迎來劃時代的增長趨勢,相關數據顯示,2020年中國教育實時音視頻市場規模較2019同比增長46.9%,達到47億元。

音視頻的應用愈發廣泛。進而刺激瞭市場規模快速增長。具體數據顯示,2020年中國音視頻解決方案市場規模突破 400 億,年增長率超過 55.1%。

在技術革新和市場環境的雙重作用下,音視頻已經成為互聯網“煤、水、電”般重要的存在,逐漸成為互聯網產業的底層新基建之一。

然而,伴隨音視頻行業的發展熱潮,音視頻系統在各應用場景中的滲透率趨近飽和,加之用戶對極致體驗的追求,使得各平臺對技術層面有瞭更多元化的需求,底層算力面臨的挑戰也不斷增加。

就拿直播而言,隨著大數據、雲計算等新興技術的興起,以及 5G 等通信技術的飛速發展,直播上雲已經成為趨勢,音視頻系統如何與雲平臺無障礙連接成為新的需求。

其次,隨著各類高清視聽設備加速滲透,需要技術解決方案能更快應對更高清晰度、更低時延的視頻編解碼和轉碼。從而應對 1080P、2K 乃至 4K 視頻下不斷“擴容”的音視頻數據流。

另外,當下直播生態化成大勢所趨,需要與電商、業務等更多服務平臺連接,這對承載音視頻能力的底層基礎設施提出更高要求,這些要求包括更快的計算處理能力、更靈活的算力分佈方案、更優的數據存儲性能以及更強的網絡吞吐能力等。

加之當下AI技術 不斷賦能直播,如產品推薦、即時特效、興趣內容信息流、虛擬形象等,使音視頻能力與AI 技術深度融合。如何為音視頻能力提供高效的 AI 框架和加速能力也成為當下新直播場景的新需求。

總結來看,在新興技術的飛速發展下,音視頻技術需要不斷升級以支持新應用、新模式和新場景下的需求。

一個事實是,目前對於整個音視頻賽道來說,不僅需要上層軟件系統的優化,也需要在底層硬件基礎設施上,尋求破局之法。基於此,才能實現音視頻賽道真正意義上顛覆性、創新性的技術升級。

二、“軟件優化+硬件加速”,錨定性能提升

破局的關鍵,往往在於底層基礎。

2021年 2 月 9 日 24 時,新年的鐘聲準時響起,對於中國的老百姓而言,全傢圍坐電視機前,一起觀看春節聯歡晚會電視直播是每一個新年的標配。

然而,與以往不同的是,由於疫情的影響,這一年的春晚首次采用“雲直播”的形式,需要高並發視頻流的處理,將正在錄制的視頻上傳雲服務器,處理後分發向數量龐大的用戶終端。

基於此,在直播場景下,如何在雲上實現高效轉碼、降低延時和提升畫質等,成為各大雲廠商面臨的挑戰,需要不斷對自身平臺的音視頻底層架構和技術進行優化與升級。

以金山雲為例,為瞭在提升畫質、降低帶寬壓力的同時,提升雲轉碼的性能表現,實現更高的性能密度,其在“集智高清”的雲服務器中搭載瞭英特爾 至強 處理器。

其中,處理器針對公有雲應用負載的特點進行瞭定制與優化,提供瞭高達 32 個物理核心,運行頻率達到 2.6GHz。在單核性能、核心數量等方面都實現瞭顯著提升,為“集智高清”系統的雲轉碼性能提升奠定瞭堅實基礎。

另外,集智高清的應用場景對延遲有著嚴苛的要求,因此金山雲使用瞭英特爾 AVX-512 來優化卷積的重載。與傳統卷積實現相比,這種方式具備無需對源圖像進行擴邊、無需填充過濾器、無需傳輸整個過濾緩沖區、無需旋轉源圖像/濾鏡/輸出等優勢,可以有效減小在線圖像處理時延和帶寬問題。

在英特爾 AVX-512 指令集的支持下,金山雲ERJND 模塊能夠實現 48-103 倍的性能提升。

除此之外,英特爾 集成性能原件也為新方案提供瞭性能優化。

英特爾 IPP 能夠在一個函數調用中快速實現離散餘弦變換(DCT),在提升運算效率的同時,極大精簡瞭書寫代碼量。通過使用英特爾 IPP 庫函數、優化算法以最小化內存占用、英特爾 AVX-512 指令集優化等方式,金山雲在 DCT 計算等方面實現 3 倍左右的性能提升。

優化前後 DCT 性能對比

另外,金山雲還依托英特爾 至強 處理器集成的英特爾 深度學習加速(英特爾 DL Boost)技術,將“集智高清”深度學習應用中數值精度為 FP32 的模型轉換成為使用 VNNI 指令集進行優化的 INT8 數值精度。

采用 INT8 等較低精度的數值可以更好地使用高速緩存,增加內存數據傳輸效率,減少帶寬瓶頸,從而能夠更為充分地利用計算和存儲資源,並降低系統功率。

這意味著,在同樣資源的支持下,INT8 可為深度學習的推理帶來更多的每秒操作數(Operations Per Second,OPS)。通過該方式,金山雲在精度符合需求的前提下,大幅提升深度學習的性能。

在英特爾軟硬件產品與技術的助力下,金山雲視頻解決方案實現瞭大幅節省帶寬、視頻體驗更優、畫面品質提升、時延更低等諸多增益。

英特爾硬件基礎設施就像一個“性能加速器”,通過英特爾 至強 可擴展處理器、英特爾 FPGA 產品、英特爾 傲騰 持久內存等硬件產品組合,為各類基於音視頻的創新方案提供強勁的計算、存儲和網絡處理能力。

而軟件則更像“系統優化器”,在不同應用場景中以完整的軟件棧來加速音視頻能力的工作效能。

軟硬結合下,英特爾為各類平臺提供基於雲或數據中心的音視頻處理能力、專業高效的編解碼/轉碼能力,賦能雲服務提供商為用戶帶來更流暢、更高清、交互更簡捷、價格更實惠的視聽體驗。同時,也使雲廠商可以更有效地推動系統優化,降低運營成本。最終實現瞭“1+1>2”的協同效應。

三、新場景衍生新價值,走向產業拐點

新場景下,音視頻行業價值被重新定義。

隨著音視頻產品、技術的升級迭代,不斷促進著新模式、新業態的發展。於此同時也為新的應用場景帶來瞭更多想象空間。

2021年下半年,元宇宙概念火爆出圈,受到資本圈的高度認可。其中,沉浸、交互、實時的全真音視頻無疑成為元宇宙的重要呈現形式之一。

短期看,元宇宙的熱度促進瞭音視頻VR技術需求的釋放,實現瞭音視頻解決方案市場的小規模增長。但從長期發展的角度來看,元宇宙更像是一個音視頻賽道下,新應用場景的縮影。英特爾在助力音視頻技術不斷迭代升級下,為元宇宙的應用場景提供瞭充足的“養分”。

目前,在與元宇宙有很強技術重疊性的雲遊戲場景中,高速發展的市場規模與不斷豐富的遊戲品類,給雲遊戲平臺帶來更多挑戰,需要具備強大算力和圖形處理能力,以提供低時延、高畫質的極致體驗,同時也需要選擇更具性價比的軟硬件產品來搭建基礎能力平臺。

作為智能設備制造商中的持續創新者,OPPO 結合實際業務和基礎架構,推出瞭搭載英特爾 服務器 GPU 、英特爾 至強 可擴展處理器,以及英特爾 Android Cloud Gaming Software Stack(ACGSS)軟件棧的 OPPO 雲遊戲平臺,實現瞭顯著的性能提升,在保障用戶流暢、穩定的遊戲體驗同時,也有效控制瞭TCO。

OPPO 雲遊戲平臺

從XPU的硬件戰略到開放的軟件棧,英特爾通過英特爾 至強 可擴展處理器、英特爾 FPGA產品、英特爾 傲騰 持久內存,以及英特爾 以太網網絡適配器、英特爾 視覺雲媒體分析加速卡等硬件產品,為各場景下基於音視頻能力的創新方案提供強勁的計算、存儲和網絡處理能力;在軟件優化加速上,英特爾的 Media SDK、 SVT、英特爾 oneAPI等,都能幫助實現在不同應用場景中以完整的軟件棧來加速音視頻能力的工作效能,助力用戶快速建立從數據到應用的端到端整體方案,並實現更優硬件性能。

隨著音視頻在元宇宙、智能傢居、IoT、醫療等應用場景更加廣泛,英特爾將基於這些產品和軟硬一體端到端的技術方案,不斷滿足各種應用場景下對音視頻技術能力的需求,充分體現靈活、可靠、高效的架構優勢。不斷聚焦新場景,賦能“千行百業”,從而推動音視頻產業向動態、豐富、多維和可交互的下一個拐點邁進。

目前,在AR/VR場景,英特爾與北京移動,當紅齊天打造瞭 5G VR 電競新體驗;在智能語音場景,英特爾助力騰訊雲小微,提升瞭實時語音合成性能……除此之外,英特爾正在不斷滿足更多互聯網應用對音視頻能力的需求,點擊閱讀原文瞭解更多音視頻創新實踐案例~