以技術驅(qū)動創(chuàng)新,以芯力量擁抱數(shù)智未來。平頭哥《芯事》訪談對話科技創(chuàng)新者、引領者,探索創(chuàng)芯之路,共建硬核算力,賦能科技創(chuàng)新。
本期《芯事》人物:致凡 —— 阿里云視頻云技術團隊負責人
視頻云和倚天710的結合是一段美好的旅程
2022年北京冬奧會,阿里云承接了一項重要的任務,那就是支撐冬奧全面上云。為此,阿里云視頻云推出了全新的云上創(chuàng)新解決方案——阿里云聚“Alibaba Cloud ME”,這也是全球第一次在奧運會上實現(xiàn)異地全息會面,是一次打破時空之距的革命性創(chuàng)新。
在感嘆云上沉浸之旅的精妙之余,我們不禁要問,阿里云視頻云上路即狂奔的硬實力是什么?除了使命必達的奮斗精神和強大的軟件、算法支撐能力以外,阿里云視頻云總經(jīng)理致凡還提到了倚天710。
當我們將目光投射到倚天710上,會發(fā)現(xiàn)它誕生于2021年,是一款由平頭哥自研的云芯片,經(jīng)過一年多時間的硬件部署和業(yè)務驗證,倚天710實例已成功應用到阿里巴巴集團的核心業(yè)務中,并服務多家知名互聯(lián)網(wǎng)及科技公司。正是基于前期優(yōu)良的表現(xiàn),阿里云在2022年的云棲大會上宣布:未來2年,阿里云20%的新增算力將使用自研CPU。
當然,沒有一款芯片生來就如此強大,致凡告訴與非網(wǎng):“視頻和倚天710的結合是一段美好的旅程,但中間還是經(jīng)歷了非常多的事情?!?/p>
致凡解釋:“由于視頻業(yè)務的增長速度是非??斓?,而要研制一顆視頻芯片的周期卻非常長,所以在一開始的時候大家是抱著試一試的心態(tài),配合來做這件事。當?shù)谝话嫘酒?a class="article-link" target="_blank" href="/tag/%E6%B5%81%E7%89%87/">流片回來后,沒有做過任何優(yōu)化跑出來的性能和速度都跟不上傳統(tǒng)架構CPU,但由于Arm架構帶來的原生優(yōu)勢,再加上阿里云和平頭哥的同學雙方坐在一起,在了解芯片內(nèi)部構成的基礎上去做了很多算法調(diào)優(yōu)后,能夠讓代碼在芯片上跑得更快。同時,倚天710還針對特定算法場景進行了指令集加速與優(yōu)化,比如像SVE等矢量計算技術,其中BF16/INT8 mmla指令可實現(xiàn)高效的矩陣乘法運算,還支持Hash、CRC32等加速指令,可以讓單條指令并行處理更多數(shù)據(jù),大幅提升視頻編解碼、AI編解碼增強等場景性能,這是一個兩邊一起迭代的過程?!?/p>
所以,從最早的性能不如傳統(tǒng)架構CPU,到現(xiàn)在已經(jīng)遠遠的超過傳統(tǒng)架構CPU,倚天710的“蛻變”是一步一個腳印走過來的。致凡認為:“這是一個非常好的案例,阿里視頻云的業(yè)務跟平頭哥的芯片設計能夠完美地結合在一起,利用各自的優(yōu)勢讓芯片設計出來,在視頻行業(yè)中發(fā)揮更大的作用?!?/p>
談起平頭哥和阿里云視頻云業(yè)務的這次合作,就不能不提到一個大的產(chǎn)業(yè)背景,即視頻云的爆發(fā)式增長。至于什么是視頻云?“視頻云就像是音視頻行業(yè)的水和電,是底層的基礎設施,可以大大簡化視頻從采集、處理、編碼、傳輸?shù)椒职l(fā)的鏈路?!敝路残蜗蟮谋扔髟偾‘敳贿^。
社會視頻化是一種大趨勢
從2017年開始,短視頻的熱度持續(xù)上升,加上近三年疫情下直播、視頻會議、線上教學等領域的崛起,社會視頻化成為一種大趨勢。
根據(jù)CNNIC發(fā)布的第50次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》數(shù)據(jù)顯示,截至2022年6月,我國移動互聯(lián)網(wǎng)接入流量達1241億GB,同比增長20.2%;另根據(jù)思科發(fā)布的數(shù)據(jù)顯示,視頻內(nèi)容約占互聯(lián)網(wǎng)總流量的90%,占移動網(wǎng)絡總流量的64%。
結合這兩組數(shù)據(jù),我們可以得出視頻正在成為互聯(lián)網(wǎng)流量的主角。而爆炸性的數(shù)據(jù)量又將會對算力和存儲提出更大的挑戰(zhàn)。于是視頻云的價值被凸顯出來,并呈現(xiàn)出了一種不可逆的發(fā)展態(tài)勢。在這樣的大背景下,全球以互聯(lián)網(wǎng)公司為主的科技企業(yè)紛紛轉(zhuǎn)型,開啟視頻云技術的探索之旅,并在安防監(jiān)控、遠程醫(yī)療、零售電商以及金融機構等典型場景中得到落地。
當前,視頻云產(chǎn)業(yè)已經(jīng)形成了相對穩(wěn)定的頭部戰(zhàn)隊,包括國外的微軟、AWS,以及國內(nèi)的阿里云、騰訊云、華為云、百度云、金山云、字節(jié)、快手、深網(wǎng)等。
關于國內(nèi)視頻云的市場體量方面,根據(jù)IDC發(fā)布的數(shù)據(jù)顯示,2022上半年中國視頻云市場規(guī)模達到50.5億美元,同比增長15.7%,預計到2026年,市場規(guī)模接近300億美元。值得一提的是,該報告同時還指出,阿里視頻云連續(xù)4年蟬聯(lián)中國視頻市場份額第一,并且滲透率還在不斷增加。
視頻產(chǎn)業(yè)發(fā)展迅猛,倒逼技術快速迭代
對于視頻云產(chǎn)業(yè)來講,以在線視頻為例,從最早國外的Livestream、國內(nèi)的斗魚直播到現(xiàn)在已經(jīng)經(jīng)歷了25年的歷史,其實從技術的角度來看,整個行業(yè)發(fā)展的速度沒有想象中的快。比如,視頻編碼從H.264到H.265,再到H.266,平均10年升級一代。為什么速度不是很快?因為它要解決的問題比較多:算力、網(wǎng)絡傳輸、標準等等。
但是,我們看到今天的視頻產(chǎn)業(yè)發(fā)展非常迅猛,這也倒逼技術要去完成快速迭代。這幾年已經(jīng)初顯效果,比如現(xiàn)在編碼器的升級迭代速度是5年,以前是10年,預計后面可能是3年。
為什么這里要強調(diào)編碼?事實上,視頻云是一個算力密集型行業(yè),視頻信息量很大,假如采用和文本、圖片一樣的壓縮模式,那么還原度是不夠的,所以視頻必須進行編碼處理。編碼要是做不好,不僅會損失視頻質(zhì)量,還會帶來傳輸難度高的問題。
從MPEG2開始,每一代視頻編碼的升級,其壓縮率大約可以提升50%,遠低于視頻分辨率每更新一代提升4倍的速度,即使這樣,每一代升級對CPU算力的需求,以及算法復雜度都會提高至少10倍以上,這對芯片的架構、芯片底層的指令集優(yōu)化、芯片的存儲器和CASH結構都會帶來新的挑戰(zhàn),很多核心的算法要用新的指令集重新寫一遍,這意味著視頻編碼和芯片成長是需要同步的。
視頻云需要怎樣的CPU?
通過前面的介紹,我們了解到視頻編碼對算力的要求很高,因為我們常常試圖用算力換存儲,用算力換傳輸帶寬,所以我們希望算力越高越好。
那么如何提升CPU的算力?首先要選擇好的內(nèi)核架構。在視頻領域,傳統(tǒng)架構已經(jīng)有三十幾年的歷史了,目前市占率依然能達到90%以上的份額,但裹挾著沉重的向后兼容包袱。而Arm作為一種精簡指令集,不僅沒有歷史包袱,還可以根據(jù)需求增加很多寄存器,同時從內(nèi)存CASH結構的設計和指令集的設計上面,能夠更貼合需要大算力的視頻處理需求。
此外,不管是Hyper-Threading還是其他,采用傳統(tǒng)架構的CPU走的都是提高主頻的路子,在視頻處理時就會遇到一些問題,比如視頻壓縮的時候會分成I幀、P幀、B幀,每一幀的算力并不是平均分配的,就會帶來對算力需求不穩(wěn)定的問題。所以為了讓芯片不跑超頻,就可能會做一些降頻處理,這時候它的算力就可能達不到相應的編碼需求。在實際業(yè)務中,由于視頻業(yè)務不是單機運行的,會有很多的服務器集群配合來處理,為了防止CPU跑超等復雜情況的出現(xiàn),就不得不把服務器集群的水位降低,這是傳統(tǒng)架構CPU比較大的問題。
然而Arm整體的設計是比較穩(wěn)定的,不管任務有多復雜,都能實現(xiàn)穩(wěn)定輸出,做到良好的資源調(diào)配和水位調(diào)配,不用預留很多冗余來防止芯片跑超,這對于to B業(yè)務來說非常重要。
除了主頻高以外,傳統(tǒng)架構CPU的核不多,通常是兩個vCPU/HT共享一個物理核、1份ALU,但Arm可以實現(xiàn)128/256/512或更多的核,類似GPU的設計,如此一來,對于不同應用場景而言,就可以用少核應對低算力需求的場景,多核應對高算力需求的場景,實現(xiàn)更優(yōu)的業(yè)務調(diào)配,降低投入成本。以倚天710為例,它采用了ARMv9架構,內(nèi)含128核CPU,主頻最高可達3.2GHz,可適配云的不同應用場景。
與此同時,隨著數(shù)據(jù)上云越來越多,對于數(shù)據(jù)中心而言,功耗性能也是非常重要的,對運營者來說,低功耗就意味著低成本,在這方面,Arm相比于傳統(tǒng)架構也有著獨特優(yōu)勢。這也是除了軟件層面的優(yōu)化以外,為什么倚天710能同時兼顧性能和功耗的重要原因之一。
以上要素疊加,就讓視頻云的頭部企業(yè)阿里云與倚天710 的結合看起來水到渠成。當前,倚天710已大規(guī)模部署并提供云上服務,根據(jù)實踐反饋,倚天710讓阿里云平臺的算力性價比提升了超30%,單位算力功耗降低了60%,這是一個相當大的進步。
寫在最后
縱觀視頻云產(chǎn)業(yè),人們對體驗的極致追求,將成為視頻云持續(xù)深耕的動力。在云應用場景下,CPU的發(fā)展之路將循著算力、I/O、網(wǎng)絡協(xié)議適配、推理能力、從無到有的創(chuàng)造能力不斷演進下去。
未來,Arm會成為視頻云中一種重要的架構,整體份額一定會增加,但不會是唯一的架構,傳統(tǒng)架構、異構的ASIC和FPGA都會有一席之地。而對于Arm架構而言,未來的改進方向是降低功耗、提高算力、做好專用性和通用性的選擇平衡。
同時,我們要意識到,未來視頻對算力的挑戰(zhàn)是非常高的,簡單地靠 CPU的升級已經(jīng)滿足不了需求,需要一些特殊的處理,包括越來越多的AI算法、專用算法,比如模型搜索的算法等,再把通用的模塊部分地固化在芯片里面,極大地提升視頻處理的效率。
所以在視頻云市場,人們總是在做權衡,云芯片廠商要處理好芯片能效和通用性的關系,云服務商要在算力有限的情況下使用很多快速算法。而正如致凡強調(diào)的:“我們的愿景都是一樣的,就是讓視頻普惠各行各業(yè),從而反哺視頻行業(yè),實現(xiàn)更茁壯的發(fā)展。