在過去一年里,H.265/HEVC 正式推出已是第5年個年頭,盡管 Apple 將它添加到 HLS,但其還會面對哪些機(jī)遇?今年3月以草案形式發(fā)布的AV1,在行業(yè)中備受關(guān)注,其實際應(yīng)用效果如何?有哪些實踐案例?國內(nèi) AVS 標(biāo)準(zhǔn),相比其它編解碼技術(shù)有哪些優(yōu)勢?WebRTC 1.0 之后將面對哪些挑戰(zhàn)?
關(guān)于編解碼與 WebRTC 最新的技術(shù)實踐與演進(jìn)趨勢,在本屆 RTC 2018 實時互聯(lián)網(wǎng)大會上,你將聽到最官方的解答。
1、四大亮點(diǎn)話題,不虛此行
亮點(diǎn)一:臨境通信與智能交互中的聲信號獲取、處理與重構(gòu)
語音通信與人機(jī)語音交互原本是兩個不同的領(lǐng)域,但隨著技術(shù)的發(fā)展,這兩個領(lǐng)域無論是在自身的技術(shù)需求還是在面對應(yīng)用的需求方面都出現(xiàn)了高度交叉,尤其是在聲信號獲取、處理與重構(gòu)方面,兩者均需要在復(fù)雜場景下實現(xiàn)高保真、高質(zhì)量的遠(yuǎn)場拾音,并保留和重構(gòu)信號及其空間信息。
信號處理領(lǐng)域首屈一指的科學(xué)家將和大家分享聲信號感知、處理與重構(gòu)的一般過程和這個過程中所要解決的主要科學(xué)難題,及關(guān)鍵技術(shù)的現(xiàn)狀,并一同探討在復(fù)雜、遠(yuǎn)場拾音環(huán)境下聲信號感知、獲取、處理、傳輸與重構(gòu)所面臨的主要挑戰(zhàn)。
亮點(diǎn)二:新編碼時代,AVS2 音視頻標(biāo)準(zhǔn)演進(jìn)及應(yīng)用實例
AVS2 已經(jīng)開始應(yīng)用于電影、電視和視頻行業(yè)。而AVS2 關(guān)鍵技術(shù)、相對優(yōu)勢是什么?應(yīng)用實踐中有哪些經(jīng)驗?未來計劃又是如何?可能很多人并不了解。
來自 AVS 標(biāo)準(zhǔn)委員會音頻組、測試組和視頻組的組長,不僅將解答這些問題,還將分享國際/國內(nèi)新一代視頻編碼標(biāo)準(zhǔn)的最新進(jìn)展,點(diǎn)云、光場等新興沉浸式媒體編碼,以及深度學(xué)習(xí)在視頻編碼領(lǐng)域的應(yīng)用等內(nèi)容。
亮點(diǎn)三:新一代視頻編碼,在互動直播服務(wù)的抉擇困境與機(jī)遇
互動直播相對于點(diǎn)播(VOD)以及傳統(tǒng)線性電視(地面電視、有線電視、IPTV)在播放平臺、后臺架構(gòu)、技術(shù)要求等,存在諸多緯度的差異;谶@些特殊性連帶上游視頻編碼行業(yè)近期的劇烈下滑,互動直播平臺對于上線新編碼格式面臨著前所未有的技術(shù)挑戰(zhàn)。事實上,在全球范圍內(nèi)部署H.264以外編碼格式的直播平臺寥寥無幾。與此同時,HEVC、VP9、AV1相對H.264都有非常明顯的編碼效率優(yōu)勢。
Twitch 目前是日活躍用戶達(dá)1500萬,高峰并發(fā)觀眾超250萬的互動直播平臺。來自 Twitch 的首席研發(fā)工程師將從前后臺兩方面分析播放平臺的兼容性和高畫質(zhì)實時編碼的可行性,從而大致勾勒出主講人對于未來5年內(nèi)編碼格式演進(jìn)的預(yù)測。此外,也會重點(diǎn)解析AV1中SWITCH_FRAME的設(shè)計,對于SWITCH_FRAME進(jìn)一步降低直播時延的計劃。
亮點(diǎn)四:WebRTC 1.0 與未來的演進(jìn)
在過去的一年里,WebRTC實現(xiàn)了瀏覽器端上的統(tǒng)一,并推出了業(yè)界標(biāo)準(zhǔn)WebRTC 1.0。而 WebRTC 新版本的標(biāo)準(zhǔn)制定工作已經(jīng)開始。我們在此之前也透露過一部分信息。在本屆大會上,來自 Google 的 WebRTC 產(chǎn)品經(jīng)理和 WebRTC 標(biāo)準(zhǔn)委員會成員們,將帶來更進(jìn)一步的分享。
2、將有誰來分享?
這位信號處理領(lǐng)域的科學(xué)家的技術(shù)經(jīng)歷豐富,由于篇幅有限,我們僅分享一部分。
他先后在日本國際電氣通信基礎(chǔ)技術(shù)研究所(ATR)和澳大利亞的格里菲斯大學(xué)從事過信號處理、語音合成、語音識別等領(lǐng)域的研究工作。
也在美國的貝爾實驗室從事過自適應(yīng)信號處理、陣列及MIMO信號處理和語音信號處理與通信等領(lǐng)域的研發(fā)工作。
還曾擔(dān)任WeVoice公司的首席科學(xué)家。2010年回國,入選第三批國家“千人計劃”,后加入西北工業(yè)大學(xué)任“智能聲學(xué)與臨境通信中心”主任兼首席科學(xué)家,所開發(fā)的部分技術(shù)已成功用于無線通訊、電話會議、遠(yuǎn)程協(xié)作、智能音箱、車載等語音通信系統(tǒng)之中。
得過國際IEEE信號處理學(xué)會最佳論文獎,兩次獲得貝爾實驗室模范團(tuán)隊獎,兩次榮獲 NASA技術(shù)創(chuàng)新獎,現(xiàn)已出版專著12部、在信號處理領(lǐng)域的國際著名學(xué)術(shù)刊物和會議上發(fā)表論文近200篇。
沈悅時博士在 Twitch 帶領(lǐng)的研發(fā)團(tuán)隊負(fù)責(zé)Twitch核心視頻技術(shù)的研發(fā),職責(zé)涵蓋直播視頻轉(zhuǎn)碼、ABR播放算法、多平臺播放兼容性、畫面質(zhì)量、時延等。
沈博士同時還是 Alliance of Open media 視頻編碼協(xié)議 AV1 中 SWITCH_FRAME 的發(fā)明者,他發(fā)表、申請超過15項技術(shù)專利。
在加入Twitch之前,沈博士分別就職、服務(wù)于多個數(shù)字電視設(shè)備公司(GD Mediware,Ambarella,Harmonic, Ericsson TV)以及開創(chuàng)云游戲產(chǎn)業(yè)的初創(chuàng)企業(yè)OnLive。在這些公司,他主導(dǎo)、參與開發(fā)多個廣泛應(yīng)用的H.264編碼、轉(zhuǎn)碼、非線性編輯和實時廣告插播產(chǎn)品,以及在公共互聯(lián)網(wǎng)上超低時延視頻傳輸?shù)脑朴螒蚝诵募夹g(shù)。
北京大學(xué)信息科學(xué)技術(shù)學(xué)院教授, 2005年博士畢業(yè)于中國科學(xué)院計算技術(shù)研究所。2005年至2007年在美國南加州大學(xué)攻讀博士后,之后到北大工作至今。主要研究方向為視頻編碼及處理,已發(fā)表論文200余篇,已獲授權(quán)發(fā)明專利40多項。擔(dān)任IEEE Transactions on Circuits and System for Video Technolgoy(TCSVT)、Journal of Visual Communication and Representation(JVCIR)期刊編委(AE)、中國圖象圖形學(xué)學(xué)會理事、AVS視頻組聯(lián)合組長等。自2002年起,陸續(xù)參與組織AVS1、AVS+、AVS2一系列國家標(biāo)準(zhǔn)的制定,曾獲國家技術(shù)發(fā)明獎二等獎、國家科學(xué)技術(shù)進(jìn)步獎二等獎等獎勵。
潘興德博士,北京郵電大學(xué)博士,全景聲科技&天籟K歌創(chuàng)始人,AVS音頻組、測試組 聯(lián)合組長。長期從事音頻編解碼技術(shù)、聲場技術(shù)和音效技術(shù)的研究和應(yīng)用。主持或參與了EVD、AVS和IEEE P1857等標(biāo)準(zhǔn)的制定工作,在音頻技術(shù)領(lǐng)域申請了近百項發(fā)明專利,并被各項音頻技術(shù)標(biāo)準(zhǔn)廣泛采用。
目前,全景聲科技的中國全景聲技術(shù)(WANOS)已經(jīng)作為全球二套全景聲技術(shù)標(biāo)準(zhǔn),在電影制作和發(fā)行放映獲得廣泛應(yīng)用,并已逐步進(jìn)入OTT電視等網(wǎng)絡(luò)應(yīng)用領(lǐng)域。除了AVS音頻組聯(lián)合組長、測試組聯(lián)合組長,現(xiàn)在還兼任 IEEE VR 音頻標(biāo)準(zhǔn)召集人、IEEE、AES、電子學(xué)會和聲學(xué)學(xué)會員等職位。
陳誠本科畢業(yè)于清華大學(xué)自動化系,后在美國愛荷華大學(xué)獲得博士學(xué)位,現(xiàn)就職于谷歌,隸屬于視頻壓縮核心算法組,從事VP9與AV1視頻壓縮標(biāo)準(zhǔn)的研發(fā)和軟件開發(fā), 主要貢獻(xiàn)包括AV1標(biāo)準(zhǔn)中去方塊濾波器的擴(kuò)展,基于相對距離的幀間運(yùn)動補(bǔ)償預(yù)測方法,VP9/AV1編碼優(yōu)化,等。除視頻壓縮技術(shù)外,研究興趣還包括圖像壓縮,機(jī)器學(xué)習(xí)算法及其在圖像和視頻領(lǐng)域的應(yīng)用。
Zoe Liu(劉宇新)是 Visionular (微幀科技)的聯(lián)合創(chuàng)始人、董事長兼首席科學(xué)家。
在此之前的5年,Zoe 曾任 Google Chrome Media 團(tuán)隊軟件工程師一職,并作為開源視頻編解碼標(biāo)準(zhǔn) AOM/AV1 的核心成員參與研發(fā)與標(biāo)準(zhǔn)制定。
她在清華大學(xué)獲得了學(xué)士、碩士與博士學(xué)位,并在美國普度大學(xué)獲得了第二個博士學(xué)位。
不論作為主要貢獻(xiàn)者還是技術(shù)負(fù)責(zé)人,Zoe 在多個音視頻產(chǎn)品的設(shè)計與研發(fā)工作中都有突出貢獻(xiàn),包括蘋果 FaceTime、Tango 視頻電話、Google Glass 視頻電話等。Zoe 還在多個著名研究實驗室有多年的創(chuàng)新研究經(jīng)驗,包括貝爾實驗室、諾基亞研究中心、太陽微處理器中心實驗室、惠普實驗室等。
Daniel C. Burnett在計算機(jī)標(biāo)準(zhǔn)領(lǐng)域已經(jīng)工作了十年有余,作為PeerConnection和getUserMedia W3C WEBRTC規(guī)范的編輯者,以及國際互聯(lián)網(wǎng)工程任務(wù)組(IETF)的參與者,Daniel從一開始便投身于這個激動人心的新領(lǐng)域中。他所編寫的W3C標(biāo)準(zhǔn)目前廣泛應(yīng)用于大部分自動交互式語音應(yīng)答(IVR)系統(tǒng)之中。 由于其在自動語音識別領(lǐng)域標(biāo)準(zhǔn)上的卓越貢獻(xiàn),Daniel曾兩度榮獲在業(yè)界久負(fù)盛名的“語音杰出人物獎”(由《語音技術(shù)雜志》(Speech Tech Magazine頒發(fā))。
Huib現(xiàn)任職Google產(chǎn)品經(jīng)理,在瀏覽器行業(yè)有著豐富經(jīng)驗,目前帶領(lǐng)團(tuán)隊從事 Chrome 中 WebRTC 1.0 的研發(fā)工作。在加入Google之前,他一直在Opera領(lǐng)導(dǎo)工程師團(tuán)隊。他為瀏覽器體驗創(chuàng)新做出了巨大貢獻(xiàn),并與工程師團(tuán)隊在Opera中集成了WebRTC。在瑞典,Huib與Google 的其它工程師一同進(jìn)行WebRTC項目的研發(fā)工作。曾在Philips研究院共同參與發(fā)明了多項專利,比如因蘋果手機(jī)而流行的多點(diǎn)觸控。
掌握 RTC 技術(shù)標(biāo)準(zhǔn)未來動向,從這里開始