中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

標(biāo)貝科技:“聲音復(fù)刻”的黑科技,有它逃不開的靈魂拷問

2020-05-07 09:12:45   作者:黃臻曜   來源:36kr   評論:0  點擊:


標(biāo)貝科技聯(lián)合創(chuàng)始人兼CTO
  語音交互以假亂真,已是顯性訴求
  疫情期間,整個智能語音行業(yè)的表現(xiàn)算是比較好的,語音解決了很多非接觸(手動)人機交互的應(yīng)用場景。比如聲控電梯、心理診斷問答資訊、疫情防護宣傳制作、商業(yè)街區(qū)寫字樓語音動態(tài)播報等。
  像新出現(xiàn)的場景“非接觸的語音控制電梯”,和我們之前一直在使用的智能家居里的芯片組或者算法基本一致,將它們和電梯的控制按鈕集成后就能應(yīng)用,難度不大。所以在疫情的催化下,只是需求量變多了,原來不用這些產(chǎn)品或者技術(shù)的公司開始考慮用到這些技術(shù),以及增加了少量新的場景,但在應(yīng)用難度上并沒有太大的挑戰(zhàn)。
  但此次疫情讓人們看到了智能語音的市場空間、應(yīng)用場景和巨大的市場價值,推進了語音技術(shù)與應(yīng)用場景結(jié)合:
  1、市場教育:以前習(xí)慣用手動操作,基于疫情期間,自身防護健康等角度出發(fā),發(fā)現(xiàn)語音也是一個很簡單的交互體驗。
  2、廣泛應(yīng)用:疫情期間創(chuàng)造了很多強語音技術(shù)結(jié)合的場景。例如每天有大量疫情動態(tài)及防控等信息的通訊需求,通過語音合成技術(shù),可以快速、規(guī)模化的將文本轉(zhuǎn)為語音收取資訊,這部分的用戶數(shù)據(jù)增長能達到10倍、甚至幾十倍,我們也看到聲控電梯、外部監(jiān)測體感語音報警場景大量出現(xiàn)。
  3、技術(shù)發(fā)展呈現(xiàn)多樣融合的趨勢。智能語音解決“聽、說、懂”的問題,但應(yīng)對疫情防護,不可能是單純的語音層面產(chǎn)品形態(tài),而是配合圖像視覺、人臉識別、紅外體感等技術(shù),來打造針對疫情一線的綜合防護與檢測產(chǎn)品。比如大屏體溫檢測、醫(yī)療機器人送藥問診查詢等應(yīng)用。
  這次疫情,對于很多公司來說也是一次考驗。有成熟的技術(shù)和解決方案的公司,就能夠快速落地,取得一些優(yōu)勢。
  以語音交互領(lǐng)域為例,目前語音合成技術(shù)和語音識別技術(shù),相對來說具有較高的成熟度,而語義理解相對來說還比較薄弱。我認(rèn)為,接下來行業(yè)對語音的探索不單會停留在“可用”上,還會考慮給用戶帶來更好的體驗。聲音在交互的時候,如何能給人帶來更自然、貼心、溫度,并達到以假亂真的體驗,這已經(jīng)從一個潛在的訴求變成一個顯性的訴求。
  “聲音復(fù)刻”是痛點還是癢點?
  在疫情期間,我們看到出現(xiàn)了幾種情況:1、很多家長和孩子,因為疫情無法上班、上學(xué),也無法外出,居家的時間大幅增長,陪伴輔導(dǎo)孩子的任務(wù)驟增;2、有些家長由于支持抗疫或者受疫情影響無法返家,造成春節(jié)假期也無法團聚,相互思念;3、有些疫情嚴(yán)重地區(qū),出現(xiàn)感染新冠肺炎的患者死亡的現(xiàn)象,為自己或者自己的親人留下更多的記憶,也變成了一種生死離別下的重要訴求。
  我們觀察到上述的情況后升級了我們之前的產(chǎn)品“標(biāo)貝留聲機”,它能夠復(fù)刻父母聲音,給孩子講故事,這在家長圈里引起了廣泛注意,聲音復(fù)刻的數(shù)量增長了500%以上,1-4月份留聲機的用戶使用數(shù)據(jù)增長了200%。我們之前就有“聲音銀行”的概念,用戶可以把聲音存儲在我們的云端系統(tǒng)上,就像在銀行存錢一樣。需要的時候,就可以應(yīng)用這個聲音,生成自己想要的內(nèi)容。
貝克錄音棚
  在智能語音領(lǐng)域,留聲機產(chǎn)品是一個新的技術(shù)應(yīng)用,核心技術(shù)是如何利用少量的數(shù)據(jù),實現(xiàn)一個高相似度的聲音模型。大家可能之前看到過科學(xué)家霍金,在失去說話能力之后,可以依靠語音合成技術(shù)說話,覺得不可思議。隨著技術(shù)的進步,這一技術(shù)的應(yīng)用成本在大幅下降,每個人都可以擁有自己的聲音。用戶只需要錄制5分鐘語音內(nèi)容,等待2小時左右即可獲得用自己的聲音想說就說的功能,這在之前其實是很難想象的。我們也在不斷對技術(shù)進行升級,充分利用基于Attention的機制,以及遷移學(xué)習(xí)技術(shù),去提升了聲音復(fù)刻的效果,改善用戶體驗,讓聲音的還原度更高,聽起來更像。但因為數(shù)據(jù)量比較小,如何保證穩(wěn)定輸出是訓(xùn)練這種模型時要面對的挑戰(zhàn)。
  我認(rèn)為,聲音復(fù)刻的需求是存在的,但可能只有很少的人知道現(xiàn)在已經(jīng)有這樣的技術(shù)能夠滿足此類需求,目前技術(shù)的宣傳還遠遠不夠。當(dāng)然,也因為這個技術(shù)出現(xiàn)的時間比較短,語音不僅僅是信息載體,還承載了一個人的很多個人特點,包括音色、語氣、語調(diào)、風(fēng)格等,在技術(shù)上仍需要持續(xù)探索。對一個新的使用場景,也還需要全行業(yè)一起努力去推動它的落地,打造出有一個標(biāo)桿性的產(chǎn)品,為用戶所認(rèn)識和接受,這還需要一定時間,這是一個以點帶面的過程。只有技術(shù)服務(wù)提供的時間周期比較長,才能展現(xiàn)出它的實際價值,現(xiàn)在這個使用場景還處在一個打磨的階段。
  僅僅有聲音還不夠,聲音結(jié)合圖像,會有更為廣闊的空間。近幾年,短視頻的蓬勃發(fā)展,也說明了聲音+圖像的巨大市場。因此,“虛擬人”這樣的產(chǎn)品應(yīng)運而生,它可以覆蓋虛擬主播、虛擬員工、虛擬偶像等各類不同的場景,應(yīng)用于新聞媒體、智能客服、智能銀行、智能城市、泛娛樂應(yīng)用等系統(tǒng)當(dāng)中。
  判斷“留聲機”、“虛擬人”這樣的使用場景是否是剛需,可以從價值創(chuàng)造、及時性、便利性等不同的方面來分析。
  比如,虛擬人如果可以代替部分人工,那會為公司節(jié)約人力成本,創(chuàng)造價值。只要是投入成本低于所節(jié)約的成本,企業(yè)就會樂于投入。比如智能客服為什么能快速發(fā)展,實際上是這些領(lǐng)域的客戶嘗到了甜頭,在使用此類技術(shù)后,企業(yè)可以降低30%或50%的客服人力成本,大大提升整個財務(wù)狀況,那么他就會繼續(xù)擴大在這方面的投入。
  又比如,傳統(tǒng)的新聞播報有時效性,而錄音難以實時滿足,而且成本較高,采用留聲機或者虛擬人技術(shù),就可以隨時低成本地生產(chǎn)內(nèi)容,既滿足了實時性的要求,又降低了成本。
  再比如,短視頻的編輯,變得越來越簡單,但給視頻配上匹配的聲音,往往需要找配音演員,而且對聲音的控制,也涉及到很多專業(yè)的知識。不過我們的技術(shù)現(xiàn)在還很難做到給影視作品配音,等到合成效果達到這個水平,我覺得會有徹底的變化。
虛擬數(shù)字人
  逃不開的靈魂拷問
  目前來看,“留聲機”、“虛擬數(shù)字人”市場認(rèn)知度、成熟度在不斷提升,有些音頻內(nèi)容或者視頻內(nèi)容,已經(jīng)融入了這些新技術(shù)產(chǎn)生的音頻或者視頻。但我覺得目前存在以下幾點挑戰(zhàn),或者說思考的空間,值得全行業(yè)一起去尋找答案:
  1、語音合成是科學(xué)與藝術(shù)的結(jié)合,比如聲音復(fù)刻,一方面需要技術(shù)創(chuàng)新應(yīng)用,怎么讓聲音效果更逼近人聲效果,合成速度快、效果好的問題。另一方面,需要做創(chuàng)新性玩法,打磨出更穩(wěn)定、更個性、更差異化的語音應(yīng)用體驗。后續(xù)需要考慮如何提高情感表達方面的技術(shù),這繞不開“語義理解”這個環(huán)節(jié)的提升。
  2、技術(shù)提供商提供的是核心的技術(shù),每個具體應(yīng)用的領(lǐng)域,都有其特殊性,需要深入了解行業(yè),了解用戶,這需要結(jié)合產(chǎn)品形態(tài)去做各個行業(yè)的探索,針對不同產(chǎn)品提供更好的解決方案,這不是一個復(fù)制粘貼的過程,比如在兒童教育場景,如何利用語音技術(shù),針對不同年齡段開發(fā)功能,如何做到“千人千面,如何能夠持續(xù)良性發(fā)展,如何反哺技術(shù)研發(fā),都需要深入考慮。
  3、商業(yè)化問題需要持續(xù)關(guān)注。如果產(chǎn)品直接ToC,那就要去驗證用戶愿不愿意付費的問題。我覺得實際上對留聲機來說,它最終會是一個ToC的產(chǎn)品。產(chǎn)品涉及到訓(xùn)練模型,提供線上服務(wù),如果用戶沒有付費意愿,那商業(yè)化的問題就比較棘手。如果產(chǎn)品ToB,比如我們會和玩具廠商、家居、汽車等有一些合作,如果此類合作伙伴不能有很好的商業(yè)模式,那么他們購買我們技術(shù)服務(wù)的動力也會很弱。那么對技術(shù)提供商來說,接下來一方面要考慮降低技術(shù)成本,讓它更容易用很小的成本去嘗試去推廣,去驗證它的商業(yè)模式;另一方面,也要幫助合作伙伴收集用戶數(shù)據(jù)去做測試,不斷迭代技術(shù)和產(chǎn)品,讓它在市場端有更好的需求。
  4、技術(shù)的應(yīng)用,有時會面臨技術(shù)有罪與無罪的爭論。我相信大家都很關(guān)心安全風(fēng)險以及監(jiān)管的問題,這是一個風(fēng)險點,但是它可能不會阻礙整個技術(shù)的發(fā)展。只是我們在應(yīng)用技術(shù)的時候要權(quán)衡,是否需要讓聲音保留一些技術(shù)的特征。另外,也需要盡可能提高數(shù)據(jù)的安全性,比如我們開發(fā)了一套完善的賬戶管理體系,將復(fù)刻的聲音或者定制的虛擬人進行授權(quán),使之保留在一個特定的范圍之內(nèi),以盡力保持這個技術(shù)的合法利用。隨著這類場景不斷普及,我認(rèn)為也會陸續(xù)有相關(guān)的指導(dǎo)政策出臺,以最大化降低相關(guān)問題出現(xiàn)的風(fēng)險。如果要詐騙,其實一個真人去打電話,和讓一個虛擬數(shù)字人去打電話,我覺得本質(zhì)上沒有區(qū)別,就像菜刀有人拿去切菜有人拿去砍人。所以如果做了該做的防范,遵守了相關(guān)的法律法規(guī),在這個基礎(chǔ)上保持一個相對開放的心態(tài),可能會利大于弊。我們希望這個技術(shù)能夠達到真人的效果,但當(dāng)它快達到100%的時候又會有恐慌,這個問題非常復(fù)雜,其實很難有完全正確的答案。
  5、理論上,低端、重復(fù)性的工作都可以用機器來代替,但是我們發(fā)現(xiàn)日常生活中還是有很多此類崗位存在。技術(shù)完全替代人,基本上可以認(rèn)為是不可能的。但技術(shù)的發(fā)展在不斷改變技術(shù)替代人的比例,隨著人口老齡化,我們的勞動力越來越少,那么在各個行業(yè)它替代人的占比都會提升,這最終可能會變成一個社會問題。
  目前來看,行業(yè)競爭關(guān)鍵也是考驗語音技術(shù)與配套場景產(chǎn)品結(jié)合,未來一定會有大批玩家進入,不乏BAT這樣的玩家?梢钥隙ǖ氖,隨著大批玩家的涌入,這個市場會愈發(fā)成熟,用戶對新技術(shù)的接受程度會大大提升。當(dāng)一個虛擬人或者智能體說話時能達到和真人一樣的效果,我相信整個行業(yè)會迎來一個爆發(fā)。
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題

CTI論壇會員企業(yè)