電影《Her》中,主人公西奧多剛結(jié)束一場失敗的婚姻,一次偶然的機(jī)會,他接觸到了搭載了人工智能系統(tǒng)的虛擬化身“薩曼莎”。薩曼莎擁有迷人的、磁性的聲線,時而風(fēng)趣幽默、時而溫柔體貼,與我們實(shí)際生活中聽到的許多機(jī)器人頓字、頓句的發(fā)音相去甚遠(yuǎn),他愛上了這個聲音。
電影《Her》預(yù)告片
雖然這個虛構(gòu)出來的角色是由演員配音完成的,但卻透露出一個真實(shí)的訊息——越接近真人說話水準(zhǔn)和富有情感表現(xiàn)力的聲音,越容易為大眾所接受。
利用聲音“粘性”為產(chǎn)品打造專屬形象
讓機(jī)器擺脫平鋪直敘的發(fā)聲,帶來更加舒適自然的聽覺體驗(yàn),這也是當(dāng)前語音合成技術(shù)的發(fā)展方向。憑借十多年深厚的技術(shù)積累及行業(yè)應(yīng)用,捷通華聲打造出具有劃時代意義的靈云情感語音合成技術(shù),能夠合成出帶有語氣、情緒等情感豐富、更接近真人的聲音,可通過“云+端”的形式讓每一家企業(yè)都能輕松擁有更動聽、更富感情的語音合成服務(wù)。
在語音合成需求市場,不同品牌、公司及服務(wù)商會根據(jù)自身不同的場景和產(chǎn)品特點(diǎn)采用不同的聲音,例如銀行的智能客服需要嗓音甜美、溫柔動人的聲音,而催收公司則需要措辭懇切、略顯嚴(yán)厲的聲音。語音合成的個性化以及情感化成為如今市場的迫切需求。
為了打造優(yōu)質(zhì)的語音,讓用戶喜歡從而形成對聲音的“粘性”,捷通華聲采用最新采用的深度學(xué)習(xí)技術(shù)建模,連同高音質(zhì)聲碼器,產(chǎn)出個性細(xì)節(jié)豐富的聲線效果,語氣感真實(shí)。情感語音合成技術(shù)采用高度自動化的數(shù)據(jù)加工標(biāo)注,用戶只需提供自己喜愛的錄音,即可快速定制出音庫。
同時,捷通華聲十多年來積累了大量的領(lǐng)域詞庫、預(yù)選音庫,可為金融證券、天氣預(yù)報、體育賽事、公交汽運(yùn)、航空、稅務(wù)、POI、排隊叫號等眾多領(lǐng)域提供更專業(yè)的語音合成播報,客戶能夠快速、輕松定制與自己產(chǎn)品屬性、形象相匹配的聲音,為產(chǎn)品賦能。
聲情并茂全新技術(shù)業(yè)內(nèi)領(lǐng)先
傳統(tǒng)語料數(shù)據(jù)處理方式為手工精標(biāo),需要耗費(fèi)大量人力,捷通華聲采用先進(jìn)的人工智能技術(shù),通過計算機(jī)程序進(jìn)行預(yù)處理,之后再由人工進(jìn)行校正,大大提高了工作效率。在核心技術(shù)方面,捷通華聲也達(dá)到了業(yè)內(nèi)領(lǐng)先水平:
聲學(xué)模型訓(xùn)練方面:高魯棒性預(yù)處理和建模框架,降低了以往對錄音風(fēng)格和穩(wěn)定性的嚴(yán)格約束,普通人自然講話、刻意帶情緒講話、角色模仿講話,均可訓(xùn)練出保真、穩(wěn)定的效果。
語音合成效果方面:靈云情感語音合成技術(shù)已經(jīng)發(fā)布多樣、個性的音色庫:童聲既有夸張俏皮的卡通配音,也有真實(shí)小孩的呆萌學(xué)語;女聲既有林志玲般的嗲音氣語,也有丹氣十足的磅礴宣讀;男聲既有新聞主播型的正氣播報,也有網(wǎng)絡(luò)主播型的地氣貧嘴,為各種應(yīng)用場景提供合適的聲音。
多語種合成方面:靈云語音合成技術(shù)已全面支持中文普通話、粵語、維吾爾語、英語、日語、德語、法語等21種語言。完備的用戶自定義體系,可彌補(bǔ)基礎(chǔ)合成的不足,保證合成效果穩(wěn)定在高水準(zhǔn);中文腔調(diào)讀英文的自定義詞表,保證中英文混雜時的無縫自然過渡。
十多年深耕技術(shù)引領(lǐng)行業(yè)變革
十多年來,捷通華聲一直專注技術(shù)研發(fā)與創(chuàng)新,依靠國內(nèi)領(lǐng)先的靈云語音合成技術(shù),在國內(nèi)智能語音市場占有率超50%:
早在2001年,捷通華聲便推出代表國際領(lǐng)先水平的jTTS世紀(jì)版。隨后,捷通華聲成為建行、農(nóng)行的唯一語音合成供應(yīng)商,全國99%的高鐵站也均采用靈云語音合成播報。同時捷通華聲成功服務(wù)北京奧運(yùn)會,上海世博會也采用靈云語音合成技術(shù)播報賽事。到2016年,捷通華聲已成功為上千家企業(yè)提供語音合成技術(shù)。
讓聲音自然,富有情感和表現(xiàn)力,一直是語音合成技術(shù)的一大難點(diǎn)。如今,捷通華聲正在利用全新推出的靈云情感語音合成技術(shù),為金融、電信、能源、交通、政府、醫(yī)療、互聯(lián)網(wǎng)等上千家企業(yè)提供更加優(yōu)質(zhì)的服務(wù),全新體驗(yàn)的語音合成產(chǎn)品引發(fā)了巨大變革。
不論是智能客服、地圖導(dǎo)航、機(jī)場廣播的甜美女聲,還是新聞播報、聽書朗讀的清爽男聲,智能家電、機(jī)器人的可愛童聲,靈云情感語音合成技術(shù)都能讓有各種需求的企業(yè)快速擁有更具競爭力的產(chǎn)品,讓社會大眾能夠體驗(yàn)到富具情感、更聲情并茂的聽覺體驗(yàn)。
在核心技術(shù)升級的同時,捷通華聲也努力打造出更加穩(wěn)定、便捷應(yīng)用的私有云能力平臺以及公有云開放平臺,從而形成了從底層數(shù)據(jù)、到核心技術(shù),再到服務(wù)應(yīng)用的三層業(yè)務(wù)結(jié)構(gòu),極大地滿足了合作伙伴多方位的需求,方便企業(yè)用戶實(shí)現(xiàn)快速無縫化的產(chǎn)品演進(jìn)。