憑借十多年深厚的技術(shù)積累及行業(yè)應(yīng)用,捷通華聲打造出具有劃時(shí)代意義的靈云情感語音合成技術(shù),能夠合成出帶有語氣、情緒等情感豐富、更接近真人的聲音,并可通過“云+端”的形式讓每一家企業(yè)都能輕松擁有更動(dòng)聽、更富感情的語音合成服務(wù)。
為了賦予聲音更多的表現(xiàn)力和個(gè)性化,讓新一代合成技術(shù)適配到各種非標(biāo)準(zhǔn)化的場(chǎng)景中,提升用戶對(duì)企業(yè)專屬聲音的“粘性”,捷通華聲基于深度學(xué)習(xí)技術(shù)潛心研發(fā),實(shí)現(xiàn)了合成效果的全面提升,音色細(xì)節(jié)高保真、情感真實(shí)豐富,流暢度平順穩(wěn)定,頓挫的頑疾徹底根治,并廣泛采用GAN(生成對(duì)抗網(wǎng)絡(luò))來訓(xùn)練模型,提高音質(zhì)的擬人度。
全面升級(jí)打造極致聲音體驗(yàn)
在語音合成需求市場(chǎng),不同企業(yè)會(huì)根據(jù)自身不同的場(chǎng)景和產(chǎn)品特點(diǎn)采用不同的聲音,例如銀行的智能客服需要嗓音甜美、溫柔動(dòng)人的聲音,而催收公司則需要措辭懇切、略顯嚴(yán)厲的聲音。語音合成的情感化、個(gè)性化成為如今市場(chǎng)的迫切需求。
全新升級(jí)的靈云情感語音合成技術(shù)在發(fā)音效果上顯著提升,吐字更清晰、順暢,緩解合成中的刺耳雜音,音質(zhì)更加扎實(shí)、明亮,在一些細(xì)節(jié)及專業(yè)領(lǐng)域的發(fā)音上也進(jìn)行了優(yōu)化,例如:標(biāo)點(diǎn)的韻律停頓更接近真人;金額、日期等數(shù)字發(fā)音效果更加自然;“年月日元”、“百分之”、“點(diǎn)”等分詞朗讀時(shí)的發(fā)音也更加順暢;在對(duì)標(biāo)注為人名的詞可直接按姓氏讀音,提高了技術(shù)使用便捷性。
在合成音色的情感化、個(gè)性化更加明顯,靈云情感語音合成技術(shù)采用高魯棒性預(yù)處理和建模框架,降低了以往對(duì)錄音風(fēng)格和穩(wěn)定性的嚴(yán)格約束,普通人自然講話、刻意帶情緒講話、角色模仿講話,均可訓(xùn)練出保真、穩(wěn)定的效果。除了提供男聲、女聲、童聲等基礎(chǔ)音色庫(kù)外,還有更多個(gè)性化、飽含情感的音色,包括柔美動(dòng)聽、干凈利落、甜美可愛、純真自然、成熟穩(wěn)重、熱情洋溢、措辭嚴(yán)厲等等,可為各種應(yīng)用場(chǎng)景提供合適的聲音,全面滿足企業(yè)個(gè)性化需求。
面對(duì)專業(yè)領(lǐng)域的合成需求時(shí),新一代合成技術(shù)也進(jìn)行了優(yōu)化,例如:面對(duì)導(dǎo)航類的合成時(shí),遇到“從XX到XX”這類句式中的長(zhǎng)地址,會(huì)分段停頓播報(bào)(如“北京市/海淀區(qū)/中關(guān)村軟件園/2號(hào)樓”)。
同時(shí),捷通華聲十多年來積累了大量的領(lǐng)域詞庫(kù)、預(yù)選音庫(kù),可為金融證券、天氣預(yù)報(bào)、體育賽事、公交汽運(yùn)、航空、稅務(wù)、POI、排隊(duì)叫號(hào)等眾多領(lǐng)域提供更專業(yè)的語音合成播報(bào),客戶能夠快速、輕松定制與自己產(chǎn)品屬性、形象相匹配的聲音,為產(chǎn)品賦能。
針對(duì)不同企業(yè)的特殊需求,捷通華聲也支持音庫(kù)的個(gè)性化定制。傳統(tǒng)語料數(shù)據(jù)處理方式為手工精標(biāo),既費(fèi)時(shí)又費(fèi)力,捷通華聲采用先進(jìn)的人工智能技術(shù),實(shí)現(xiàn)高度自動(dòng)化的數(shù)據(jù)加工標(biāo)注,并擁有專業(yè)的數(shù)據(jù)定制團(tuán)隊(duì),企業(yè)只需提供自己需求的音色錄音,即可快速定制出音庫(kù)。
專注AI技術(shù)研發(fā)引領(lǐng)行業(yè)變革
十多年來,捷通華聲一直專注技術(shù)研發(fā)與創(chuàng)新,依靠國(guó)內(nèi)領(lǐng)先的靈云語音合成技術(shù),在國(guó)內(nèi)智能語音市場(chǎng)占有率超50%:
早在2001年,捷通華聲便推出代表國(guó)際領(lǐng)先水平的jTTS世紀(jì)版。隨后,捷通華聲成為建行、農(nóng)行的唯一語音合成供應(yīng)商,全國(guó)99%的高鐵站也均采用靈云語音合成播報(bào)。同時(shí)捷通華聲成功服務(wù)北京奧運(yùn)會(huì),上海世博會(huì)也采用靈云語音合成技術(shù)播報(bào)賽事。到2016年,捷通華聲已成功為上千家企業(yè)提供語音合成技術(shù)。
讓聲音自然,富有情感和表現(xiàn)力,一直是語音合成技術(shù)的一大難點(diǎn)。如今,靈云語音合成技術(shù)已全面支持中文普通話、粵語、維吾爾語、英語、日語、德語、法語等幾十種語言。捷通華聲正在利用全新推出的靈云情感語音合成技術(shù),為金融、電信、能源、交通、政府、醫(yī)療、互聯(lián)網(wǎng)等上千家企業(yè)提供更加優(yōu)質(zhì)的服務(wù),全新體驗(yàn)的語音合成產(chǎn)品引發(fā)了巨大變革。
不論是智能客服、地圖導(dǎo)航、機(jī)場(chǎng)廣播的甜美女聲,還是新聞播報(bào)、聽書朗讀的清爽男聲,智能家電、機(jī)器人的可愛童聲,靈云情感語音合成技術(shù)都能讓有各種需求的企業(yè)快速擁有更具競(jìng)爭(zhēng)力的產(chǎn)品,讓社會(huì)大眾能夠體驗(yàn)到富具情感、更聲情并茂的聽覺體驗(yàn),為企業(yè)打造專屬“聲音”形象。