云計算、大數(shù)據(jù)、移動互聯(lián)網(wǎng)、人機交互……短短一兩年時間內(nèi),IT產(chǎn)業(yè)像經(jīng)歷了一場大洗牌,創(chuàng)新一詞已顯老舊,跨界、顛覆成為流行詞。國內(nèi)以BAT為代表的傳統(tǒng)互聯(lián)網(wǎng)巨頭開始猛攻移動互聯(lián)網(wǎng),并購、兼并層出不窮,相互疆域犬牙交錯,進攻防守猶如一場“軍閥混戰(zhàn)”。電子市場的重心也迅速由PC端迅速轉(zhuǎn)移到智能移動終端,移動互聯(lián)網(wǎng)已成兵家必爭之地。如此讓產(chǎn)業(yè)興奮又讓產(chǎn)業(yè)顫抖的時代,智能人機交互(HCI)技術也終于迎來了有史以來最好的階段,而該HCI領域中的語音交互技術則迎來競爭最激烈的發(fā)展時期!
縱觀國內(nèi)外移動互聯(lián)網(wǎng)發(fā)展態(tài)勢,各項炒得火熱的技術中,大數(shù)據(jù)、智能人機交互技術(簡稱HCI)并列前茅!從蘋果Siri的語音交互技術到谷歌眼鏡的圖像識別技術,從智能手機大戰(zhàn)延伸至智能電視,無一不在說明在移動互聯(lián)網(wǎng)時代,IT整個行業(yè)都在發(fā)生由量到“智”的聚變,語音交互、圖像識別、語義理解、生物識別。。。。HCI技術風靡全球!
兩年前,蘋果的Siri一鳴驚人,帶動智能語音產(chǎn)業(yè)進入發(fā)展最快的時期。十幾年來一直控制國內(nèi)中文語音合成技術市場的捷通華聲、科大訊飛發(fā)力語音識別技術;百度、搜狗、騰訊為守住入口,憑借天然優(yōu)勢,重金砸出最高水平的語音識別技術;中科信利、云知聲等老牌、新秀語音企業(yè),迎來難得發(fā)展機遇期。國內(nèi)語音識別技術力量集體爆發(fā),讓美國本來在語音識別技術上領先的Nuance、Google、微軟風光不在,語音識別技術群雄割據(jù)的時代已然來臨,鹿死誰手好像尚不得而知。
語音識別、合成雙劍合璧,智能語音展露鋒芒
其實語音識別這個技術很早就有,雖然并不成熟。上世紀90年代末,IBM推出的“Viavoice”就號稱能“解放雙手”,幫助讓人們實現(xiàn)文字錄入語音化。然而,伴隨全民漢字輸入能力的提高,“Viavoice”因語音識別率不高,加上口音、噪音的影響,黯然離場。
近年來,互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的迅猛發(fā)展,帶動大數(shù)據(jù)量的形成;國內(nèi)外潛心研究的一代代科學家攻克了無數(shù)技術上的難題,大數(shù)據(jù)又為其提供了豐富的訓練語料;開源技術更是促進了技術跨越國境的交流共享,大大降低語音識別技術門檻;智能移動終端功能、性能的超常規(guī)提升,為對硬件環(huán)境要求高的語音識別技術創(chuàng)造了“運轉(zhuǎn)”的硬件環(huán)境;所有的變化匯集一處,讓人們夢寐以求的“自由說”語音識別技術成為現(xiàn)實。
如果說語音識別技術是“說”,那么語音合成技術就是“聽”,“能說會聽”形成了語音交互—智能語音的完整概念。也許是巧合,語音交互技術的發(fā)展,如同人都是“先學會聽,才學會說”的進步過程,語音合成早在十年前就完成了商品化進程,人們也早已經(jīng)生活在語音合成—“機器說話”服務無處不在世界里;
應該說,蘋果的Siri的適時出現(xiàn),為智能語音產(chǎn)業(yè)發(fā)展做出了巨大貢獻,其貢獻在于打開了智能語音應用市場的暢想“天窗”;雖然,當CNN公布Siri的配音者是演技派“大媽”時,導致“調(diào)戲”過Siri的眾網(wǎng)友“淚流滿面”,卻也讓大眾全方位感受到智能語音交互的魅力與力量。正如同兩把利劍,語音識別技術的進步,使得語音合成、識別雙劍合璧,為產(chǎn)業(yè)、大眾打開了智能語音服務的新世界。也讓越來越多的設備、軟件廠商看到了智能語音應用的廣闊前景,智能語音交互技術終于在移動互聯(lián)網(wǎng)時代展露鋒芒。
2013年,互聯(lián)網(wǎng)搜索巨頭百度,盡管已擁有了最先進語音識別技術,但正是深刻理解把握了智能語音應用的真諦,果斷投資捷通華聲,在其發(fā)展移動互聯(lián)網(wǎng)進程中以最快的速度擺脫智能語音曾經(jīng)的束縛,放手在移動互聯(lián)網(wǎng)天地開疆破土,攻城拔寨!
捷通華聲靈云演繹完美智能語音 人機交互前景明朗
中國智能語音的產(chǎn)業(yè)化進程起步于世紀之初,捷通華聲、科大訊飛、Nuance一直是中國最主要的語音技術供應商。十幾年來,不同于喜歡“高打高唱”的科大訊飛,也不同于“習慣驕傲”的Nuance,由清華大學畢業(yè)的幾位同學創(chuàng)辦的捷通華聲似擁有“清華遺風”,一直保持務實低調(diào)的風格。盡管捷通華聲公司因過于低調(diào)不為大眾所詳知,但捷通華聲的語音技術務實卻從不“低調(diào)”,十幾年的專注與技術積累,讓捷通華聲語音合成技術可謂“爐火純青”,語音播報服務從縱貫中國的高鐵到各大飛機場;從各個醫(yī)院語音叫號到各地長途汽車站;從各大銀行聲訊服務到各領域企業(yè)呼叫服務中心。。。。。自2000年到今天,捷通之聲已“高調(diào)”服務中國十三億大眾十三年之久。
這兩年來,語音界老牌新秀企業(yè)、國內(nèi)國外企業(yè)、跨界巨頭集體猛攻語音識別,一時間智能語音概念鋪天蓋地,語音產(chǎn)業(yè)則風起云涌,捷通華聲表面不為所動,而是以“老虎打盹你以為我是病貓”的沉著與強大實力,悄然在2011年,推出全球第一個全方位智能人機交互能力云服務平臺—靈云(hcicloud.com),從HCI產(chǎn)業(yè)高度,將語音云服務等各種單一HCI技術能力云服務輕松納入靈云體系。
靈云-hcicloud已從一個簡單域名概述了靈云的設計與發(fā)展理念。靈云的構(gòu)建不再局限于語音云服務等某一單一HCI技術,而是一種可以用語音、手寫、拍照,手勢,將來甚至腦波識別等智能手段來操作、感知手機、計算機等數(shù)字設備的網(wǎng)絡云服務。捷通華聲期望從更寬廣的角度促進HCI技術產(chǎn)業(yè)發(fā)展,從更完整的視野推動智能語音的服務與產(chǎn)業(yè)應用。智能語音交互是最重要的人機交互手段,但正如同每一個人與其他人溝通,都不是只是靠說話完成交流,文字書寫、圖像、情感表達都是交流的組成部分,伴隨HCI技術的全面發(fā)展,人們會根據(jù)場景的變化去選擇最合適的HCI技術實現(xiàn)人與機器的自然交流。
其實,捷通華聲“低調(diào)“的本質(zhì)是尊重合作伙伴,捷通華聲多年來始終堅持讓合作伙伴的產(chǎn)品出名而從不“喧賓奪主”,靈云則承繼這一傳統(tǒng)并將這一理念通過與合作伙伴的技術融合推向更加完美的境界。百度語音識別與靈云語音合成完美結(jié)合,助力百度地圖、百度導航掀起導航革命;搜狗語音識別與靈云語音合成更是精心設計,支持搜狗地圖在導航領域獨占一方霸主地位;獨樹一幟與擁有獨特發(fā)展理念的導航犬,全面應用靈云語音識別、語音合成、語義理解、語音喚醒等功能,雙方開發(fā)團隊如同一個企業(yè),日夜奮戰(zhàn)在一起,為數(shù)以千萬的用戶推出一項項精心設計的導航犬經(jīng)典服務。
靈云如同天空之云,靜悄悄融入中國IT產(chǎn)業(yè)的生態(tài)環(huán)境,“低調(diào)”完美演繹智能語音等HCI技術能力服務,“高調(diào)”為所有合作企業(yè)的經(jīng)典產(chǎn)品與市場進步而喝彩!
闡述智能語音概念,靈云首創(chuàng)“云+端”人機交互服務模式
站在產(chǎn)業(yè)中企業(yè)的角度,每個企業(yè)的設備不同、性能不同、應用網(wǎng)絡環(huán)境不同,應用HCI技術創(chuàng)新“智”造過程中,如有更多的選擇,就能更好的滿足大眾用戶;站在用戶的角度,每個人都希望全面享受智能語音等HCI技術最好的服務,卻不希望受到網(wǎng)絡環(huán)境等因素及付出“高昂”費用。為順應并滿足企業(yè)與用戶需求,靈云“舍棄”云端服務可以獲取所謂寶貴數(shù)據(jù)資源與用戶資源等利益,率先推出靈云“云+端”服務模式。合作企業(yè)可根據(jù)設備與應用網(wǎng)絡環(huán)境自由選擇或讓用戶自由選擇,保證每一個產(chǎn)品都有與眾不同的特色,從而讓數(shù)以億記的大眾輕松享受智能語音等HCI技術能力的服務。
智能語音很熱,應用也很廣,靈云憑借捷通華聲十幾年的功底,語音合成“端”播放已輕松自然,并可讓合作伙伴選擇適合與自身應用的多種聲音;而語音識別因其對硬件資源的特殊要求,實現(xiàn)“端”識別對技術提出更高的要求,靈云離線式“端”識別以識別率高,定制簡單等多種方式,與靈云語音合成一起為用戶提供完整的智能語音“云+端”服務。
智能語音的目標是完成完整的語音交互,針對不同的噪音環(huán)境,其實還需要一項技術來讓機器更好“讀懂”用戶的意圖,確保語音識別率。這個技術就是語義理解,靈云語義理解可對輸入語音的語義進行分析,保證識別率的同時,也確保語音合成播報使用者需要獲得的準確信息。捷通華聲靈云在此基礎上,近期又推出“語音喚醒”功能,并成功應用于各種APP,導航犬應用靈云智能語音各項技術,可以在終端待機狀態(tài)瞬間喚醒導航軟件,并且以智能自然發(fā)聲應答用戶提問,全程無需保持開機狀態(tài),各種環(huán)境下語音識別精度達到96%以上,旅途中的用戶與開車中的司機想去什么地方動動嘴就行,輕松省心又方便。
靈云“云+端”自推出以來,迅速為產(chǎn)業(yè)所接納,不僅在導航領域,百度語音助手、搜狗語音助手、聚熵360、南京米果、蟲洞語音助手等系列語音助手軟件;天行輸入法、百度輸入法、觸寶輸入法、也包括“漢字英雄”、漢字書寫大賽更是將智能語音、智能圖象“云+端”及其合作模式,超乎想象地完美應用,服務智能手機用戶已達數(shù)億之眾。
靈云愿景支持企業(yè)共同服務億萬大眾,HCI回歸純樸自然
智能人機交互技術(HCI)幫助人們更方便地與機器進行交流,包括語音交互、圖像識別、生物識別等,幾十年來,因HCI技術的難度大,一直呈現(xiàn)螺旋式進步發(fā)展趨勢;但大眾對方便、高效的追求與渴望,及在凡事都要快的移動互聯(lián)網(wǎng)時代成為推動HCI技術進步的巨大力量。
移動互聯(lián)網(wǎng)時代,智能語音、智能圖像、智能客服、包括生物識別等技術產(chǎn)業(yè)蓬勃發(fā)展,而推動HCI技術迎來發(fā)展的巨大機遇的真正力量依然是來自IT產(chǎn)業(yè)發(fā)展與全社會的進步。如今,智能語音概念如日中天,其中語音識別的各種“互聯(lián)網(wǎng)入口說、關卡壁壘說、大數(shù)據(jù)說、資本說”等各種說法風靡IT產(chǎn)業(yè)。冷靜地想:如果語音識別是互聯(lián)網(wǎng)入口,那么手寫識別、拼音錄入是不是入口?如果說語音識別技術高不可攀,那么百度、騰訊、搜狗等十幾家非專業(yè)語音公司1-2年“輕松”拿下語音識別技術,哪里還有什么技術壁壘?如果說資本市場會爆發(fā),美國Nuance公司十幾年兼并了幾乎除中國企業(yè)外所有的語音技術公司,擁有幾乎全世界所有國家的多語種智能語音交互技術,資本說在納斯達克也跟著期盼了快二十年!如果說那家聲音數(shù)據(jù)采集多,那么誰家的語音數(shù)據(jù)又能夠超過騰訊的微信、三大運營商的語音數(shù)據(jù)?
其實不管怎么說,智能語音還應增加一個概念就是“工具說”,因為無論什么時候,智能語音最主要的核心功能還是一個聲音錄入與輸出的工具。無論今天還是未來發(fā)展,就像生活中沒有任何一種力量不讓大家說話交流一樣,智能語音在充分滿足了大眾的好奇之后,依然會象無數(shù)為語音技術發(fā)展進步做出巨大貢獻的科學家、學者、工程師一樣,安心提高語音識別準確率、語音合成自然度,回歸到自然與純樸。
相信未來發(fā)展,HCI技術依然會呈現(xiàn)螺旋式進步趨勢,無論智能語音、還是智能圖像,只有更好,沒有最好!合作共贏將成為HCI產(chǎn)業(yè)融入中國乃至世界IT產(chǎn)業(yè)的主旋律。捷通華聲靈云已開始為產(chǎn)業(yè)界提供語音識別、語音合成、手寫識別、OCR、語義理解、機器翻譯等多項HCI技術能力。未來發(fā)展中,靈云將在發(fā)揮自身多項HCI技術優(yōu)勢的基礎上,不斷與學術界、產(chǎn)業(yè)界合作,推出更多的HCI技術能力,靈云的目標永遠是助力中國信息產(chǎn)業(yè),讓人機交互像人與人溝通一樣的簡單自然,一起智創(chuàng)中國夢,慧及全球心!