在我們看來,“小七”就是一部智能小機(jī)器,可以說話,可以與人交流,當(dāng)然,經(jīng)過電影作者的想象、加工,給它賦予人類的感情,所以也成就了“小七”的輝煌。
“小七”在捷通華聲董事長張連毅先生看來,只是人機(jī)交互技術(shù)HCI功能實(shí)現(xiàn)的一小步,張連毅認(rèn)為:人與機(jī)器的溝通將越來越簡單,讓機(jī)器與人的交流像人與人一樣自然是他的理想。
近日,CTI論壇記者獲得與捷通華聲董事長張連毅先生交流的機(jī)會,將這位HCI技術(shù)應(yīng)用的推動者在HCI領(lǐng)域的理念與夢想與大家分享。
圖:捷通華聲董事長張連毅先生在辦公室接受CTI論壇記者采訪
CTI論壇記者:捷通華聲于12月8日推出全球第一個(gè)全方位人機(jī)交互的感知云--靈云,這與以前捷通華聲經(jīng)常談到的智能人機(jī)交互技術(shù)HCI有哪些傳承與區(qū)別?
張連毅:捷通華聲公司多年來一直致力于智能人機(jī)交互技術(shù)的研究,也就是HCI。其實(shí)HCI技術(shù)投入大、見效慢,只有一些很大的企業(yè),像IBM、微軟、英特爾才能夠獨(dú)立投入,而捷通華聲是民營企業(yè),這么多年堅(jiān)持下來其實(shí)是很不容易的。
靈云的推出,可以說是 “十年磨一劍”,早在1998年底,捷通華聲在公司剛創(chuàng)建時(shí),推出新產(chǎn)品“錄易”,就具備了人機(jī)交互的基本雛形,具備聽、說等功能,遺憾的是當(dāng)年的品牌知名度并沒有打響,原因有很多,一是當(dāng)時(shí)的捷通華聲還只是一家剛剛誕生的嬰兒般的企業(yè),并沒有雄厚資金去做相應(yīng)的推廣,而當(dāng)時(shí)的漢王科技等企業(yè)推出的手寫板產(chǎn)品已經(jīng)熱銷,所以捷通華聲的“錄易”就被淹沒了。
但就現(xiàn)在來看,“錄易”都不是一款過時(shí)的產(chǎn)品,“錄易”后期轉(zhuǎn)換了一種方式,以O(shè)EM、ODM的方式繼續(xù)履行著他的使命。
我剛才說到靈云是 “十年磨一劍”,因?yàn)槲覀冋J(rèn)為,無論是手寫錄入、語音錄入、還是掃描識別,都是一種錄入手段,人與機(jī)器的交互,是全方位、多手段的,無論用哪種形式,讓機(jī)器能夠說、能夠聽、能夠感知人的語言,這就是HCI的使命。而今天,捷通華聲經(jīng)過多年對HCI的研究:通過手寫,讓機(jī)器能認(rèn)識人的書寫;通過語音合成,讓機(jī)器能象人一樣說話;通過語音識別,讓機(jī)器能聽懂;通過語音翻譯,讓機(jī)器能象人一樣思考。
這些功能以前捷通華聲,包括市場上其他的企業(yè)只能夠一項(xiàng)項(xiàng)的單獨(dú)實(shí)現(xiàn),靈云則通過相應(yīng)的技術(shù)讓這些功能集中于一起,對功能加以整合,全方位提供給用戶多種人機(jī)交互的體驗(yàn)。
CTI論壇記者:靈云可以用語音、手寫、拍照,甚至可使用腦波識別等智能手段來操作、感知手機(jī)、計(jì)算機(jī)等數(shù)字設(shè)備的網(wǎng)絡(luò)云服務(wù),這是如何做到的呢?
張連毅:人機(jī)交互一直是人們所期待的,人類希望機(jī)器象人一樣做基本的思考,象人一樣更加協(xié)調(diào),所以,在技術(shù)形成上我們賦予機(jī)器“大腦”的功能。
捷通華聲依照多年來對自然語言的理解,引入“神經(jīng)元”概念,比如讓機(jī)器判斷語音、語氣、語境,象人一樣具備簡單的思考功能。
剛才我也提到過,人機(jī)交互的方式是多種多樣的,不應(yīng)該有局限,應(yīng)不拘一格,無論是語音、手寫、拍照、手勢,都是人與機(jī)器交互的方式,我們對這些交互方式在技術(shù)上加以整合、集結(jié),讓他們同時(shí)具備上述功能,而不是以前的某一種單一方式,可以說這是一種突破,工程師付出了很大的努力。
圖:捷通華聲董事長張連毅先生
CTI論壇記者:捷通華聲對靈云準(zhǔn)備采取哪些推廣模式?合作伙伴可以做些什么?
張連毅:在回答這個(gè)問題之前,我想闡述一下我們的合作理念,這個(gè)理念前幾天我在中國手機(jī)產(chǎn)業(yè)大會上也提到過。舉個(gè)例子,比如喬布斯的蘋果公司,首先我本人非常佩服喬布斯,他為觸控技術(shù)乃至整個(gè)人類計(jì)算機(jī)和手機(jī)產(chǎn)業(yè)做出的貢獻(xiàn)無人能超越。但是我認(rèn)為很少有開發(fā)者或者手機(jī)制造廠商能真正從產(chǎn)業(yè)、從蘋果的APPStore獲得利益,所以我支持Android,因?yàn)锳ndroid是開放,是分享,是每一個(gè)人都可以用的。
另外企業(yè)也要做好自己的定位,比如作為大學(xué),它的定位就是培養(yǎng)人才。捷通以前是語音、手寫領(lǐng)域技術(shù)商,現(xiàn)在是HCI方案提供商。而人與機(jī)器的交互可以說是無所不在,捷通華聲作為HCI方案提供商,我們提供方案,培養(yǎng)開發(fā)者,讓成千上萬的開放者集結(jié)多種智慧,來促進(jìn)HCI技術(shù)多種多樣的應(yīng)用?傊,捷通華聲將輔助所有的合作伙伴、支持各種合作伙伴將HCI引進(jìn)到他們擅長的領(lǐng)域。
所以,捷通華聲今后的推廣也將以合作為主,開放、共享,與合作伙伴共同合作、共同分享。
CTI論壇記者:您怎么評估HCI市場規(guī)模及應(yīng)用趨勢?
張連毅:我認(rèn)為HCI只是一個(gè)時(shí)代的開始,前途不可限量,但不會象互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)有那么多的泡沫。并且我個(gè)人認(rèn)為,對HCI整個(gè)產(chǎn)業(yè)并不適宜用一個(gè)具體的數(shù)字來評估其發(fā)展的規(guī)模。HCI與云計(jì)算技術(shù)的結(jié)合,則是宣告了人機(jī)交互時(shí)代的來臨。
同時(shí),HCI也不會有什么突然的爆發(fā)式的增長,因?yàn)镠CI技術(shù)是每天都在成長,探討研究機(jī)器應(yīng)用HCI技術(shù)就象探討人自身一樣,本身有一個(gè)慢慢探索的過程。比如人類面臨的一些不治之癥,如癌癥,可能長久以來一直就伴隨著人類,但近代才開始認(rèn)識到有這個(gè)疾病存在,到目前為止也還沒有克服這個(gè)疾病的良效藥,也就是說,我們?nèi)祟愡遠(yuǎn)沒有真正徹底地了解我們自己。所以說,探索HCI技術(shù)就象探索人自身一樣有個(gè)過程,至少要經(jīng)歷從理解----接受----推動----寬容----發(fā)展的階段。所以從這個(gè)角度上講,我們要以包容的態(tài)度來理解HCI在應(yīng)用發(fā)展中產(chǎn)生的問題。
CTI論壇記者:捷通華聲成立于2000年10月,2001年推出中文語音合成技術(shù),后續(xù)推出中文語音識別技術(shù),可以說,這也折射了中國語音技術(shù)的發(fā)展歷史。那么,目前捷通華聲語音的應(yīng)用領(lǐng)域有哪些?可以舉一些案例進(jìn)行分享;
張連毅:語音應(yīng)用領(lǐng)域應(yīng)該從兩個(gè)方面來統(tǒng)計(jì),一是受眾人群,從這個(gè)角度來講,語音應(yīng)用其實(shí)是無處不在的,語音是服務(wù)的技術(shù),尤其是語音合成技術(shù)在人群中受眾很高,但語音識別需要在特定的領(lǐng)域中保證識別率,比如銀行業(yè)務(wù),肯定不會牽涉天氣預(yù)報(bào)的內(nèi)容,受眾相對語音合成會少一些。捷通華聲過去十年中,作為語音技術(shù)提供商,涵蓋了所有的產(chǎn)業(yè)、行業(yè)、包括個(gè)人用戶。比如呼叫中心、導(dǎo)航、教育、手機(jī)中的各種應(yīng)用、桌面辦公應(yīng)用等,有無數(shù)的人已經(jīng)享受到語音技術(shù)的服務(wù)。
另一種統(tǒng)計(jì)方法是銷售額,語音技術(shù)市場包括語音合成及語音識別,基本是五五分成的狀況,從受眾人群講,語音合成用戶高于語音識別用戶數(shù),但單價(jià)較語音識別低一些,所以從銷售額統(tǒng)計(jì)來看相差不大。
捷通華聲語音技術(shù)的企業(yè)終端用戶分布于銀行、交通等所有重要領(lǐng)域,如中國農(nóng)業(yè)銀行、中國銀行、中國建設(shè)銀行、交通銀行、中國高鐵、世博會都是我們的客戶或采用捷通的語音技術(shù)。
CTI論壇記者:目前國際國內(nèi)已經(jīng)有一些語音方面的廠商也有相關(guān)的語音部署,那么捷通華聲的語音技術(shù)專有技術(shù)還是引進(jìn)技術(shù)?
張連毅:捷通華聲在創(chuàng)立之初就有自己的獨(dú)立技術(shù),如語音合成技術(shù),手寫識別技術(shù),我們找到兩個(gè)在我國非常杰出的在語音領(lǐng)域研究多年的科學(xué)家作為公司創(chuàng)業(yè)的合作者,幫助指導(dǎo)我們研發(fā)。靈云中最核心的幾項(xiàng)技術(shù)均是捷通華聲自主知識產(chǎn)權(quán)的核心技術(shù)。當(dāng)然,靈云離不開HCI同行的支持,因此我們也非常注意加強(qiáng)國內(nèi)、國際間的企業(yè)與研究單位的合作。
CTI論壇記者:您認(rèn)為中國HCI競爭格局是怎樣的?
張連毅:捷通華聲在推出每一個(gè)產(chǎn)品技術(shù)時(shí),都會問問它能給產(chǎn)業(yè)、給社會帶來什么?而不是去先炒概念,我們對待每一個(gè)產(chǎn)品都當(dāng)成新生嬰兒一般,不過多宣傳自己,也從來不吃獨(dú)食,更不自稱是龍頭老大。靈云是國內(nèi)乃至國際上第一個(gè)感知云,也就是第一個(gè)HCI網(wǎng)絡(luò)云服務(wù),目前只有合作伙伴,沒有競爭對手,但將來是一定會有的。
當(dāng)然,在過去較長一段時(shí)間,捷通華聲在HCI其中一些技術(shù)的局部領(lǐng)域一直受到同行業(yè)競爭對手的打壓,包括現(xiàn)在也是,但經(jīng)過多次幾乎是惡性的競爭,我意識到:HCI要發(fā)展,捷通要發(fā)展,不是通過僅與其中一兩個(gè)領(lǐng)域中的競爭對手爭勝負(fù),爭贏某一個(gè)單子決定的。要更多依靠大眾對HCI知識的了解,HCI技術(shù)要服務(wù)大眾,就要靠所有產(chǎn)業(yè)鏈的企業(yè)精誠合作,只要這樣HCI 產(chǎn)業(yè)才會真正發(fā)展。即使競爭也是良性競爭,不能失去產(chǎn)業(yè)發(fā)展的責(zé)任與越過商業(yè)規(guī)則的底線。
捷通華聲正是因?yàn)橛辛藢CI產(chǎn)業(yè)的全新理解,有了國內(nèi)所有的合作企業(yè)、用戶對我們多年的理解與支持,才有了靈云的誕生,因此我們也才敢說:靈云是大家的,靈云是中國的!
CTI論壇記者:非常感謝您接受我們的采訪,祝您工作愉快!也祝愿中國的HCI產(chǎn)業(yè)更加蓬勃發(fā)展!因?yàn)槲覀兠恳粋(gè)人都身處其中!
張連毅簡介:
1989年獲得清華大學(xué)環(huán)境工程系學(xué)士學(xué)位。1992年,與清華大學(xué)吳佑壽、丁曉清教授合作,推進(jìn)漢字印刷體識別系統(tǒng)(OCR)商品化進(jìn)程。1992年底至1998年6月赴美學(xué)習(xí)、工作。1998年8月歸國創(chuàng)建北京捷通軟件技術(shù)有限公司,2000年與呂士楠、顧小鳳教授共同創(chuàng)建北京捷通華聲語音技術(shù)有限公司。
發(fā)展中,堅(jiān)持“開發(fā)有價(jià)值的產(chǎn)品,培養(yǎng)有價(jià)值的人,創(chuàng)建有價(jià)值的企業(yè)”,專注發(fā)展中文語音合成技術(shù),在中文語音技術(shù)領(lǐng)域與國內(nèi)外企業(yè)展開力量懸殊的激烈競爭中,最終捷通華聲不但贏得了技術(shù)、市場,也贏得了國際語音界的尊重。
捷通華聲取得立足中文語音技術(shù)市場之后,提出以“技術(shù)為核心,服務(wù)為己任,技術(shù)服務(wù)生活”的發(fā)展新思路,領(lǐng)導(dǎo)企業(yè)全面整和語音、手寫等智能人機(jī)交互技術(shù)(HCI)力量,2011年,在國際云服務(wù)領(lǐng)域推出首個(gè)感知云—靈云,帶領(lǐng)捷通華聲進(jìn)入企業(yè)規(guī);l(fā)展的全新階段。
聲明:CTI論壇(CTiforum)版權(quán)作品,未經(jīng)CTiforum書面授權(quán),嚴(yán)禁轉(zhuǎn)載,違者將被追究法律責(zé)任。