《長江七號》是我女兒非常喜歡的一部電影,記得當(dāng)時帶她去看這部影片時她才4歲多,現(xiàn)在她6歲了,仍然還經(jīng)常提起這部片子以及充滿了靈性、智慧、童趣的“小七”。
在我們看來,“小七”就是一部智能小機器,可以說話,可以與人交流,當(dāng)然,經(jīng)過電影作者的想象、加工,給它賦予人類的感情,所以也成就了“小七”的輝煌。
“小七”在捷通華聲董事長張連毅先生看來,只是人機交互技術(shù)HCI功能實現(xiàn)的一小步,張連毅認(rèn)為:人與機器的溝通將越來越簡單,讓機器與人的交流像人與人一樣自然是他的理想。
近日,CTI論壇記者獲得與捷通華聲董事長張連毅先生交流的機會,將這位HCI技術(shù)應(yīng)用的推動者在HCI領(lǐng)域的理念與夢想與大家分享。
圖:捷通華聲董事長張連毅先生在辦公室接受CTI論壇記者采訪
CTI論壇記者:捷通華聲于12月8日推出全球第一個全方位人機交互的感知云--靈云,這與以前捷通華聲經(jīng)常談到的智能人機交互技術(shù)HCI有哪些傳承與區(qū)別?
張連毅:捷通華聲公司多年來一直致力于智能人機交互技術(shù)的研究,也就是HCI。其實HCI技術(shù)投入大、見效慢,只有一些很大的企業(yè),像IBM、微軟、英特爾才能夠獨立投入,而捷通華聲是民營企業(yè),這么多年堅持下來其實是很不容易的。
靈云的推出,可以說是 “十年磨一劍”,早在1998年底,捷通華聲在公司剛創(chuàng)建時,推出新產(chǎn)品“錄易”,就具備了人機交互的基本雛形,具備聽、說等功能,遺憾的是當(dāng)年的品牌知名度并沒有打響,原因有很多,一是當(dāng)時的捷通華聲還只是一家剛剛誕生的嬰兒般的企業(yè),并沒有雄厚資金去做相應(yīng)的推廣,而當(dāng)時的漢王科技等企業(yè)推出的手寫板產(chǎn)品已經(jīng)熱銷,所以捷通華聲的“錄易”就被淹沒了。
但就現(xiàn)在來看,“錄易”都不是一款過時的產(chǎn)品,“錄易”后期轉(zhuǎn)換了一種方式,以O(shè)EM、ODM的方式繼續(xù)履行著他的使命。
我剛才說到靈云是 “十年磨一劍”,因為我們認(rèn)為,無論是手寫錄入、語音錄入、還是掃描識別,都是一種錄入手段,人與機器的交互,是全方位、多手段的,無論用哪種形式,讓機器能夠說、能夠聽、能夠感知人的語言,這就是HCI的使命。而今天,捷通華聲經(jīng)過多年對HCI的研究:通過手寫,讓機器能認(rèn)識人的書寫;通過語音合成,讓機器能象人一樣說話;通過語音識別,讓機器能聽懂;通過語音翻譯,讓機器能象人一樣思考。
這些功能以前捷通華聲,包括市場上其他的企業(yè)只能夠一項項的單獨實現(xiàn),靈云則通過相應(yīng)的技術(shù)讓這些功能集中于一起,對功能加以整合,全方位提供給用戶多種人機交互的體驗。
CTI論壇記者:靈云可以用語音、手寫、拍照,甚至可使用腦波識別等智能手段來操作、感知手機、計算機等數(shù)字設(shè)備的網(wǎng)絡(luò)云服務(wù),這是如何做到的呢?
張連毅:人機交互一直是人們所期待的,人類希望機器象人一樣做基本的思考,象人一樣更加協(xié)調(diào),所以,在技術(shù)形成上我們賦予機器“大腦”的功能。
捷通華聲依照多年來對自然語言的理解,引入“神經(jīng)元”概念,比如讓機器判斷語音、語氣、語境,象人一樣具備簡單的思考功能。
剛才我也提到過,人機交互的方式是多種多樣的,不應(yīng)該有局限,應(yīng)不拘一格,無論是語音、手寫、拍照、手勢,都是人與機器交互的方式,我們對這些交互方式在技術(shù)上加以整合、集結(jié),讓他們同時具備上述功能,而不是以前的某一種單一方式,可以說這是一種突破,工程師付出了很大的努力。
圖:捷通華聲董事長張連毅先生
CTI論壇記者:捷通華聲對靈云準(zhǔn)備采取哪些推廣模式?合作伙伴可以做些什么?
張連毅:在回答這個問題之前,我想闡述一下我們的合作理念,這個理念前幾天我在中國手機產(chǎn)業(yè)大會上也提到過。舉個例子,比如喬布斯的蘋果公司,首先我本人非常佩服喬布斯,他為觸控技術(shù)乃至整個人類計算機和手機產(chǎn)業(yè)做出的貢獻無人能超越。但是我認(rèn)為很少有開發(fā)者或者手機制造廠商能真正從產(chǎn)業(yè)、從蘋果的APPStore獲得利益,所以我支持Android,因為Android是開放,是分享,是每一個人都可以用的。
另外企業(yè)也要做好自己的定位,比如作為大學(xué),它的定位就是培養(yǎng)人才。捷通以前是語音、手寫領(lǐng)域技術(shù)商,現(xiàn)在是HCI方案提供商。而人與機器的交互可以說是無所不在,捷通華聲作為HCI方案提供商,我們提供方案,培養(yǎng)開發(fā)者,讓成千上萬的開放者集結(jié)多種智慧,來促進HCI技術(shù)多種多樣的應(yīng)用?傊,捷通華聲將輔助所有的合作伙伴、支持各種合作伙伴將HCI引進到他們擅長的領(lǐng)域。
所以,捷通華聲今后的推廣也將以合作為主,開放、共享,與合作伙伴共同合作、共同分享。
CTI論壇記者:您怎么評估HCI市場規(guī)模及應(yīng)用趨勢?
張連毅:我認(rèn)為HCI只是一個時代的開始,前途不可限量,但不會象互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)有那么多的泡沫。并且我個人認(rèn)為,對HCI整個產(chǎn)業(yè)并不適宜用一個具體的數(shù)字來評估其發(fā)展的規(guī)模。HCI與云計算技術(shù)的結(jié)合,則是宣告了人機交互時代的來臨。
同時,HCI也不會有什么突然的爆發(fā)式的增長,因為HCI技術(shù)是每天都在成長,探討研究機器應(yīng)用HCI技術(shù)就象探討人自身一樣,本身有一個慢慢探索的過程。比如人類面臨的一些不治之癥,如癌癥,可能長久以來一直就伴隨著人類,但近代才開始認(rèn)識到有這個疾病存在,到目前為止也還沒有克服這個疾病的良效藥,也就是說,我們?nèi)祟愡遠沒有真正徹底地了解我們自己。所以說,探索HCI技術(shù)就象探索人自身一樣有個過程,至少要經(jīng)歷從理解----接受----推動----寬容----發(fā)展的階段。所以從這個角度上講,我們要以包容的態(tài)度來理解HCI在應(yīng)用發(fā)展中產(chǎn)生的問題。
CTI論壇記者:捷通華聲成立于2000年10月,2001年推出中文語音合成技術(shù),后續(xù)推出中文語音識別技術(shù),可以說,這也折射了中國語音技術(shù)的發(fā)展歷史。那么,目前捷通華聲語音的應(yīng)用領(lǐng)域有哪些?可以舉一些案例進行分享;
張連毅:語音應(yīng)用領(lǐng)域應(yīng)該從兩個方面來統(tǒng)計,一是受眾人群,從這個角度來講,語音應(yīng)用其實是無處不在的,語音是服務(wù)的技術(shù),尤其是語音合成技術(shù)在人群中受眾很高,但語音識別需要在特定的領(lǐng)域中保證識別率,比如銀行業(yè)務(wù),肯定不會牽涉天氣預(yù)報的內(nèi)容,受眾相對語音合成會少一些。捷通華聲過去十年中,作為語音技術(shù)提供商,涵蓋了所有的產(chǎn)業(yè)、行業(yè)、包括個人用戶。比如呼叫中心、導(dǎo)航、教育、手機中的各種應(yīng)用、桌面辦公應(yīng)用等,有無數(shù)的人已經(jīng)享受到語音技術(shù)的服務(wù)。
另一種統(tǒng)計方法是銷售額,語音技術(shù)市場包括語音合成及語音識別,基本是五五分成的狀況,從受眾人群講,語音合成用戶高于語音識別用戶數(shù),但單價較語音識別低一些,所以從銷售額統(tǒng)計來看相差不大。
捷通華聲語音技術(shù)的企業(yè)終端用戶分布于銀行、交通等所有重要領(lǐng)域,如中國農(nóng)業(yè)銀行、中國銀行、中國建設(shè)銀行、交通銀行、中國高鐵、世博會都是我們的客戶或采用捷通的語音技術(shù)。
CTI論壇記者:目前國際國內(nèi)已經(jīng)有一些語音方面的廠商也有相關(guān)的語音部署,那么捷通華聲的語音技術(shù)專有技術(shù)還是引進技術(shù)?
張連毅:捷通華聲在創(chuàng)立之初就有自己的獨立技術(shù),如語音合成技術(shù),手寫識別技術(shù),我們找到兩個在我國非常杰出的在語音領(lǐng)域研究多年的科學(xué)家作為公司創(chuàng)業(yè)的合作者,幫助指導(dǎo)我們研發(fā)。靈云中最核心的幾項技術(shù)均是捷通華聲自主知識產(chǎn)權(quán)的核心技術(shù)。當(dāng)然,靈云離不開HCI同行的支持,因此我們也非常注意加強國內(nèi)、國際間的企業(yè)與研究單位的合作。
CTI論壇記者:您認(rèn)為中國HCI競爭格局是怎樣的?
張連毅:捷通華聲在推出每一個產(chǎn)品技術(shù)時,都會問問它能給產(chǎn)業(yè)、給社會帶來什么?而不是去先炒概念,我們對待每一個產(chǎn)品都當(dāng)成新生嬰兒一般,不過多宣傳自己,也從來不吃獨食,更不自稱是龍頭老大。靈云是國內(nèi)乃至國際上第一個感知云,也就是第一個HCI網(wǎng)絡(luò)云服務(wù),目前只有合作伙伴,沒有競爭對手,但將來是一定會有的。
當(dāng)然,在過去較長一段時間,捷通華聲在HCI其中一些技術(shù)的局部領(lǐng)域一直受到同行業(yè)競爭對手的打壓,包括現(xiàn)在也是,但經(jīng)過多次幾乎是惡性的競爭,我意識到:HCI要發(fā)展,捷通要發(fā)展,不是通過僅與其中一兩個領(lǐng)域中的競爭對手爭勝負(fù),爭贏某一個單子決定的。要更多依靠大眾對HCI知識的了解,HCI技術(shù)要服務(wù)大眾,就要靠所有產(chǎn)業(yè)鏈的企業(yè)精誠合作,只要這樣HCI 產(chǎn)業(yè)才會真正發(fā)展。即使競爭也是良性競爭,不能失去產(chǎn)業(yè)發(fā)展的責(zé)任與越過商業(yè)規(guī)則的底線。
捷通華聲正是因為有了對HCI產(chǎn)業(yè)的全新理解,有了國內(nèi)所有的合作企業(yè)、用戶對我們多年的理解與支持,才有了靈云的誕生,因此我們也才敢說:靈云是大家的,靈云是中國的!
CTI論壇記者:非常感謝您接受我們的采訪,祝您工作愉快!也祝愿中國的HCI產(chǎn)業(yè)更加蓬勃發(fā)展!因為我們每一個人都身處其中!
張連毅簡介:
1989年獲得清華大學(xué)環(huán)境工程系學(xué)士學(xué)位。1992年,與清華大學(xué)吳佑壽、丁曉清教授合作,推進漢字印刷體識別系統(tǒng)(OCR)商品化進程。1992年底至1998年6月赴美學(xué)習(xí)、工作。1998年8月歸國創(chuàng)建北京捷通軟件技術(shù)有限公司,2000年與呂士楠、顧小鳳教授共同創(chuàng)建北京捷通華聲語音技術(shù)有限公司。
發(fā)展中,堅持“開發(fā)有價值的產(chǎn)品,培養(yǎng)有價值的人,創(chuàng)建有價值的企業(yè)”,專注發(fā)展中文語音合成技術(shù),在中文語音技術(shù)領(lǐng)域與國內(nèi)外企業(yè)展開力量懸殊的激烈競爭中,最終捷通華聲不但贏得了技術(shù)、市場,也贏得了國際語音界的尊重。
捷通華聲取得立足中文語音技術(shù)市場之后,提出以“技術(shù)為核心,服務(wù)為己任,技術(shù)服務(wù)生活”的發(fā)展新思路,領(lǐng)導(dǎo)企業(yè)全面整和語音、手寫等智能人機交互技術(shù)(HCI)力量,2011年,在國際云服務(wù)領(lǐng)域推出首個感知云—靈云,帶領(lǐng)捷通華聲進入企業(yè)規(guī)模化發(fā)展的全新階段。
聲明:CTI論壇(CTiforum)版權(quán)作品,未經(jīng)CTiforum書面授權(quán),嚴(yán)禁轉(zhuǎn)載,違者將被追究法律責(zé)任。