信息服務(wù)走向智能化
鄧永強 鄭方
2004/06/02
一、 巨大的市場需求
通過自然語言與計算機進行交流,獲取合適的信息,得到滿意的服務(wù),是人們長期以來所追求的目標。自然語言理解技術(shù)的發(fā)展,讓文本自動分類、智能搜索、信息提取、語言翻譯、自動文摘、自動勘校、智能聊天等成為可能。
自然語言理解技術(shù)還達不到像人一樣的智能理解水平,但是只要劃定具體的領(lǐng)域(例如天氣、體育等簡單信息查詢,也可以是交友、購物、保健等寬泛的智能聊天和咨詢等等),都能量身定做出具足夠?qū)嵱眯缘闹悄苄畔⒎⻊?wù)系統(tǒng),自動理解客戶用自然語言發(fā)出的相關(guān)領(lǐng)域的問題,信息查詢變得更方便、快速和準確。
2003年,以Microsoft、AOL、Yahoo、Google等公司紛紛提供智能聊天機器人和智能搜索等個性化的智能信息服務(wù)。國內(nèi)騰訊、慧聰?shù)刃畔⒎⻊?wù)商也及時把握國際潮流,推出類似的新業(yè)務(wù),力爭鞏固并拓展更大的市場份額。
信息服務(wù)市場全球性爆漲后,智能短信服務(wù)適逢其時,先后在法國和中國投入市場。2003年底,Orange 法國公司采用Dejima公司的技術(shù),為法國的短信用戶提供從餐飲到汽車維修等多達150類的智能信息查詢業(yè)務(wù)。2004年4月,北京得意公司率先把中文自然語言理解技術(shù)與短信服務(wù)相結(jié)合,與擁有豐富生活信息資源的《精品購物指南》報社合作,提供北京餐飲智能短信查詢,并將陸續(xù)開通更豐富和實用的智能信息服務(wù)。
智能信息服務(wù)將帶來全新的應(yīng)用模式,能有效提高服務(wù)的質(zhì)量和滿意度,拓展信息服務(wù)的發(fā)展空間.它將成為下一代互聯(lián)網(wǎng)的重要應(yīng)用,并有可能帶來信息服務(wù)產(chǎn)業(yè)的變革。某機構(gòu)調(diào)查結(jié)果顯示,2004年中國大陸短信市場將達到300億元人民幣,網(wǎng)絡(luò)短信用戶將達到2640萬;到2007年,短信、網(wǎng)上聊天的市場規(guī)模將達1500億元。而智能信息服務(wù)的市場份額預計將達10%,也就是超過150億人民幣。
二、 豐富的智能服務(wù)方式
智能信息服務(wù)已成功應(yīng)用在客戶服務(wù)、知識管理、智能軟件幫助、企業(yè)管理、網(wǎng)上營銷等多個領(lǐng)域。隨著互聯(lián)網(wǎng)的高速發(fā)展和產(chǎn)業(yè)的激烈競爭,智能信息服務(wù)不斷走向?qū)嵱没痛蟊娀,智能短信服?wù)、智能聊天機器人和智能搜索引擎等成為新的亮點。這些服務(wù)模式與普通用戶更貼近、更具吸引力,也更具市場影響力和價值創(chuàng)造力。
1、智能短信服務(wù)
智能短信服務(wù),就是允許短信用戶在手機上直接以自然語言的形式輸入文字(而不是輸入復雜的代碼或操作繁瑣的菜單),系統(tǒng)能迅速、準確地理解用戶的意思,提供周到的信息和服務(wù)。短信服務(wù)商可根據(jù)具體應(yīng)用領(lǐng)域定制一系列全新的智能短信業(yè)務(wù),如旅游交通、餐飲娛樂、金融證券、交友網(wǎng)聚、智力競猜等受歡迎的服務(wù),將直接刺激用戶使用短信服務(wù)的興趣和頻率。得意公司提供的北京餐飲智能短信服務(wù)可以靈活、方便地引導用戶找到合適的餐飲信息(圖1)
用戶短信: 我想吃烤鴨
系統(tǒng)回答: 您好,吃烤鴨的地方很多,我不能都發(fā)給你呀,定個地點吧。
用戶短信:西直門附近有嗎
系統(tǒng)回答:在西直門附近只有1家。通華苑飯店餐廳(北禮士路101號(地鐵西直門))。
用戶短信:聽說全聚德的不錯
系統(tǒng)回答: 全聚德烤鴨店在XX路XX號。華威全聚德在XX里XX號。全聚德和平門店在XX大街XX號。謝謝您的支持,以后想吃什么就找我呀
2、智能聊天機器人
目前流行于各大網(wǎng)站或各類即時通訊軟件的聊天機器人,還沒有應(yīng)用成熟的自然語言理解技術(shù),僅僅實現(xiàn)了基本的、簡單的對話交流和信息查詢等功能。引入自然語言理解技術(shù)的智能聊天機器人,能通過與用戶對話和聊天的形式,了解用戶的需求;它還可以利用智能搜索技術(shù)采集、分析互聯(lián)網(wǎng)和知識庫的信息內(nèi)容,進行自動過濾、篩選、獲取有效內(nèi)容,對相關(guān)信息內(nèi)容進行智能化編輯整理,并返回給用戶。智能聊天、智能游戲、個性化的新聞定制、智能電子商務(wù)等服務(wù),將為用戶帶來很大的方便和更多的樂趣。
系統(tǒng):您好,歡迎使用本航班訂票系統(tǒng)
用戶:我要從北京到上海
系統(tǒng):請問您要哪天的?
用戶:明天下午的有嗎?
系統(tǒng):您要到虹橋機場的還是浦東機場的?
用戶:我要虹橋的,國航757或者747的
系統(tǒng):查到了3班:13:30,15:40,16:20,您要哪一班?
用戶:最晚的
系統(tǒng):您要訂6月8日16:20北京首都機場飛上海虹橋機場的機票一張嗎?
用戶:是的
系統(tǒng):您的訂票號是123456,票價為850元。請您在起飛兩小時以前到機場或者民航售票處支付票款。祝您旅途愉快!
以上是一個專門提供航班信息查詢服務(wù)的智能聊天機器人的對話過程.
3、智能搜索引擎
目前的普通搜索引擎由于只使用關(guān)鍵詞技術(shù),每次搜索時只是按照關(guān)鍵詞進行匹配,返回的大量信息中很大一部分不是用戶需要的信息,往往導致用戶無所適從。而門戶網(wǎng)站或?qū)I(yè)網(wǎng)站雖然對信息進行很好的分類,但是首先要用戶記住網(wǎng)址,還要懂得分類的標準,然后逐層點擊相應(yīng)的分類鏈接,才能獲得所需的信息.這樣的信息分類查詢給信息服務(wù)商帶來了很大的工作量.服務(wù)成本和進入門檻顯著提高,并且對用戶而言也很不方便.智能搜索引擎是依靠語義網(wǎng)絡(luò)、漢語分詞、句法分析、處理同義詞等自然語言理解技術(shù),更大程度地了解用戶的信息需求,獲得更易用性、更準確、更智能的搜索結(jié)果。它具有人性化、交互性的特點,可以識別并回答用戶的問題,擺脫了傳統(tǒng)搜索引擎基于關(guān)鍵字的束縛,并能提供相關(guān)的、有參考價值的其他內(nèi)容。
智能搜索引擎除了應(yīng)用于互聯(lián)網(wǎng)上的常規(guī)終端以外,也可以支持WAP協(xié)議而應(yīng)用在手機.其實用戶往往在逛街、旅游等室外移動環(huán)境下更需要隨時查詢信息,手機在這些場合下是很好的查詢工具,但是其屏幕小、內(nèi)存少、計算性能低帶寬窄,不適合接收和保存大量的信息,更難以滿意地翻看大量信息.傳統(tǒng)地基于關(guān)鍵詞的搜索或分類信息查詢模式都存在一定地缺陷,很不適合應(yīng)用在手機終端上.而智能搜索引擎能很好地為手機用戶提供隨時、隨地、隨心地信息服務(wù).
智能搜索引擎一個典型的應(yīng)用是基于豐富詳盡的生活資訊知識庫,構(gòu)建智能生活資訊服務(wù)系統(tǒng),支持互聯(lián)網(wǎng)、短信、WAP等多種通訊手段,在吃喝玩樂、影視娛樂、消費購物、戶外運動、美食餐飲、醫(yī)療保健等領(lǐng)域,為商家和用戶提供更方便、直接的信息交流和互動手段。例如,傳統(tǒng)的搜索引擎查詢?nèi)嗣麜r,可能會出現(xiàn)上百個不同身份的重名;智能搜索引擎可以支持行業(yè)分類功能:輸入"歌手黎明",就能直接指向香港歌手黎明以及他的歌曲下載地址、歌手資料、新聞、歌詞的信息等等,沒有了二次搜索的麻煩,更不會指向小說《這里的黎明靜悄悄》。
三、 支撐技術(shù)
計算機技術(shù)和人工智能技術(shù)的發(fā)展,是智能信息服務(wù)的廣泛應(yīng)用和日益普及的基礎(chǔ),自然語言理解技術(shù)是智能信息服務(wù)的支撐平臺。
自然語言理解技術(shù)最早地研究領(lǐng)域是機器翻譯.早期所開發(fā)的機譯系統(tǒng)的技術(shù)水平較低,不能滿足實際應(yīng)用.到了20世紀70年代初期,對語言理解對話系統(tǒng)的研究取得進展.進入20世紀80年代之后,機器學習研究又活躍起來,出現(xiàn)了許多較高水平的實用化系統(tǒng).
兩大技術(shù)方向
現(xiàn)階段的自然語言理解技術(shù)有兩大研究方向,分別是基于規(guī)則的分析方法, 即所謂的"理性主義";以及方針對大規(guī)模語料庫的分析法,即所謂的"經(jīng)驗主義".前者基本上掌握了單個句子的分析技術(shù),但是還很難覆蓋全面的語音現(xiàn)象,特別是對于整個段落或篇章的理解還無從下手.后者充分利用計算機的高速處理能力和海量存儲,收集大量相關(guān)的文本建立語料庫.語料庫提供的知識是用概率統(tǒng)計表示的,因而常常會出現(xiàn)答非所問的情況,并且語料庫需要耗費大量的時間和資源去建立、維護,成本很高.將來,這兩個技術(shù)方向?qū)⑾嗷ト¢L補短,呈現(xiàn)融合的發(fā)展趨勢.
為了實現(xiàn)智能信息服務(wù)的種種功能,人們在開發(fā)自然語言的詞法分析、句法分析、語義分析、語境分析等技術(shù),不斷積累諸如電子詞典、語料庫等語言數(shù)據(jù)資源。
優(yōu)良系統(tǒng)的追求目標
自然語言理解系統(tǒng)要具備好的適用性,應(yīng)該支持上下文相關(guān)分析、話題自由變換、人機混合主導以及口語對話等特點.
上下文相關(guān)分析是指系統(tǒng)在理解當前語句時可以聯(lián)想用戶以前所說的話進行綜合分析,因此即使有時用戶所說的話有一定的省略,系統(tǒng)同樣可以理解。
話題自由變換時指允許用戶在多個話題之間不斷轉(zhuǎn)換,系統(tǒng)同樣可以記住以前的談話內(nèi)容。例如用戶在問航班起飛時間時,突然插入目的地與本地的時差問題,然后在繼續(xù)關(guān)于該航班的問題,系統(tǒng)都能回答。而目前的一些系統(tǒng),往往只能局限于某一個話題,一旦用戶變換話題,系統(tǒng)將無所適從。
人機混合主導則是完全的自然對話,用戶可以轉(zhuǎn)換話題后再回到原來的話題(像人一樣);用戶可以"答非機問"(多回答或少回答);而系統(tǒng)都可以根據(jù)實際情況提取語義信息,如果用戶詢問中的信息足夠豐富,那么系統(tǒng)直接回答問題;如果用戶詢問的信息不全或者用戶遲疑太久,那么系統(tǒng)則主動詢問來獲取足夠的信息。而不具備人機混合主導性能的系統(tǒng)只能等用戶發(fā)問,如果用戶根本不知道問什么,那么系統(tǒng)一直待機等待。
口語對話是自然理解技術(shù)實現(xiàn)的難點,但也是應(yīng)用系統(tǒng)適用性的關(guān)鍵點?谡Z中,人們的語言很隨意,可以省略、更正、倒敘等等,這些口語現(xiàn)象是傳統(tǒng)的單單基于詞法分析的理解系統(tǒng)所難以解決的,而引入基于關(guān)鍵語義的技術(shù)卻很好地解決。
從目前的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的自然語言處理系統(tǒng),仍然是較長期的努力目標。但是針對某些特定應(yīng)用的系統(tǒng)已經(jīng)出現(xiàn)。
自然語言很復雜,人類對自己理解語言的機制還不是很了解。要主計算機理解自然語言,必須先將人是如何學習和理解語言的機制研究透徹。對此,需要計算機技術(shù)與語言學進行交叉學科的研究。
研究現(xiàn)狀
國外在1963年就建成了早期的自然語言理解系統(tǒng),許多著名的大學和科研機構(gòu)都投入了大量的科技資源進行研發(fā)。IBM、Microsoft等公司先后推出各種基于自然語言理解技術(shù)的產(chǎn)品和應(yīng)用,在英語、法語等語種上積累了大量的經(jīng)驗和成功案例。20世紀90年代,IBM、Microsoft先后在我國建立研究院,開展中文語言理解技術(shù)研究,其中一些新成果預計將在近期推向市場。
中國在1980年建成了兩個漢語自然語言理解模型,都以人機對話的方式來實現(xiàn)。目前清華大學、北京大學、北京語言大學、上海交大、復旦大學、中科大、中科院、社科院等主要科研單位都在自然語言理解技術(shù)方面有雄厚的技術(shù)力量。總體上看,國內(nèi)外的自然語言理解技術(shù)方面的研究有一定的差距。當然,國內(nèi)研究也有優(yōu)勢,語言工程所需要的大量專家水平的人力以及語言數(shù)據(jù)資源都是豐富的,價格相對低廉,目前有些系統(tǒng)取得了可觀的經(jīng)濟效益。例如,華建集團的智能輔助翻譯系統(tǒng),是語言理解技術(shù)的出色應(yīng)用;中文之星、紫光拼音等中文智能輸入法引入中文語言模型,目前占有一定的市場份額;ChinaRen(現(xiàn)被搜狐并購)、慧聰?shù)人阉饕婕夹g(shù)開發(fā)商也先后推出中文智能搜索引擎,力圖在激烈的市場競爭中獲得有利的地位;得意公司近日開通的智能短信服務(wù)系統(tǒng),開辟出中文語言理解技術(shù)嶄新的領(lǐng)域。
前景展望
人機交互的最高境界,是非常智能的信息服務(wù)。任何人、在任何時刻、在任何場所、在任何設(shè)備上,都可以通過自然語言和語音方便互相傳遞信息,隨時隨地進行交流。如圖2
不久的將來,我們可能會經(jīng)常遇到這樣的應(yīng)用場景:一個人到一個新的城市(例如北京),若想盡快了解有關(guān)北京的生活服務(wù)信息,就可以用手機或者電話打到一個提供智能信息服務(wù)的系統(tǒng)。他可以直接用口語去問一個擁有海量信息的服務(wù)器:北京有哪些好玩的地方?哪些地方能夠提供很好的餐飲服務(wù)?哪些地方可以購物?他還可以與系統(tǒng)進行人機對話,輕松地買機票、訂房間等等。
北京2008年奧運會將是智能信息服務(wù)大展拳腳的舞臺,奧運會面臨語言障礙。國內(nèi)外產(chǎn)業(yè)界正在緊密合作,研制"面向奧運的多語言智能信息服務(wù)網(wǎng)絡(luò)系統(tǒng)",力爭在北京奧運期間為各國運動員、記者、觀眾,以及來自全世界數(shù)以百萬計的旅游者提供綜合、全面、多語種、可定制的智能信息服務(wù)。該系統(tǒng)將包括多語言信息同步發(fā)布、信息查詢和語音交互式的電子商務(wù),并重點提供基于位置的信息服務(wù);另外還有口語翻譯機和自動翻譯電話等。
中文的使用人數(shù)以及分布范圍僅次于英語,因此中文語言理解和智能信息服務(wù)領(lǐng)域的發(fā)展空間很大,國內(nèi)的社會各界也認識到中文信息處理的重要性,正在開展具有完全自主知識產(chǎn)權(quán)的技術(shù)研發(fā),并積極引領(lǐng)相關(guān)的國際和國內(nèi)技術(shù)標準,以爭取產(chǎn)業(yè)發(fā)展的主動。
得意音通公司供稿 原文發(fā)表于微電腦世界》第十期
相關(guān)鏈接: