基于Web的語音平臺(tái)
——下一代語音平臺(tái)Speech Server 2004

陳銳 2004/08/27

  在過去很長一段時(shí)間內(nèi),語音應(yīng)用在很大程度上都只是實(shí)驗(yàn)室中純技術(shù)性的東西。而現(xiàn)在語音技術(shù)正逐漸成為企業(yè)應(yīng)用中的重要一環(huán),在銀行、證券、教學(xué)、電信增值應(yīng)用、企業(yè)客戶服務(wù)、企業(yè)內(nèi)部應(yīng)用等領(lǐng)域都擁有廣泛的應(yīng)用前景。在當(dāng)今的語音應(yīng)用技術(shù)中,基于Web的語音應(yīng)用是一個(gè)新的發(fā)展前端。IBM、微軟等公司都提供了自己的基于Web的語音平臺(tái)。那么什么是基于Web的語音平臺(tái)?它的核心技術(shù)是什么?應(yīng)用前景如何?本文作者將結(jié)合微軟Speech Server 2004為大家做簡要剖析。

什么是基于Web的語音平臺(tái)?

  簡而言之,它就是互聯(lián)網(wǎng)絡(luò)的一個(gè)語音接口。用戶可以通過固定電話或者移動(dòng)電話通過語音交互的方式訪問互聯(lián)網(wǎng)。我們可以通過下面的圖來看看Web語音平臺(tái)的位置:


  上圖中的Speech Server就是微軟的Web語音平臺(tái),可以看到它連接起了電話網(wǎng)絡(luò)(PSTN)以及Web Server。

為什么要使用基于Web的語音平臺(tái)


  滿足客戶端復(fù)雜性的要求 現(xiàn)在的互聯(lián)網(wǎng)絡(luò)接入設(shè)備不再像5、6年以前只有PC,智能手機(jī)、Pocket PC、Tablet PC以及其他各種智能終端都是訪問互聯(lián)網(wǎng)的客戶端,而這些設(shè)備受使用場所、自身尺寸等方面的限制,不可能像PC那樣使用傳統(tǒng)的鼠標(biāo)、鍵盤和相對較大的顯示界面進(jìn)行交互。在這個(gè)時(shí)候,語音交互就可以大顯身手了。

  整合的要求 很多企業(yè)都有自己的語音平臺(tái)和Web平臺(tái)。在很多企業(yè)中,它們是獨(dú)立的系統(tǒng)。通過基于Web的語音平臺(tái),可以將兩者有機(jī)地結(jié)合在一起。例如微軟的Speech Server 2004就支持與Intel 以及 Intervoice語音平臺(tái)的集成。

Speech Server 2004:語音先行者

  在語音應(yīng)用方面微軟是一個(gè)先行者,在語音應(yīng)用還沒有被人們所認(rèn)識的時(shí)候微軟已經(jīng)推出了自己的桌面語音產(chǎn)品(大家應(yīng)該都知道金山詞霸中的單詞發(fā)音,它使用的就是微軟TTS引擎)。而Speech Server 2004是微軟今年新推出的基于Web的語音服務(wù)器端產(chǎn)品,它主要分為兩個(gè)部分:SES(Speech Engine Services)和TAS(Telephony Application Services)。其中SES是語音引擎服務(wù),包括SAPI、語音輸入以及語音識別,支持話音、PPC以及桌面語音;TAS是電話應(yīng)用服務(wù),集成了SALT以及媒體與語音管理,是第三方話音界面與Speech Server的接口。

  Speech Server 2004相比其他的語音系統(tǒng)有以下的主要特點(diǎn):

  • 降低了開發(fā)成本


  •   開發(fā)語音應(yīng)用曾經(jīng)是一個(gè)開銷很大的工程,它需要對電話語音底層有深入的了解。而Speech Server是建立在 .NET平臺(tái)基礎(chǔ)之上,提供了基于.NET的SDK,通過Speech Server SDK中集成的眾多組件以及輔助工具,開發(fā)人員可以像開發(fā)普通ASP.NET Application一樣來開發(fā)、測試、部署語音應(yīng)用程序。

  • 集成了更多協(xié)議


  •   它支持通過PBX進(jìn)入的語音以及從ACD/CTI進(jìn)入的數(shù)據(jù)。

  • 提供更多分析工具/組件


  •   微軟在Speech Server中集成了數(shù)據(jù)分析工具,Call Viewer以及Speech Application Reports。Call Viewer可以讓開發(fā)人員和系統(tǒng)管理人員直觀地查看電話撥入情況,而Speech Application Reports是一個(gè)基于Microsoft Reporting Services的報(bào)表工具?梢酝ㄟ^這個(gè)工具生成詳細(xì)的報(bào)表。

    應(yīng)用前景

      想象一下,當(dāng)你開車進(jìn)入一個(gè)陌生的城市尋找餐廳時(shí),只要對著車載話筒說出你想要吃的口味,你的車載導(dǎo)航系統(tǒng)中就會(huì)自動(dòng)列出符合你口味的餐廳并顯示出路線圖。你可以選擇餐廳、收聽餐廳介紹、查看餐廳用餐情況并可直接與餐廳員工通話訂座位。再想象一下如果你需要在明天下午3點(diǎn)組織一個(gè)重要會(huì)議,只需在企業(yè)內(nèi)部網(wǎng)中登記會(huì)議以及參與會(huì)議的公司人員,那么在開會(huì)之前,所有的參會(huì)人員都能夠接到通知開會(huì)的電話。

      由于語音技術(shù)的改進(jìn)(包括發(fā)音引擎、語音識別),語音應(yīng)用開發(fā)標(biāo)準(zhǔn)的制定,相關(guān)市場的成熟,加上用戶對通過智能設(shè)備訪問互聯(lián)網(wǎng)/內(nèi)部網(wǎng)的需求越來越多,基于Web的語音平臺(tái)必定有廣闊的發(fā)展空間。

    計(jì)算機(jī)世界網(wǎng)(www.ccw.com.cn)


    相關(guān)鏈接:
    Dynamics的“靈活”戰(zhàn)略 2009-09-28
    微軟國內(nèi)首推Push mail 酷派3G產(chǎn)品率先支持 2009-09-28
    鮑爾默:我們搞砸了Windows Mobile 7 2009-09-25
    微軟全球基礎(chǔ)服務(wù)部門副總裁離職加盟思科 2009-09-24
    微軟推最新手機(jī)操作系統(tǒng)WindowsMobile6.5 2009-09-04

    分類信息:     文摘   技術(shù)_語音識別_文摘