中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

 首頁 > 新聞 > 國際 >

語音接口 我們已站到下一個交互時代的邊緣

2016-06-27 15:18:48   作者:寧宇   來源:網(wǎng)易科技   評論:0  點(diǎn)擊:


  據(jù)國外媒體報(bào)道,近日美國《連線》雜志撰文指出,隨著計(jì)算機(jī)處理、語音識別、移動通信、云計(jì)算、神經(jīng)網(wǎng)絡(luò)等技術(shù)的發(fā)展日趨成熟,語音接口技術(shù)迎來了飛躍,虛擬語音助理業(yè)務(wù)的發(fā)展迎來了變革時期。
  你或許聽過這樣一個故事。1979年,年輕的史蒂夫喬布斯造訪了位于位于加利福尼亞州帕洛阿圖市的施樂帕克研究中心(Xerox PARC),并見證了帕克研發(fā)的計(jì)算機(jī)圖形用戶界面。一位PARC的工程師使用鼠標(biāo)原型對計(jì)算機(jī)進(jìn)行了相關(guān)操作,下拉菜單、點(diǎn)擊互相重疊的計(jì)算機(jī)窗口。在整個演示過程中,喬布斯所看到的操作方式與以前完全不同。喬布斯后來說,“不到十分鐘,我就清楚有一天所有計(jì)算機(jī)都會以這種方式運(yùn)行。”
  傳說中喬布斯帶領(lǐng)蘋果的團(tuán)隊(duì)復(fù)制了PARC的用戶圖形界面。在隨后的近四十年內(nèi),個人計(jì)算機(jī)技術(shù)開始以前所未有的速度向前發(fā)展,從第一臺Macintosh一路發(fā)展至最新的iPhone手機(jī)。計(jì)算機(jī)的用戶圖形界面克服了命令行以及文字界面的缺點(diǎn),將更多的普通人帶進(jìn)計(jì)算機(jī)世界,使更多的人能夠使用計(jì)算機(jī),他們所需要的技能僅僅是操作鼠標(biāo)指向、單擊或拖動。
  在并不遙遠(yuǎn)的未來,我們依舊會因PARC創(chuàng)造的用戶圖形界面和其因決策失誤而導(dǎo)致錯過個人電腦發(fā)展黃金時期而唏噓不已。但在喬布斯造訪PARC的時候,而另外一個獨(dú)立團(tuán)隊(duì)正在研究關(guān)于人機(jī)交互的全新模式,也就是今天所說的會話用戶界面。這些科學(xué)家設(shè)想了這樣一個世界,在幾十年后的電腦功能時如此強(qiáng)大,需要用戶記住關(guān)于計(jì)算機(jī)操作的每一個命令是完全不切實(shí)際的?茖W(xué)家想到用戶會倒退回來,用一種蛻變的方式與計(jì)算機(jī)協(xié)同工作,而這種方式的接口就是普通人類語言。
  在研究會話用戶界面的團(tuán)隊(duì)中,有一位名為羅恩·卡普蘭(Ron Kaplan)的科學(xué)家。他長相粗壯,說話卻細(xì)聲細(xì)語,留著山羊胡子,但有頭發(fā)稀疏?ㄆ仗m是一位語言學(xué)家,同時也是一位心理學(xué)家和計(jì)算機(jī)專家,其將著名語言學(xué)家諾姆·喬姆斯基的理論用于人機(jī)交互語言的重構(gòu)?ㄆ仗m指出,在上世紀(jì)70年代,他的團(tuán)隊(duì)所開發(fā)的會話用戶界面離實(shí)際應(yīng)用還有相當(dāng)?shù)木嚯x。他們勉強(qiáng)開發(fā)出一個會話用戶系統(tǒng),用戶可以使用標(biāo)準(zhǔn)英語來預(yù)定機(jī)票。但是這種技術(shù)無法用于大規(guī)模的系統(tǒng)性工作,因此也就無法普及?ㄆ仗m表示,“當(dāng)時這種技術(shù)的成本過高,大概要達(dá)到每個用戶一百萬美元。”事實(shí)上,這種技術(shù)需要更快處理速度,更為智能、更高效的分布式處理電腦。卡普蘭當(dāng)時估計(jì)需要15年的時間。
  卡普蘭現(xiàn)在稱,“四十年后,我們終于準(zhǔn)備好了。”
  現(xiàn)在,卡普蘭是語音識別軟件公司Nuance Communications的首席科學(xué)家以及副總裁。該公司是世界上最大的語音接口業(yè)務(wù)公司之一。該公司為福特開發(fā)了車內(nèi)語音系統(tǒng)Sync system,對蘋果Siri的開發(fā)也至關(guān)重要,其與各行業(yè)均有良好的合作關(guān)系。但最近,Nuance發(fā)現(xiàn)很多公司都在涌入語音接口市場。從亞馬遜、Intel到微軟谷歌,幾乎每一個大科技公司都在研發(fā)會話用戶接口,此外還有數(shù)十個初創(chuàng)企業(yè)也在從事相關(guān)研究。我們正處于語音接口技術(shù)的變革之中。這些公司相信,不久之后,用戶能夠跟自己的設(shè)備如同和朋友談話一樣交互。用戶的設(shè)備能夠聽到用戶在說什么、表達(dá)什么意思。
  你或許以及過驚嘆于現(xiàn)在社會的技術(shù)發(fā)展,但這些新的工具和接口將進(jìn)一步拓展你的數(shù)字生活,克服圖形用戶界面在安全、友好、易用性方面的缺點(diǎn)。更貼近自然語言的會話接口將會進(jìn)一步拉近你和技術(shù)之間的關(guān)系,更貼心,更友好,更富于個性化。
  這種技術(shù)的重大轉(zhuǎn)變不僅有利于硅谷,更使得普羅大眾受益。史蒂夫·喬布斯在1979年就看到了圖形用戶界面的重要性,清楚其是拓展計(jì)算機(jī)市場的重要方式。但即便是圖形用戶界面,依舊把大量受眾拒在賽博空間的大門之外。它依舊需要用戶去學(xué)習(xí)計(jì)算機(jī)語言。而現(xiàn)在,隨著語音技術(shù)的發(fā)展,電腦最終將學(xué)會如何直接與人類對話。在不斷學(xué)習(xí)和完善中,人類將打通通向科技世界的通天塔。
  但我們也要清楚,雖然語音技術(shù)已經(jīng)存在多年,但迄今為止依舊不夠成熟。當(dāng)然,你可以舉例說現(xiàn)在的電話自動應(yīng)答系統(tǒng)還算不錯(打進(jìn)電話付款,說“支付”便可調(diào)用相應(yīng)功能)。事實(shí)上,現(xiàn)在的語音接口都依賴于固定化的語言,而在某些情況下還不具備自然語言的功能。譬如你可以問Google Now紐約市人口數(shù)量,它對答如流;你問帝國大廈的位置,它也能應(yīng)對。但倘若你問其包括帝國大廈在內(nèi)的紐約市人口數(shù)量,它就會不知所云。同樣,蘋果語音助手Siri也一貫如此,其最主要的本領(lǐng)就是幫你調(diào)用谷歌搜索,F(xiàn)在的語音接口,與電影中描述的場景差距還很明顯。
  然而,當(dāng)你徜徉在硅谷,和人們談及關(guān)于語音接口的相關(guān)技術(shù),他們的回答如出一轍:現(xiàn)在不同了。
  在六月初的一天,語音識別技術(shù)公司SoundHound首席執(zhí)行官凱文·莫哈耶爾(Keyvan Mohajer)向我展示了公司耗費(fèi)近十年時間研發(fā)出的應(yīng)用程序原型。SoundHound此前曾發(fā)布了一款應(yīng)用,可以通過語音識別并搜索流行音樂。當(dāng)用戶對著手機(jī)哼唱一首曲子時,該應(yīng)用可以識別并搜索出所哼唱的曲子名稱。事實(shí)證明,該應(yīng)用僅僅是莫哈耶爾夢想的一部分:開發(fā)世界上最先進(jìn)的、基于語音的人工智能技術(shù)。
  莫哈耶爾向我展示的這款應(yīng)用原型名為Hound。莫哈耶爾手持一款智能手機(jī)Nexus 5,點(diǎn)擊了一個麥克風(fēng)圖標(biāo)打開程序,開始向Hound提問。開始只是一些簡單的問題,諸如柏林當(dāng)?shù)貢r間或是日本的人口,應(yīng)用程序都給出了正確的答案。隨即莫哈耶爾話峰一轉(zhuǎn),問“那么它們之間的距離是多少?” Hound通過理解之前的對話,很快給出了答案——“大約5536英里”。
  這種問題開始接二連三出現(xiàn),但Hound都對答如流。莫哈耶爾要求Hound根據(jù)要求的利率及條件計(jì)算出貸款一百萬美元的情況下每月所還按揭,Hound也很快計(jì)算出是4270.84美元。
  莫哈耶爾又問,“Space Needle所在國首都人口是多少?” Hound指出莫哈耶爾所問的就是華盛頓的人口,并隨即給出了答案。“日本和中國人口都有多少?首都在哪里?它們的國土面積有多少平方英里?有多少平方公里?有多少人住在印度?還有德國、意大利以及法國的區(qū)號是多少?”莫哈耶爾問出了一連串的問題,但Hound都作出了正確的回答。
  Hound目前還處于測試階段,但它可能是迄今為止識別速度最快,功能最為強(qiáng)大的語音識別系統(tǒng)。它可以同時進(jìn)行語音識別以及自然語言處理,符合現(xiàn)在的技術(shù)以及市場需求。事實(shí)上,各種語音識別系統(tǒng)的飛速發(fā)展只是時間問題。
  畢竟在當(dāng)前,語音接口技術(shù)的基礎(chǔ)技術(shù)——卡普蘭所稱的“門控技術(shù)”已經(jīng)趨于成熟,成本也可接受。這是關(guān)于技術(shù)融合的經(jīng)典:計(jì)算機(jī)處理、語音識別、移動通信、云計(jì)算、神經(jīng)網(wǎng)絡(luò)等技術(shù)的發(fā)展都已經(jīng)成熟,成本也達(dá)到可以接受的水平,可以使得會話用戶接口市場化。
  更進(jìn)一步,不僅僅是相關(guān)技術(shù)的成熟推動了會話用戶接口的研發(fā),而客觀的市場需求也是推動其發(fā)展的重要因素。隨著越來越多的無顯示設(shè)備連入網(wǎng)絡(luò),諸如你家中的燈具、煙霧報(bào)警器,我們也需要一種可行的方式與設(shè)備進(jìn)行交互,這種交互不需要按鈕、菜單或是圖標(biāo)。
  在另一方面,圖形用戶界面已經(jīng)接近其自然限制。程序的功能越來越多,在圖形用戶界面中充斥的菜單和圖標(biāo)選項(xiàng)也越來越復(fù)雜。你可以想象一下Photoshop或者是Excel,功能強(qiáng)大,但有著大量的菜單項(xiàng),或者需要記住各種快捷鍵的使用方式。即便是裁剪一張照片也要從各色工具欄中找出正確選項(xiàng)?ㄆ仗m指出,“圖形用戶界面已經(jīng)到達(dá)極限,現(xiàn)在它已經(jīng)處于超載的邊緣。”
  這就是即將到來的虛擬語音助理市場,當(dāng)你被淹沒在紛繁復(fù)雜的界面窗口、工具欄以及菜單選項(xiàng)時來拯救你,在你和設(shè)備之間建立便捷、高效的聯(lián)系。
  也許目前我們與虛擬語音助理的關(guān)系尚不緊密,但很快這一狀況就會改病啊。今年秋季,隨著一批新款智能手機(jī)的上市,很快相應(yīng)的會話用戶接口發(fā)展也將出現(xiàn)一次飛躍。當(dāng)你升級到iOS 9、Andriod 6或是Windows 10時,你會發(fā)現(xiàn)直接使用內(nèi)置應(yīng)用的頻率會越來越少,更多的是使用蘋果Siri或是谷歌的Google Now以及微軟的Cortana。而在不遠(yuǎn)的將來,數(shù)十億的Facebook用戶將可以打開一個聊天窗口,通過智能語音助手調(diào)用各項(xiàng)功能。語音接口將不再是輔助的方式,而將成為主流和第一選擇。甚至于在某些情況下,它將是用戶的唯一選擇。譬如在蘋果的HomeKit系統(tǒng)中,確保一切設(shè)備關(guān)閉的唯一可行操作就是對蘋果的語音助手說“晚安,Siri”。
  這些虛擬語音助理研發(fā)的初衷是將復(fù)雜簡單化。對于現(xiàn)在的用戶來講,頻繁的下拉菜單操作過于復(fù)雜,調(diào)用一個功能需要按步驟操作,流程過于繁瑣。相比于此,虛擬語音助手清楚手機(jī)內(nèi)每一個程序以及每一項(xiàng)功能,你可以通過說話來調(diào)用這些功能。同時隨著時間的推移,這種人工智能將知曉一切。
  需要指明的是,語音技術(shù)并不會完全取代觸控屏,甚至是鼠標(biāo)和鍵盤。如果你需要使用臺式機(jī),肯定會保留這些人機(jī)交互方式。雖然更多時間你可能會問虛擬語音助理如何調(diào)用功能,譬如“裁剪工具在哪里?”
  但是,對于某些特定群體的人來說,會話用戶接口技術(shù)的發(fā)展將會在很大程度上取代其對圖形用戶界面的使用。諸如一些年輕人都通過麥克風(fēng)輸入文本而不是通過鍵盤。語音消息應(yīng)用Cord創(chuàng)始人以及首席執(zhí)行官托馬斯格諾(Thomas Gayno)指出,“他們只是不打字。”而對于更大一部分人來說,圖形用戶界面完全不適合其使用。那些視障者、老年人在圖形用戶界面前都受到了這種障礙的影響。因此,有些人稱現(xiàn)代計(jì)算機(jī)接口為“直覺”并不十分準(zhǔn)確。
  克里斯·莫里(Chris Maury)對此深有體會。2010年夏季,這位24歲的企業(yè)家在攻讀博士學(xué)位的過程中輟學(xué)轉(zhuǎn)而創(chuàng)業(yè)。但長時間的熬夜使得其視力逐步下降,一位醫(yī)生診斷其患上了斯特格氏癥,這種病癥會使視力逐步退化甚至完全失明。
  作為一名技術(shù)人士,莫里不得不考慮如何應(yīng)對無法看到電腦屏幕的狀況。但在整個美國,對于2000萬視障人士來說,除了屏幕閱讀器別無選擇。
  要使用屏幕閱讀器,用戶需要通過鍵盤移動光標(biāo),選中需要閱讀的屏幕文字,將其轉(zhuǎn)換成一長串的URL,通過機(jī)器語言讀出來。這種相關(guān)的設(shè)備高達(dá)數(shù)千美元,并且需要幾十個小時的培訓(xùn)。隨著數(shù)字環(huán)境越來越復(fù)雜,屏幕閱讀器的使用越來越不方便。莫里表示,“即便是打開一個谷歌搜索也需要很多步驟,這太可怕了。”
  當(dāng)莫里視力開始退化時,他經(jīng)常訪問Blind Twitter去了解情況。莫里開始明白視障人士迫切需要一種技術(shù)。他意識到語音接口對于某些特定用戶更為便捷,而幾乎在同一時間,相關(guān)的語音技術(shù)也風(fēng)行整個硅谷。
  因此,莫里開始著手為視障人士開發(fā)相關(guān)技術(shù)。他創(chuàng)辦了一家名為Conversant Labs的公司研發(fā)語音接口技術(shù)。公司推出的第一個產(chǎn)品是一個名為SayShopping的iPhone應(yīng)用,其可以完全通過語音從Target.com上購買東西。但莫里有更大的想法,公司將于今年年底發(fā)布語音接口框架,為iOS的應(yīng)用開發(fā)者提供會話接口。莫里還希望能夠開發(fā)一款完全基于語音技術(shù)的計(jì)算機(jī)應(yīng)用環(huán)境,同時也可通過頭部運(yùn)動來下達(dá)指令。莫里指出,“這些實(shí)現(xiàn)都是有可能的,只是需要創(chuàng)建。”
  2014年秋季,亞馬遜發(fā)布來名為Echo的新產(chǎn)品,這款智能控制設(shè)備內(nèi)置了名為Alexa的虛擬語音助理,其廣告語是“喚醒話語”。Echo采用了遠(yuǎn)場語音識別技術(shù),甚至在嘈雜房間也可準(zhǔn)確識別話語。此外它還具有監(jiān)聽功能,你可以在家中隨時和其對話。
  當(dāng)我開始使用Alexa時,它可以告訴我天氣,回答基本的問題,在智能手機(jī)上顯示購物清單或者是播放音樂,并沒有過多特別之處。但是隨著時間推移,Alexa更聰明也更完善,它熟悉我的聲音、會開玩笑、能同時運(yùn)行多個計(jì)時器。測試版發(fā)布七個月后,2015年其公開版最終上線,Alexa的可用性越來越強(qiáng)。我了解了它,而它也在了解我。
  這也是關(guān)于會話科技的深層次道理:你只有在與語音助理的深入交互中才會發(fā)現(xiàn)其功能。同行業(yè)的諸多公司都認(rèn)識到這一點(diǎn),都在努力使其語音助手達(dá)到個性化和適應(yīng)性的平衡,使他們更加討人喜歡,易于接受。譬如微軟在開發(fā)語音助手Cortana時,其名稱取材自游戲《光暈(Halo)》中的重要角色。Cortana工程團(tuán)隊(duì)主管Mike Calcagno表示,“Cortana代表了機(jī)智和堅(jiān)韌”。的確,在產(chǎn)品早期即便其可靠性低,益處少,也會引起人們注意。
  這種方式也有策略方面的考量。在微軟、Nuance等公司的研究中,當(dāng)語音助理無處不在、當(dāng)它了解你的習(xí)慣你的環(huán)境、了解你的喜好你的生活時,它就是不可或缺的存在。通過這種人工智能控制所有應(yīng)用程序和設(shè)備的方式自然也就成為必然。
  為此,無論是亞馬遜、谷歌、微軟,還是Nuance或者SoundHound,都在致力于會話平臺技術(shù)的研發(fā)。這些公司清楚,用戶會選擇最了解他們的語音助理。讓我們做好迎接虛擬語音助理的準(zhǔn)備。更重要的是,一旦選擇了其中之一,你就不會再輕易放手。
分享到: 收藏

專題