中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當(dāng)前的位置是:  首頁 > 新聞 > 文章精選 >
 首頁 > 新聞 > 文章精選 >

微軟小冰武威:聊天機(jī)器人的演進(jìn)之路

2019-01-08 10:04:36   作者:   來源:智東西   評(píng)論:0  點(diǎn)擊:


  聊天機(jī)器人一直都是一個(gè)性感的話題,電影《Her》中那個(gè)風(fēng)趣又善解人意的虛擬戀人,可謂是我們對(duì)于人工智能技術(shù)的美好遐想,但要達(dá)到那一步對(duì)于我們還是一場長途跋涉。
  但這絲毫不影響當(dāng)下聊天機(jī)器人的火熱,尤其是隨著近兩年智能音箱的爆發(fā)。在AI的舞臺(tái)上,微軟小冰是一個(gè)明星人物,憑借著“鄰家女孩”溫柔可人般的形象,以及良好的交互體驗(yàn),可謂風(fēng)靡萬千少男少女。
  自2014年誕生以來,在微軟(亞洲)互聯(lián)網(wǎng)工程院諸位技術(shù)大牛的辛勤培育下,目前已經(jīng)成長至第六代,從最初的閑聊走入更多應(yīng)用場景,從大家熟悉的主持節(jié)目、唱歌、講故事、寫詩,到新聞評(píng)論、金融、智能家居、手機(jī)助手等都有它的蹤影。
  在近期舉辦的自然語言處理領(lǐng)域的世界頂級(jí)會(huì)議之一EMNLP(Empirical Methods in Natural Language Processing)上,作為6場Tutorial分享之一,微軟小冰團(tuán)隊(duì)總結(jié)了他們?cè)诹奶鞕C(jī)器人領(lǐng)域的探索。
▲微軟小冰首席科學(xué)家武威博士
  近期,智東西來到微軟(亞洲)互聯(lián)網(wǎng)工程院,與微軟小冰首席科學(xué)家武威博士圍繞聊天機(jī)器人技術(shù)進(jìn)行一場深入溝通。透過微軟小冰背后人機(jī)交互技術(shù)的演進(jìn),我們看到了小冰由最初單一模態(tài)的文字回復(fù)升級(jí)到如今可以用語音、文字、圖像等多模態(tài)的交互,其背后對(duì)話模型也由檢索模型升級(jí)到生成模型、共感模型,小冰由最初靜態(tài)、被動(dòng)的聊天機(jī)器人變成了一個(gè)動(dòng)態(tài)、交互性更強(qiáng)的虛擬助手。
  一、從單一模態(tài)到多模態(tài)演進(jìn)
  四年前,剛誕生的微軟小冰只能在微信中被動(dòng)的回復(fù)用戶的文字消息,而如今它已經(jīng)成長到第六代,逐漸具備了語音、視覺的能力;在交互能力上,也實(shí)現(xiàn)了從被動(dòng)回復(fù)到主動(dòng)交互的轉(zhuǎn)變;在與6.6億人類用戶的交談中,小冰的交互體驗(yàn)越來越好。
  武威就微軟小冰的技術(shù)迭代談道,最開始小冰是一個(gè)單一模態(tài)(文字)的聊天機(jī)器人,等到了第三代的時(shí)候,小冰有了視覺感官。當(dāng)時(shí)用戶發(fā)送一張照片給小冰,小冰就可以“看”到這張照片,并基于這張照片跟用戶進(jìn)行聊天。
  而隨著小冰升級(jí)到第五代后,它有了實(shí)時(shí)視覺感官,此時(shí)小冰擁有了對(duì)視覺信息的動(dòng)態(tài)感知能力。比如當(dāng)你從小冰面前走過,向它揮手,它可以感知到這些動(dòng)態(tài)的信息并作出回應(yīng)。
  在第六代小冰中,微軟小冰團(tuán)隊(duì)又將實(shí)時(shí)視覺感官、聽覺、全雙工語音以及對(duì)話引擎進(jìn)一步融合,形成一個(gè)交互能力更強(qiáng)的更智能的“物種”。
  而這背后正是多模態(tài)交互技術(shù),也是當(dāng)下業(yè)界的一個(gè)研究熱點(diǎn)。武威表示,“多模態(tài)一定是未來人工智能研究的一個(gè)方向。”多模態(tài)跨過了自然語言,是一種更加貼近人的交互方式。因?yàn)槿说慕换ケ旧恚瑹o論輸入還是輸出都是多模態(tài)的,而做人工智能,我們本身就希望能模擬人的行為。
  武威認(rèn)為,從自然語言的角度來講,多模態(tài)技術(shù)還處在行業(yè)的探索與發(fā)力期。目前大家都意識(shí)到了多模態(tài)的重要性,但是同時(shí)又缺乏相應(yīng)的數(shù)據(jù)進(jìn)行研究。目前無論是學(xué)界還是業(yè)界也都在進(jìn)行一些數(shù)據(jù)集的建設(shè)。
  小冰在多模態(tài)上也發(fā)展的較為靠前,目前微軟小冰團(tuán)隊(duì)已經(jīng)同構(gòu)多感官融合的架構(gòu)實(shí)現(xiàn)了一些多模態(tài)交互,比如你輸入一段文字/語音/圖片,小冰會(huì)根據(jù)它看到或聽到的進(jìn)行回復(fù),而回復(fù)的內(nèi)容可能是文字、語音或者一個(gè)表情等,武威認(rèn)為這種交互已經(jīng)是一個(gè)近似多模態(tài)的場景。
  像目前的智能音箱,主要以語音交互為主,未來人機(jī)交互又是否會(huì)以一種模態(tài)為主模態(tài)呢?武威認(rèn)為,這一問題要結(jié)合具體的交互場景來判斷。但如果從人類交互的角度來講,可能某一時(shí)刻,某一種模態(tài)扮演更加重要的作用,但基本上人所有模態(tài)都的需要的,所有模態(tài)都影響人的感知。
  二、從回復(fù)到交互三種模型的迭代
  最初微軟小冰團(tuán)隊(duì)的目標(biāo)是,無論用戶給出怎樣的輸入,小冰都能夠給出一個(gè)不錯(cuò)的回復(fù),并且盡可能的將小冰與用戶之間的對(duì)話維持下去;蛟S正是基于這樣的目標(biāo),小冰在模型上經(jīng)歷了從檢索模型到生成模型再到基于生成模型的共感模型,自身交互能力也經(jīng)歷了從被動(dòng)回復(fù)到動(dòng)態(tài)交互的演進(jìn)。
  在小冰誕生以前,搜索引擎的技術(shù)已經(jīng)相當(dāng)成熟,微軟在做小冰時(shí),將微軟在Bing搜索引擎中積累的技術(shù)能力應(yīng)用到聊天機(jī)器人中,就形成了檢索模型。
  武威介紹道,得益于搜索引擎的發(fā)展,檢索技術(shù)更加成熟,隨著深度學(xué)習(xí)時(shí)代的到來,它們能夠更好的讓機(jī)器學(xué)習(xí)特征,并建立更好的排序模型。檢索模型的特點(diǎn)在于對(duì)數(shù)據(jù)庫信息的重用,只要數(shù)據(jù)庫中有對(duì)應(yīng)的信息,機(jī)器就可能給出一個(gè)很好的回復(fù)。
  但檢索模型的局限在于,一方面如果索引中沒有相關(guān)的回復(fù),那機(jī)器人就沒有辦法給出很好的回答;另一方面檢索模型是對(duì)相關(guān)信息的重復(fù)使用,這就導(dǎo)致回答相對(duì)單一,交互體驗(yàn)受到局限。
  正是檢索模型的局限性,學(xué)界與業(yè)界開始研究生成模型,就自然語言而言,目前生成模型也是一塊前沿的研究領(lǐng)域。武威稱,生成模型是未來對(duì)話研究的一個(gè)方向,未來還有非常大的發(fā)展空間。它是更接近人說話過程的一個(gè)模型,簡單來說就是對(duì)語言的合成。比如小冰可以根據(jù)你的說話內(nèi)容,合成出不同模態(tài)的回復(fù),或者合成出不同性格的回復(fù),這樣回復(fù)的內(nèi)容就會(huì)更加豐富,更加像人類的表達(dá)。
  目前這兩種模型都應(yīng)用在微軟小冰中,并承擔(dān)不同的分工。武威介紹道這兩種模型各有特點(diǎn),檢索技術(shù)非常成熟,直接使用已有的回復(fù),并且符合語言的邏輯,相對(duì)來說效果會(huì)更好一些,在主流的聊天機(jī)器人產(chǎn)品上仍扮演著重要角色。
  而生成模型是一個(gè)更自然的對(duì)人類交互進(jìn)行建模的過程,但技術(shù)還不那么成熟,比如生成的回復(fù),經(jīng)常會(huì)是一些萬能回復(fù)“我知道了”、“我也是”等,語言本身可能也相矛盾等,這些問題都是對(duì)話生成的一個(gè)研究重點(diǎn),很多問題有待解決。
  在兩個(gè)模型的配合上他認(rèn)為,生成模型更適合從全局出發(fā),對(duì)人機(jī)交互對(duì)話的全流程進(jìn)行把控,而檢索模型可以解決目前生成模型做的不太好的一些問題,針對(duì)交互細(xì)節(jié)進(jìn)行優(yōu)化。比如在具體應(yīng)用中,如果小冰識(shí)別到了用戶的意圖,并且能夠在數(shù)據(jù)庫中找到一個(gè)非常合適的回復(fù),就可以使用檢索模型進(jìn)行回答;如果無法找到一個(gè)合適的回復(fù),就可以依靠生成模型進(jìn)行對(duì)話的生成。武威還補(bǔ)充道,在印度尼西亞、日本等地,微軟的聊天機(jī)器人都是基于生成模型進(jìn)行回復(fù)的。
  但是在武威看來,單純的生成模型在人機(jī)交互中仍然是一種被動(dòng)回復(fù),讓回復(fù)的結(jié)果更加人性化,但還算不上交互。而共感模型是基于生成模型,逐漸解決的就是小冰從回復(fù)到交互的問題。
  武威說,共感模型的關(guān)鍵在于交互,它是主動(dòng)與被動(dòng)回復(fù)的結(jié)合,是一個(gè)帶有策略的動(dòng)態(tài)的對(duì)話過程。比如在人與人的交互中,會(huì)有主動(dòng)的一方與被動(dòng)的一方,并且雙方的角色也可能會(huì)不斷轉(zhuǎn)換,這構(gòu)成了一個(gè)完整的交互過程。共感模型也是如此,它是一個(gè)動(dòng)態(tài)的交流過程,小冰可以去察覺用戶的對(duì)話意愿,來判斷是該主動(dòng)一點(diǎn),還是多一點(diǎn)傾聽,通過主動(dòng)與被動(dòng)的對(duì)話策略來引導(dǎo)對(duì)話的延續(xù)。
  從檢索模型到生成模型再到第六代微軟小冰中的共感模型,武威稱,這是一個(gè)由淺層、簡單層次的回復(fù),上升到對(duì)話引導(dǎo)和管理的過程。
  三、NLP技術(shù)的前沿探索
  但目前聊天機(jī)器人仍屬于早期的探索階段,盡管微軟小冰已經(jīng)在行業(yè)中走到一個(gè)比較靠前的位置,但也仍存在許多問題有待解決。
  武威從技術(shù)與場景兩個(gè)維度談道,從技術(shù)上來說,如今的聊天機(jī)器人在回復(fù)上仍有很多問題,比如不相關(guān)、缺乏內(nèi)容等;從場景來說,聊天機(jī)器人最終會(huì)走向什么樣的場景也有待探索。
  針對(duì)與當(dāng)下行業(yè)在人機(jī)交互技術(shù)上的難點(diǎn),他說機(jī)器如何更好的理解用戶,怎么理解用戶的意圖,怎么能夠產(chǎn)生更加流暢、內(nèi)容豐富的回復(fù),都是聊天機(jī)器人行業(yè)需要解決的問題,行業(yè)仍然在探索期。
  盡管對(duì)話生成領(lǐng)域有大量工作致力于增強(qiáng)對(duì)話生成的多樣性,但武威指出這一領(lǐng)域仍有較大空間,多模態(tài)盡管是未來的一個(gè)研究方向,但是多模態(tài)進(jìn)入人機(jī)交互后,會(huì)帶來怎么的新問題,目前行業(yè)都有待進(jìn)一步探索。
  而被譽(yù)為人工智能桂冠上的明珠的NLP(自然語言處理)技術(shù),武威稱,只能說我們有了大模型、大數(shù)據(jù),我們可以利用它們產(chǎn)生一個(gè)不錯(cuò)的表示,但這個(gè)表示離理解有多遠(yuǎn),則很難講。
  比如在機(jī)器閱讀理解中,如果我們稍微波動(dòng)一下數(shù)據(jù),這對(duì)人來講可能沒有太大影響,但是機(jī)器就會(huì)產(chǎn)生較大的錯(cuò)誤,這就說明機(jī)器在很多問題上理解的并不到位。此外端到端的生成模型就像一個(gè)“黑盒子”,我們很難解釋為什么會(huì)生成這樣的回復(fù),這也導(dǎo)致我們很難進(jìn)一步去解決其中的問題。
  2018年伊始,阿里和微軟亞洲研究院相繼刷新了斯坦福大學(xué)發(fā)起的SQuAD(Stanford Question Answering Dataset)文本理解挑戰(zhàn)賽成績,一時(shí)間機(jī)器閱讀理解得分超過人類成為一個(gè)熱議的話題。
  武威對(duì)機(jī)器閱讀理解的這一進(jìn)展持肯定觀點(diǎn),他稱正是得益于SQuAD之類數(shù)據(jù)集的出現(xiàn),我們?cè)诖嘶A(chǔ)上不斷迭代算法模型,近幾年來整個(gè)機(jī)器閱讀理解取得了飛躍性的發(fā)展。
  但是不能憑空說機(jī)器閱讀理解超過人類,應(yīng)該說在特定數(shù)據(jù)以及特定的評(píng)估準(zhǔn)則下,機(jī)器可以跟人類水平持平,甚至在指標(biāo)上超過人類。
  盡管近兩年NLP開始在諸如智能硬件、車載以及垂直行業(yè)領(lǐng)域開始落地,并且取得一些不錯(cuò)的效果,但武威認(rèn)為NLP最終還是要回到通用上來。因?yàn)槿死斫馐澜缡且砸环N通用的認(rèn)知進(jìn)行的,開放式對(duì)話才是人的一般狀態(tài)。
  此外他還強(qiáng)調(diào)道,通用NLP是基礎(chǔ),細(xì)分領(lǐng)域的NLP只有扎根在這個(gè)基礎(chǔ)上,才能夠有更深的發(fā)展。
  但在通用NLP上,盡管有谷歌的BERT模型在11項(xiàng)NLP任務(wù)中都取得不錯(cuò)的效果,但數(shù)據(jù)背后模型究竟理解到了什么,都有待行業(yè)探索。
  武威就自然語言談道,當(dāng)下已有機(jī)構(gòu)將通用的開放式聊天對(duì)話和基于任務(wù)式的對(duì)話結(jié)合在一起去做相關(guān)的研究,并且微軟小冰也在做相關(guān)領(lǐng)域的探索。
  結(jié)語:多模態(tài)、個(gè)性化交互成趨勢(shì)
  通過與武威的溝通和微軟小冰在人機(jī)交互上的一些探索可以發(fā)現(xiàn),多模態(tài)交互、任務(wù)與非任務(wù)結(jié)合的對(duì)話方式等都可能是未來人機(jī)交互的一個(gè)研究趨勢(shì)。
  此外,他認(rèn)為個(gè)性化也是聊天機(jī)器人的一個(gè)方向,目前很多高校、機(jī)構(gòu)也都在朝著這一方向探索。微軟未來也會(huì)在小冰框架基礎(chǔ)上,生產(chǎn)各種各樣的具有不同個(gè)性的聊天機(jī)器人。
  要想推動(dòng)聊天機(jī)器人進(jìn)一步發(fā)展,武威認(rèn)為一方面數(shù)據(jù)非常重要,另一方面在模型的方法論上也有待突破。比如當(dāng)下我們深度依賴深度學(xué)習(xí)這種基于序列到序列的建模,但下一個(gè)這種級(jí)別的模型是什么?能帶來本質(zhì)變化的模型是什么?有有待業(yè)界去研究。
  如果說電影《Her》代表了我們對(duì)人工智能的一種探尋,那我們還需要多久才能達(dá)到那一狀態(tài)?武威謹(jǐn)慎地稱很難評(píng)估,因?yàn)橛行〇|西一旦能夠評(píng)估,就說明你已經(jīng)知道答案了,而NLP之所以我們當(dāng)下難以攻克,正是因?yàn)槲覀兡壳安恢牢磥淼拇鸢甘鞘裁础?/div>
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)