中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

CSDN專訪楊植麟:“人機耦合”將是對話語義應(yīng)用的新趨勢

2020-04-20 10:13:47   作者:   來源:CTI論壇   評論:0  點擊:



  
  受訪者|楊植麟,循環(huán)智能聯(lián)合創(chuàng)始人
  記者|徐威龍,編輯|郭芮
  出品|CSDN(ID:CSDNnews)
  「AI技術(shù)生態(tài)論」人物訪談欄目是CSDN發(fā)起的百萬人學(xué)AI倡議下的重要組成部分。通過對AI生態(tài)頂級大咖、創(chuàng)業(yè)者、行業(yè)KOL的訪談,反映其對于行業(yè)的思考、未來趨勢的判斷、技術(shù)的實踐,以及成長的經(jīng)歷。本文為該系列訪談的第12期,通過和循環(huán)智能聯(lián)合創(chuàng)始人楊植麟的訪談,本文詳細解讀了XLNet模型等自然語言技術(shù)以及對話數(shù)據(jù)的應(yīng)用場景等內(nèi)容。
  近年來,由于面向大規(guī)模用戶的音頻、視頻、圖像等業(yè)務(wù)急劇增長,全球數(shù)據(jù)量呈現(xiàn)出爆發(fā)式的增長,“數(shù)據(jù)石油”也為無數(shù)的科技公司提供了“覆手為云”的發(fā)展契機。數(shù)據(jù)預(yù)測,到2020年全球的數(shù)據(jù)量將到達40ZB,車聯(lián)網(wǎng)、智能制造、智慧能源、無線醫(yī)療、無線家庭娛樂、無人機等新型應(yīng)用都將創(chuàng)造出新的數(shù)據(jù)維度。技術(shù)換代下,伴隨著數(shù)據(jù)海嘯而來的“淘金熱”也居高不下。
  事實證明,數(shù)據(jù)帶來的機會是極為龐大的,但目前人們還未能徹底挖掘出數(shù)據(jù)資產(chǎn)的全部價值。在過去,對話數(shù)據(jù)的“含金量”就一直被嚴重忽視了。
  隨著自然語言處理技術(shù)的不斷發(fā)展,時下的對話數(shù)據(jù)價值正在逐漸被喚醒,不同領(lǐng)域的最佳行業(yè)實踐和實際效果都在逐步提升——而那些富有遠見的企業(yè),已經(jīng)開始重視對話數(shù)據(jù)的價值了,但是他們之中的很多人仍缺乏利用這些數(shù)據(jù)產(chǎn)生業(yè)務(wù)價值的最佳實踐。循環(huán)智能則正是基于此出發(fā)點,填補了這一技術(shù)空缺。
  基于原創(chuàng)的XLNet模型、Transformer-XL模型等自然語言處理底層技術(shù),循環(huán)智能打造了領(lǐng)先的AI技術(shù)矩陣。“我們做的事情主要就是:從銷售過程產(chǎn)生的對話數(shù)據(jù)中,包括跟企業(yè)的IM聊天、微信聊天、電話銷售溝通,進行文本的洞察,實現(xiàn)決策層面的賦能,最終提升銷售的轉(zhuǎn)化率。”針對不同行業(yè)的具體需求,實現(xiàn)不同的對話數(shù)據(jù)應(yīng)用場景落地。在本文中,CSDN采訪了循環(huán)智能聯(lián)合創(chuàng)始人楊植麟,其將從對話數(shù)據(jù)的應(yīng)用場景出發(fā),為我們?nèi)娼馕鯴LNet模型原理、核心技術(shù)、當(dāng)前NLP的發(fā)展以及AI人才成長路徑等內(nèi)容。
  在深度學(xué)習(xí)和自然語言處理領(lǐng)域,楊植麟頗有建樹。作為第一作者,其與卡內(nèi)基梅隆大學(xué)、Google Brain團隊聯(lián)合推出NLP領(lǐng)域熱門的國際前沿預(yù)訓(xùn)練XLNet模型,在20個標(biāo)準(zhǔn)任務(wù)上超過了曾經(jīng)保持最優(yōu)性能記錄的Google BERT模型,并在18個標(biāo)準(zhǔn)任務(wù)上取得歷史最好結(jié)果,更被稱為“BERT之后的重要進展”。
△楊植麟與兩位導(dǎo)師Ruslan Salakhutdinov(蘋果AI研究負責(zé)人,右)、William Cohen(谷歌Principal Scientist,左)合影
  在北京智源人工智能研究院公布的2019年度“智源青年科學(xué)家”名單中,他還是最年輕的、也是唯一的“90后”。
  分析對話語義,挖掘數(shù)據(jù)價值
  發(fā)揮數(shù)據(jù)價值已成為大多企業(yè)的共識,在這其中,很多企業(yè)出于提升服務(wù)水平和效率、保存企業(yè)數(shù)據(jù)資產(chǎn)的原因,存儲了大量銷售與客戶、客服與客戶溝通的錄音、文本記錄。如何從對話數(shù)據(jù)中找到對企業(yè)有用的信息、挖掘出客戶所表達內(nèi)容中隱含的潛在產(chǎn)品需求——則是循環(huán)智能的技術(shù)初衷所在。
  他表示,目前具體有四個場景:第一,使用對話數(shù)據(jù),做高意向銷售線索的挖掘、排序和打分,給每一個線索做解決方案匹配和產(chǎn)品推薦;第二,從對話數(shù)據(jù)中抽取客戶畫像,幫助企業(yè)構(gòu)造畫像體系。企業(yè)借助畫像體系可以設(shè)計針對性的運營活動;第三,從對話數(shù)據(jù)中自動挖掘銷售的有效話術(shù),這些有效話術(shù)可以為銷售新人做實時輔助,告訴新人更高效地與客戶溝通;第四,監(jiān)測話術(shù)的執(zhí)行情況,這個過程通常被稱為執(zhí)行力監(jiān)督或質(zhì)檢。“
  同時,我們通過分析對話的語義跟最終結(jié)果——是否成單之間的關(guān)系,預(yù)測哪些對話有更高的成單意向,從而讓這四個場景形成閉環(huán)。”在實際案例上,楊植麟分享了一個比較Top的壽險公司應(yīng)用,“我們的線索評分上線之后,大概通話時長提升了100%,轉(zhuǎn)化率提升了到原來的270%。”
△循環(huán)智能的產(chǎn)品架構(gòu)圖
  技術(shù)層剖析:XLNet優(yōu)于BERT
  “在技術(shù)實現(xiàn)層面,我們所做的事情和實現(xiàn)的場景,跟傳統(tǒng)的對話機器人、聊天機器人或者機器人客服,都有著極大的差別。”
  楊植麟表示,機器人主要做的事情是通過一套模板做簡單的匹配,匹配之后用規(guī)則去生成接下來要說什么。從技術(shù)上說,目前機器人公司基本上沒有使用新一代技術(shù),而循環(huán)智能所做的業(yè)務(wù)場景則是幫企業(yè)做產(chǎn)品與客戶的匹配、銷售線索推薦,這些場景直接影響企業(yè)的業(yè)績,因此企業(yè)對準(zhǔn)確率非常敏感,必須使用最新一代的、更高準(zhǔn)確率的技術(shù)才可以。“我們用了自己原創(chuàng)的XLNet算法去做很大的模型,用很多的數(shù)據(jù)去學(xué)習(xí),使得標(biāo)注的效率、對文本長序列的處理都取得了很大提升,可以來支撐我們的上層業(yè)務(wù)。”此外,還能更好地結(jié)合上下文語義,從溝通對話數(shù)據(jù)中實時提取語義標(biāo)簽,來做合規(guī)質(zhì)檢、客戶畫像和反饋的自動挖掘、銷售和客服的執(zhí)行力監(jiān)督。
  在楊植麟看來,相比BERT,XLNet模型有其明顯的優(yōu)越性。原理上,兩者都是屬于預(yù)訓(xùn)練的方法。但從更具體的角度來說,XLNet其實是融合了兩種不同的預(yù)訓(xùn)練方法:自回歸和自編碼兩種。“BERT可以看成是一種自編碼的方法,XLNet則會克服BERT的一些缺點”,主要是兩個:XLNet不用引入特殊的Mask符號,所以會減輕在預(yù)訓(xùn)練和微調(diào)(Fine-tuning)時候數(shù)據(jù)分布不一致的情況;此外,XLNet可以對不同詞之間的關(guān)聯(lián)性進行建模,而BERT假設(shè)所有要預(yù)測詞之間都是獨立的。XLNet通過一些比較巧妙的、形式上的變化,使得它不需要有這個假設(shè)。“所以XLNet是一個更通用的模型,去掉了比較嚴格的假設(shè),可以對自然語言里面的上下文關(guān)系進行更好地建模。”
△XLNet原理圖
  在具體的產(chǎn)品和解決方案背后,循環(huán)智能同樣面臨著兩方面的技術(shù)難點。一方面,他們需要將自己提出來的模型用到業(yè)務(wù)場景里面,另一方面是要針對具體場景里的一些挑戰(zhàn),針對性地提出技術(shù)解決辦法。具體來說,“第一塊主要是用了我們提出的Transformer-XL、XLNet等一系列通用NLP模型,以及一些主動學(xué)習(xí)(ActiveLearning)的算法,作為底層去支撐上層的應(yīng)用。第二塊就是針對這些具體的場景,它相對來說會有一些比較難的地方。”
  難點1:線索評分會涉及到怎么去融合多種不同模態(tài)的數(shù)據(jù)。比如除了對話數(shù)據(jù),有時候還會有行為數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù),需要將不同模態(tài)的數(shù)據(jù)融合到同一個框架。
  難點2:怎么對很長的對話結(jié)構(gòu)的文本進行建模。用預(yù)訓(xùn)練好的模型通常效果不好,因為它一無法有效地對對話結(jié)構(gòu)進行建模,二沒辦法對很長的文本序列進行建模,所以要對模型進行改進,我們現(xiàn)在可以處理長度幾千個詞的文本。
  難點3:規(guī);a(chǎn)沒有辦法非常依賴標(biāo)注數(shù)據(jù),所以需要提升標(biāo)注的效率。通過小樣本學(xué)習(xí)的思路,上了一套新的系統(tǒng),現(xiàn)在只用10%的標(biāo)注量,就可以達到跟以前一樣的效果,這對規(guī);瘡(fù)制業(yè)務(wù)有非常大的幫助。
  這其中,技術(shù)瓶頸是不可避免的。
  “做實驗的時候,你每一個新的想法不一定都能Work。”楊植麟認為更重要的是在應(yīng)對瓶頸的時候,把心態(tài)變得更好。“很多時候,你不是需要追求做實驗一直不失敗,而是要用更快的速度去迭代,用更快的速度取得結(jié)果。”
  NLP輝煌時代已至
  最近幾年,語音識別、計算機視覺、語言理解等技術(shù)的“崛起”使得沉寂了半個多世紀的人工智能再次火爆起來。事實也證明,人工智能不僅僅是需求驅(qū)動,而且是內(nèi)生驅(qū)動。
  楊植麟認為,算法和算力其實是一個螺旋螺旋式上升的過程。“人工智能的驅(qū)動方式是算力和算法螺旋型上升、相輔相成。一開始算力非常小,科學(xué)家只能去研究最好的算法。但是等到算力大的時候,很多算法就沒用了。很多論文都有這種問題:在算力小的情況下跑了一下效果不錯,但是算力大的時候,一點用都沒有。”“本質(zhì)上,在算法和算力互相迭代的過程中,最新一代的算法解決了大數(shù)據(jù)和大模型這兩個問題,比如說做NLP的話,那大模型就是Transformer,大數(shù)據(jù)就是通過預(yù)訓(xùn)練來解決的。”
  也正是大模型+大數(shù)據(jù)的“繁榮”,直接造就了當(dāng)下NLP的輝煌時代。
  他表示最近幾年NLP領(lǐng)域有兩大突破:第一個突破是從模型的角度看,從簡單的模型演進到了基于Transformer的大模型。Transformer的好處是隨著參數(shù)的變多,效果不斷變好,而且具有非常強的長距離建模的能力。Transformer模型這兩個優(yōu)點,使得現(xiàn)在可以做到很多以前做不了的事情。第二個比較大的進步是思維范式上的轉(zhuǎn)變,誕生了基于預(yù)訓(xùn)練的方式,可以有效地利用沒有標(biāo)注的數(shù)據(jù)。“簡單來說,Transformer是模型角度的突破,預(yù)訓(xùn)練方法是思維范式上的突破,前者解決的是如何訓(xùn)練一個大模型的問題,后者解決的是如何解決NLP沒有大數(shù)據(jù)的問題。”
  對于那些想要扎根AI領(lǐng)域的開發(fā)者來說,楊植麟表示把握當(dāng)下的時代契機十分重要。“想學(xué)習(xí)AI開發(fā)技術(shù),我覺得可以分兩條路徑:第一條路徑是自上向下的、系統(tǒng)性的學(xué)習(xí)。比如看一本比較系統(tǒng)性的教科書,或者網(wǎng)上的課程,幫助你對整個領(lǐng)域的知識脈絡(luò)有一些系統(tǒng)性的了解;第二條路徑是自底向上、需求驅(qū)動的做法。就是說,你先遇到現(xiàn)實中的一個問題,然后從這個問題出發(fā),通過各種網(wǎng)上的搜索工具去調(diào)研相關(guān)的文獻。”而最最重要的是,“一定要去寫代碼!”,或者去跑一些真正的代碼,而不僅僅停留在看的層面——實踐很重要。
  從“人機單獨作戰(zhàn)”到“人機耦合”,AI終將賦能溝通
  “在人工智能領(lǐng)域,我最欣賞‘神經(jīng)網(wǎng)絡(luò)之父’Geofrey Hinton,因為他是最早的奠基人,重要性不言而喻。”也是他,驅(qū)使楊植麟多年來在自然語言處理領(lǐng)域持續(xù)深耕下去,此外,“我覺得語言本身比較有意思,語言是人類知識和認知的載體,如果機器能夠理解語言,然后在理解語言的基礎(chǔ)上進行推理,去做出一些決策,其實是一種很高級的智能的表現(xiàn),這也是人工智能領(lǐng)域比較重要的話題。另一方面則跟時機有關(guān),因為我四五年前開始做研究的時候,計算機視覺CV或者語音識別這兩塊已經(jīng)取得突破了,很多效果已經(jīng)做得比較好了。但NLP仍缺少一些突破,我覺得這個領(lǐng)域會有更多有挑戰(zhàn)性的問題需要去解決。”
  而Google、Facebook等頂尖公司的工作經(jīng)歷,也為他后來的成功創(chuàng)業(yè)打下了基礎(chǔ)。“在這兩家公司有兩個最直接的收獲:其一就是做了一些研究成果出來,現(xiàn)在我們也在實際落地運用,包括ActiveLearning(主動學(xué)習(xí))的思想、預(yù)訓(xùn)練模型,都可以直接用上;第二個收獲,更偏的方法論。就是說,遇到一個問題的時候?qū)W著將大的問題拆成小的問題,然后逐個擊破。我覺得其實創(chuàng)業(yè)跟研究有很多方法論上共通的地方。”
  但在AI真正去賦能溝通的坦蕩前路上,還有一些亟待突破的技術(shù)難點。他表示主要有三個方面:
  第一,從“人機單獨作戰(zhàn)”到“人機耦合”,F(xiàn)在市面上做對話機器人的公司最多,它們做的事情其實是“人機單獨作戰(zhàn)”。比如在銷售場景下,把銷售線索先讓機器人去跟進,然后其中比較好的再讓人去跟;在客服場景下也是一樣,先用機器人去接一些簡單的問題,難的再交給人工客服去接。這其實是一個割裂的狀態(tài),機器人和人做的是獨立的任務(wù),沒有實現(xiàn)協(xié)同。“我們希望讓人和機器更好地耦合,比如在銷售過程中,機器給業(yè)務(wù)員提供輔助,協(xié)助人做決策,或者機器給人推薦方案,由人去執(zhí)行方案。我覺得“人機耦合”最終會成為銷售場景比較好的形態(tài),而不僅僅是人和機器分別作戰(zhàn)。”
  第二,從比較淺層的客戶觸達到深度的決策輸出。還是對話機器人的例子,他們做事情主要是用自動外呼機器人給客戶傳遞一些簡單信息,或者是問一些簡單問題收集一個問卷,或者做個提醒功能。這些其實是比較淺層的觸達,就是說機器人只負責(zé)傳遞信息,而且是較為淺顯的信息。“我們做的事情是讓機器學(xué)習(xí)或者NLP算法深度參與到最重要的銷售決策過程,包括應(yīng)該去跟進哪些人、給他推什么東西、如何與客戶做溝通等。”
  第三,要讓機器能有自學(xué)習(xí)的能力。“當(dāng)我們做到人機耦合、機器可以跟人一起工作,那機器就需要能根據(jù)人的行為或者人的決策產(chǎn)生的結(jié)果,去自動更新和升級算法模型,形成閉環(huán),幫助銷售能力一直演進下去,而非停留在靜態(tài)模型。”
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

相關(guān)閱讀:

專題

CTI論壇會員企業(yè)