“小愛,小愛,明天北京天氣如何?”當(dāng)前,AI對話已經(jīng)深刻融入人們?nèi)粘I畹姆椒矫婷,技術(shù)架構(gòu)和路線更是百花齊放。
然而,作為前沿技術(shù),AI對話系統(tǒng)標(biāo)準(zhǔn)缺失,造成其在應(yīng)用中呈現(xiàn)出水平參差不齊、評價(jià)體系不一等問題。針對這種狀況,6月28日,清華大學(xué)智能技術(shù)與系統(tǒng)實(shí)驗(yàn)室副主任黃民烈教授聯(lián)合學(xué)界和業(yè)界科研機(jī)構(gòu)共同制定的全球首個(gè)《AI對話系統(tǒng)分級定義》(以下簡稱《分級定義》)正式發(fā)布,旨在更好地評估AI對話系統(tǒng)的能力水平,推動AI對話系統(tǒng)在虛擬個(gè)人助理、智能家居、智能汽車(車載語音)、情感陪護(hù)和心理健康等領(lǐng)域的應(yīng)用有據(jù)可依。
起源于圖靈測試的AI對話系統(tǒng),是人工智能領(lǐng)域最重要的研究方向之一。“如果說自然語言處理是人工智能‘皇冠上的明珠’,那么AI對話系統(tǒng)則是自然語言處理中最難、最核心的任務(wù)之一,是‘明珠中最亮的那顆’。”黃民烈說。
圖為黃民烈教授在介紹對話系統(tǒng)分級定義。
黃民烈表示,近年來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,AI對話系統(tǒng)已經(jīng)從基于規(guī)則的第一代和以傳統(tǒng)機(jī)器學(xué)習(xí)為核心的第二代,發(fā)展到以大數(shù)據(jù)和大模型為顯著特征的第三代,對話能力產(chǎn)生了革命性變化,在開放話題上展現(xiàn)了驚人的對話能力,對進(jìn)一步推動人工智能產(chǎn)業(yè)發(fā)展、實(shí)現(xiàn)智能化具有巨大意義和價(jià)值。
“考慮到AI對話系統(tǒng)任務(wù)繁多、評價(jià)維度多樣、技術(shù)路線豐富,撰寫小組在制定《分級定義》時(shí)僅關(guān)注完全由機(jī)器主導(dǎo)的對話系統(tǒng),人機(jī)混合的對話系統(tǒng)不在考慮范圍內(nèi)。”黃民烈說。
黃民烈介紹,同時(shí),為了在實(shí)際應(yīng)用中發(fā)揮價(jià)值,《分級定義》的制定是從用戶可感知,以及可觀察、可測量、可度量的角度出發(fā),不考慮系統(tǒng)的具體技術(shù)實(shí)現(xiàn)方式,也不區(qū)分助理類任務(wù)、閑聊、知識對話等,均以“場景”進(jìn)行表述。
在上述原則之下,《分級定義》從自動對話能力、對話質(zhì)量高低、單一/多個(gè)場景、跨場景的上下文依賴和自然切換能力、擬人化程度、主動和持續(xù)學(xué)習(xí)能力、多模態(tài)感知與表達(dá)能力等角度出發(fā),將AI對話系統(tǒng)劃分為L0-L5六個(gè)等級,等級越高,AI對話系統(tǒng)水平越高。
“從上述標(biāo)準(zhǔn)看,當(dāng)前AI對話系統(tǒng)水平最高已發(fā)展至L2-L3之間,如常見的‘小愛同學(xué)’等AI智能助理。”黃民烈說。
與國外相比,我國AI對話系統(tǒng)水平如何?對此,小米技術(shù)委員會主席、AI實(shí)驗(yàn)室主任王斌表示,從目前的工業(yè)應(yīng)用看,我國的AI對話系統(tǒng)與國際沒有明顯差異,總體處在同一級別。
“現(xiàn)在整體處在L3-L4的路上,距離理想還有一定的距離,需要一到兩年甚至更長時(shí)間的持續(xù)努力。”黃民烈說,要向L4-L5邁進(jìn),需要破解很多關(guān)鍵技術(shù),如記憶、聯(lián)想、推理、自學(xué)習(xí)能力等,能不能做出高表現(xiàn)力的語音合成,以及動作和表情細(xì)粒度的表達(dá),這都是很大的挑戰(zhàn)。
盡管如此,但在華為諾亞方舟實(shí)驗(yàn)室語音語義首席科學(xué)家劉群看來,AI對話系統(tǒng)最高級別的應(yīng)用為復(fù)雜情感任務(wù),該《分級定義》的發(fā)布將促進(jìn)AI對話系統(tǒng)在情感任務(wù)中體現(xiàn)更高水平,從而促進(jìn)人工智能未來在情感陪伴、心理健康、虛擬人、元宇宙等方面的應(yīng)用,大大釋放人力和物力成本,促進(jìn)前沿科技走進(jìn)大眾日常生活。