中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

朗深：智能電話機(jī)器人的語義解析

2022-04-13 09:25:47 作者：來源：CTI論壇評論：0 　點(diǎn)擊：

　　一、語義解析架構(gòu)及流程

　　快遞領(lǐng)域的特點(diǎn)是問題通常是為一些重復(fù)性的服務(wù)請求，比如退貨，查快遞，下單，查運(yùn)費(fèi)等，實(shí)現(xiàn)的是一個(gè)非常特定的目標(biāo)，客戶只能同智能語音機(jī)器人聊設(shè)定好的固定主題，其可能的輸入和輸出是有限的，只需盡可能有效地完成具體的任務(wù)即可。這類對話系統(tǒng)從整體架構(gòu)上可分為兩層：

　　1)意圖識別層：識別語言的真實(shí)意圖，將意圖進(jìn)行分類并進(jìn)行意圖屬性抽取。意圖決定了后續(xù)的領(lǐng)域識別流程，因此意圖層是一個(gè)結(jié)合上下文數(shù)據(jù)模型與領(lǐng)域數(shù)據(jù)模型并不斷對意圖進(jìn)行明確和推理的過程。

　　2)問答匹配層：對問題進(jìn)行匹配識別及生成答案的過程。在對話體系中可按照業(yè)務(wù)場景進(jìn)行不同典型問題類型的劃分，并且依據(jù)不同類型采用不同的匹配流程和方法。

　　領(lǐng)域意圖識別一般只要識別用戶語義所指的類別，行動(dòng)類意圖則是在一個(gè)領(lǐng)域內(nèi)的操作類意圖，電話呼叫場景下意圖識別任務(wù)有著以下難點(diǎn)：

　　1）數(shù)據(jù)量匱乏：一般情況下，一個(gè)新的領(lǐng)域任務(wù)都會(huì)面臨冷啟動(dòng)的問題，相應(yīng)的意圖識別也面臨著缺少足夠訓(xùn)練語料甚至無訓(xùn)練數(shù)據(jù)的問題，因此更多真實(shí)情況下，意圖識別一開始都是小數(shù)據(jù)建模問題。

　　2）語音識別錯(cuò)誤傳遞：很多情況下，意圖識別的對象并不是準(zhǔn)確的文本，一方面可能是用戶拼寫錯(cuò)誤，另一方面可能是由于語音識別的誤差。

　　3）短文本意圖不明顯：真實(shí)口語交流中，用戶的表述一般屬于短句，很多情況下單句并不具備足夠的信息判斷其意圖，給意圖識別模型增加了困難。

　　針對以上主要問題，一般從以下幾點(diǎn)考慮：

　　1）針對數(shù)據(jù)量匱乏的問題，一方面可以借鑒遷移學(xué)習(xí)策略，利用現(xiàn)有的大量文本數(shù)據(jù)或者己有的其他領(lǐng)域任務(wù)輔助當(dāng)前的新任務(wù)，一種簡單的遷移學(xué)習(xí)方法即是使用預(yù)訓(xùn)練詞向量或語言模型結(jié)合簡單深度神經(jīng)網(wǎng)絡(luò)模型對數(shù)據(jù)建模。另一方面，針對無訓(xùn)練樣本或極少訓(xùn)練樣本的新意圖，一開始可以結(jié)合模板匹配或基于手工特征的傳統(tǒng)機(jī)器學(xué)習(xí)方法做粗糙的意圖識別，這種策略具有精準(zhǔn)率高，召回不足的特點(diǎn)，可以再冷啟動(dòng)階段快速構(gòu)建意圖識別系統(tǒng)，同時(shí)可以在小數(shù)據(jù)集模型擬合能力不足的情況下進(jìn)行快速干預(yù)�；谛�(shù)據(jù)量搭建起基本系統(tǒng)，通過不斷獲取真實(shí)語料，返回來再迭代模型，優(yōu)化模型。

　　2）語音轉(zhuǎn)寫誤差傳遞的問題在電話呼叫系統(tǒng)中更為突出，語音識別系統(tǒng)往往不能達(dá)到100%的轉(zhuǎn)寫準(zhǔn)確率，因此，模型要對包含噪聲的文本有相應(yīng)的容錯(cuò)能力。通過實(shí)際樣本分析可以發(fā)現(xiàn)，一般用戶的拼寫或者語音轉(zhuǎn)寫錯(cuò)誤的字往往是正確文本的同音字。因此，引入字（當(dāng)拼寫錯(cuò)誤時(shí)，分詞系統(tǒng)往往無法準(zhǔn)確分詞）和拼音特征可以很大程度上緩解拼寫錯(cuò)誤和轉(zhuǎn)寫錯(cuò)誤的問題。

　　3）針對短文本意圖不明的情況，一般將上下文信息考慮到意圖識別的過程當(dāng)中。而考慮上下文一般有兩種方式，第一種是將歷史信息直接加入到模型當(dāng)中對當(dāng)前文本意圖進(jìn)行判斷，另一種方式則是直接根據(jù)當(dāng)前領(lǐng)域、前一狀態(tài)通過規(guī)則判斷當(dāng)前文本意圖。一個(gè)靈活并且泛化能力較強(qiáng)的意圖識別模塊往往結(jié)合了多種方法，如上所述，這里，意圖識別采用規(guī)則模板以及深度模型相結(jié)合的方法，其中規(guī)則模板的思路方法較為簡單和傳統(tǒng)。

　　根據(jù)快遞業(yè)務(wù)場景特點(diǎn)，語義解析分為了意圖識別和智能問答兩個(gè)子問題。因此設(shè)計(jì)了基于文本分類的意圖識別模型，以及基于深度語義匹配的智能問答模型。

　　1.提取用戶語音識別轉(zhuǎn)寫后的文本首先通過數(shù)據(jù)預(yù)處理單元，進(jìn)行文本去噪（過濾語音轉(zhuǎn)寫生成的語氣詞等）、分詞、分字、提取拼音。

　　2.預(yù)處理后的文本進(jìn)入語義解析單元，進(jìn)行通用意圖識別，該部分依次進(jìn)行模板匹配和通用意圖識別模型，若成功識別為某一通用意圖，則返回意圖ID，否則進(jìn)入步驟3.

　　3.3進(jìn)入業(yè)務(wù)意圖識別，該部分同樣依次進(jìn)行模板匹配和通用意圖識別模型，如果成功識別為某一通用意圖，則返回意圖ID，否則進(jìn)入步驟４。

　　4.進(jìn)入智能問答進(jìn)行語義匹配，如果成功匹配到標(biāo)準(zhǔn)問題，則返回問題ID，否則返回?zé)o意圖。

　　二、意圖識別

　　模型輸入為文本，輸出為該文本所屬不同意圖的概率。本文將意圖識別模型抽象為三層，包括：嵌入層、編碼層、輸出層。嵌入層主要功能為生成詞表示；編碼層以詞表示為輸入，完成對句子進(jìn)行編碼，輸出句子向量；輸出層將句子向量進(jìn)一步變換，計(jì)算損失函數(shù)，最終通過反向傳播算法更新網(wǎng)絡(luò)參數(shù)。

　　三、智能問答

　　智能問答的語義匹配模型的基本架構(gòu)如圖20所示。模型共分為輸入編碼層、交互層以及融合層：輸入編碼層使用雙向LSTM分別對兩個(gè)輸入詞嵌入做序列編碼，以捕獲更豐富的語義信息，該部分詞嵌入也可以采用字符、拼音粒度的表示；交互層首先計(jì)算輸入編碼層表示的Attention特征，然后同詞嵌入、輸入編碼層的輸出特征拼接。拼接特征通過雙向LSTM編碼，進(jìn)一步捕獲帶有相關(guān)信息的句子編碼，作為下一層的輸入；融合層對淺層和深層信息進(jìn)行融合，并對最終相似度得分進(jìn)行預(yù)測。

http://www.ounistar.com/