中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當(dāng)前的位置是:  首頁 > 新聞 > 國內(nèi) >
 首頁 > 新聞 > 國內(nèi) >

MRCP學(xué)習(xí)筆記-自然語言語義標(biāo)識語言(NLSML)

2018-07-05 11:18:24   作者: james.zhu   來源:CTI論壇   評論:0  點擊:


  MRCP協(xié)議使用了Natural Language Semantics Markup Language(NLSML)來呈現(xiàn)數(shù)據(jù)的輸出格式,它封裝了語音識別資源和說話人確認(rèn)資源的數(shù)據(jù)。Natural Language Semantics Markup Language的中文的全稱是自然語言語義標(biāo)識語言。為了書寫方便,我們在接下來的部分使用其縮寫來表示。NLSML是W3C的一個發(fā)布標(biāo)準(zhǔn),MRCP協(xié)議借用了NLSML的部分技術(shù)細(xì)節(jié),經(jīng)過一些裁剪實現(xiàn)了MRCP的NLSML版本。在今天的章節(jié)中,我們將涵蓋MRCP的自然語言語義標(biāo)識語言一些關(guān)鍵配置參數(shù)和使用示例。
  1、首先,我們介紹一下NLSML的一些背景信息。MRCP中的NLSML實際上是一種數(shù)據(jù)交換的格式,它介于語音識別和說話人確認(rèn)資源的之間。
  NLSML可表示的數(shù)據(jù)信息包括用戶語音輸入,用戶的DTMF輸入,和其相關(guān)的語義解釋信息,信任度信息和時間戳的信息。
  MRCP拓展了NLSML來進(jìn)一步表示說話人注冊語法(英文全稱是Voiceen rolled grammars, 有時也稱之為speaker dependent grammars)相關(guān)數(shù)據(jù)。speaker dependent grammars 表示的是由用戶自己語音創(chuàng)建的語法,為了進(jìn)一步的語音識別操作來服務(wù)的語法形式。
  NLSML也可以配合說話人確認(rèn)資源來表示各種說話人確認(rèn)信息和身份等相關(guān)的數(shù)據(jù)。
  2、首先讓我們看看NLSML的數(shù)據(jù)結(jié)構(gòu)。NLSML的數(shù)據(jù)結(jié)構(gòu)通過媒體類型來定義:application/nlsml+xml。其結(jié)構(gòu)如下:
  < xmlversion="1.0"encoding="UTF-8" ><resultxmlns="http://www.ietf.org/xml/ns/mrcpv2">
  …
  </result>
  這里的數(shù)據(jù)完全取決于是否使用了NLSML返回的語音識別的結(jié)果信息,例如語音識別結(jié)果,聲音注冊的語法結(jié)果和說話人確認(rèn)和身份結(jié)果都等數(shù)據(jù)。我們在下面的章節(jié)中會依次介紹這三種數(shù)據(jù)結(jié)果的結(jié)構(gòu)。
  3、現(xiàn)在我們首先介紹一下語音識別結(jié)果的數(shù)據(jù)格式。語音識別的結(jié)果是被封裝在NLSML中,并且包含在了RECOGNITION COMPLETE事件的消息體或GET-RESULT 響應(yīng)的信息體。我們已經(jīng)在前面的章節(jié)中介紹過事件的消息體內(nèi)容,讀者可查閱歷史文檔學(xué)習(xí)。NLSML的結(jié)果通過<result>的一個或多個子要素標(biāo)簽<interpretation>來做標(biāo)識。以下表中表示了NLSML中的數(shù)據(jù)格式要素和其屬性數(shù)值。
  剛才,我們已經(jīng)提到過,每個NLSML文件至少包含一個或多個<interpretation>。如果有多個<interpretation>時,這里的<interpretation>將會以遞減信任度的形式排列?蛇x數(shù)值confidence表示對其<interpretation>的數(shù)值的信任評價值,其取值范圍從0.0到1.0。在<interpretation>中包含一個<input>和一個<instance>要素。<input>表示用戶輸入的文本形式,<instance>則包含了相應(yīng)的語義解釋結(jié)果。如果沒有成功識別的話,此文件會包含<noinput>或 <nomatch>的要素,表示未成功識別。timestamp-start和timestamp-end用來表示用戶輸入時間段。這里,讀者要注意,其時間戳格式是ISO 8601格式標(biāo)準(zhǔn)。
  語音識別在一定時間內(nèi),其檢測結(jié)果可能是成功的也可能是失敗的。
  我們重點介紹幾個不同的狀態(tài)返回結(jié)果。當(dāng)在一定時間內(nèi)沒有檢測到用戶輸入時,語音識別引擎會在返回的RECOGNITION-COMPLETE事件中返回002 no-input-timeout 錯誤碼。關(guān)于002 錯誤碼我們在以前的章節(jié)中做過介紹,用戶可以查閱歷史文檔。如果NLSML結(jié)果在返回的事件的消息體中的話,NLSML將返回一個<noinput>作為<input>的子要素。如果識別引擎檢測到了用戶輸入數(shù)據(jù),但是識別引擎沒有匹配語法設(shè)置或超過信任度的峰值參數(shù)時,在RECOGNITION-COMPLETE的返回的事件中,識別引擎會攜帶001 no-match 錯誤碼。同時,如果返回的事件消息體中包含了NLSML的結(jié)果,NLMSL將包含一個<nomatch>子要素作為<input>的子要素。另外,在<nomatch>要素中可能包含某些可選的文本,這些文本是被拒絕匹配中的最佳結(jié)果。我們列舉幾個不同的返回結(jié)果來說明語音識別是否成功。
  成功的識別結(jié)果,包含兩個<interpretation>值和相應(yīng)的返回值<instance>。
  < xml version="1.0" encoding="UTF-8" >
  <result xmlns="http://www.ietf.org/xml/ns/mrcpv2"
  grammar="http://www.example.com/demo.grxml">
  <interpretation confidence="0.81">
  <input mode="speech">
  to recognise speech
  </input>
  <instance>
  to recognise speech
  </instance>
  </interpretation>
  <interpretation confidence="0.75">
  <input mode="speech">
  to wreck a nice beach
  </input>
  <instance>
  to wreck a nice beach
  </instance>
  </interpretation>
  </result>
  無用戶輸入的檢測結(jié)果,這里輸出的是<noinput/>子要素,可能沒有用戶輸入或沒有設(shè)置時間戳設(shè)置。
  < xml version="1.0" encoding="UTF-8" >
  <result xmlns="http://www.ietf.org/xml/ns/mrcpv2">
  <interpretation>
  <input mode="speech">
  <noinput/>
  </input>
  <instance/>
  </interpretation>
  </result>
  無匹配的返回結(jié)果,這里可能是信任度峰值的數(shù)值不準(zhǔn)確導(dǎo)致不匹配。
  < xml version="1.0" encoding="UTF-8" >
  <result xmlns="http://www.ietf.org/xml/ns/mrcpv2"
  grammar="http://www.example.com/number.grxml">
  <interpretation confidence="0.31">
  <input mode="speech">
  <nomatch>one</nomatch> // 雖然返回拒絕匹配輸出結(jié)果,但是提供了最佳匹配可選內(nèi)容。
  </input>
  <instance/>
  </interpretation>
  </result>
  4、上面的章節(jié)中我們介紹了語音識別的返回結(jié)果匹配的結(jié)果,這里我們進(jìn)一步介紹包含語義解釋的語音識別的語法結(jié)構(gòu)。當(dāng)語法中的tag-format設(shè)置為semantics/1.0-literals 時,<tag>要素中的內(nèi)容則被解釋為ECMAScript 腳本。我們在前面的章節(jié)中已經(jīng)說明這個定義。當(dāng)所有匹配的<tag>執(zhí)行以后會從語法規(guī)則中生成語義結(jié)果。然后,NLSML會把匹配的語法中的語義解釋結(jié)果插入到<instance>中,F(xiàn)在讓我們看一下以下示例:
  < xmlversion="1.0"encoding="UTF-8" ><grammarversion="1.0"xmlns="http://www.w3.org/2001/06/grammar"
  mode="voice"xml:
  lang="en-IE"
  root="yesno"
  tag-format="semantics/1.0-literals">
  <ruleid="yesno">
  <one-of>
  <item>yes<tag>affirmative</tag></item>
  <item>yea<tag>affirmative</tag></item>
  <item>no<tag>negative</tag></item>
  <item>nah<tag>negative</tag></item>
  </one-of></rule>
  </grammar>
  現(xiàn)在,如果我們假設(shè)用戶發(fā)音是單詞“yea”,那么NLSML可能生成的結(jié)果是:
  < xmlversion="1.0"encoding="UTF-8" ><resultxmlns="http://www.ietf.org/xml/ns/mrcpv2"
  grammar="http://www.example.com/yesno.grxml"><interpretationconfidence="0.91">
  <inputmode="speech">yea</input>
  <instance>affirmative</instance>
  </interpretation></result>
  其他的應(yīng)用程序則可以根據(jù)<instance>的結(jié)果來做進(jìn)一步的業(yè)務(wù)處理。
  5、前面我們介紹了ECMAScript的語法結(jié)構(gòu)和具體使用方式和解釋結(jié)果。語義解釋結(jié)果會保存到數(shù)據(jù)文件中。當(dāng)規(guī)則中的變量被認(rèn)定為一個標(biāo)量類型(例如string, number,boolean,null或undefined類型)時,那么語義結(jié)果同樣會NLSML生成的<instance>中。這里,如果number是小于零,則加一個negative前綴。如果是布爾值,則為true或false。null則為null值。如果是undefined的值,則仍然為undefined值。以下語法同樣會生成同樣的語義結(jié)果(根據(jù)前面所生產(chǎn)的語義結(jié)果):
  < xmlversion="1.0"encoding="UTF-8" ><grammarversion="1.0"xmlns="http://www.w3.org/2001/06/grammar"
  mode="voice"xml:
  lang="en-IE"
  root="yesno"
  tag-format="semantics/1.0">
  <ruleid="yesno">
  <one-of>
  <item>yes<tag>out="affirmative";</tag>
  </item><item>yea<tag>out="affirmative";</tag></item><item>no<tag>out="negative";</tag></item>
  <item>nah<tag>out="negative";</tag></item>
  </one-of>
  </rule>
  </grammar>
  當(dāng)語法規(guī)則的變量不是標(biāo)量變量類型,它返回的是ECMAScript 對象時,則處理的數(shù)據(jù)格式更加復(fù)雜。關(guān)于如何從ECMAScript 對象轉(zhuǎn)轉(zhuǎn)換成XML語法結(jié)構(gòu)的規(guī)定,用戶可以參考Semantic Interpretation for Speech Recognition(SISR)。規(guī)則中定義了不同的轉(zhuǎn)換規(guī)則,用戶可以做進(jìn)一步的了解。具體的規(guī)則如下:
  現(xiàn)在讓我們了解一下語法規(guī)則和轉(zhuǎn)換后的結(jié)果:
  < xmlversion="1.0"encoding="UTF-8" ><grammarversion="1.0"xmlns="http://www.w3.org/2001/06/grammar"
  mode="voice"
  xml:lang="en-GB"
  root="travel"tag-format="semantics/1.0">
  <ruleid="travel">
  <tag>out.travel=newObject();</tag>
  I want a fly from
  <rulerefuri="#city"/>
  <tag>out.travel.orig=rules.city;</tag>
  to
  <rulerefuri="#city"/>
  <tag>out.travel.dest=rules.city;</tag>
  </rule><ruleid="city">
  <one-of>
  <item>Dublin<tag>out="Dublin";</tag></item><item>London<tag>out="London";</tag></item><item>Paris<tag>out="Paris";</tag>
  </item>
  </one-of>
  </rule>
  </grammar>
  在以上的示例中,對于“I want to fly from Dublin to Paris“ 輸入變量來說,其生成的結(jié)果規(guī)則變量是:
  {
  travel:
  {
  orig:Dublin,
  dest:Paris
  }
  }
  如果我們把整個結(jié)果通過規(guī)則轉(zhuǎn)換的規(guī)則來進(jìn)行語法處理后,NLSML的結(jié)果類似于:
  < xmlversion="1.0"encoding="UTF-8" >
  <result xmlns="http://www.ietf.org/xml/ns/mrcpv2"
  grammar="http://www.example.com/travel.grxml">
  <interpretation confidence="0.93">
  <input mode="speech">I want to fly from Dublin to Paris</input>
  <instance>
  <travel>
  <orig>Dublin</orig>
  <dest>Paris</dest>
  </travel>
  </instance>
  </interpretation>
  </result>
  語法規(guī)則變量的類型也可能是array類型或其中一個屬性可能是array的數(shù)據(jù)類型。這種情況下,如果規(guī)則變量轉(zhuǎn)換成語義結(jié)果的話,需要遵守一定的規(guī)則。具體的規(guī)則如下:
  Array對象的帶索引的要素會變成XML的子要素,并且?guī)?lt;item>名稱。
  每個item中的參數(shù)屬性命名為帶索引支持,此索引對應(yīng)Array中的要素。
  XML文件中包含<item>要素屬性length,此值通過ECMAScript Array的對象來定義。
  以上規(guī)則看起來比較難以理解,我們通過以下示例來加以說明:
  < xmlversion="1.0"encoding="UTF-8" >
  <grammar version="1.0"
  xmlns="http://www.w3.org/2001/06/grammar"
  mode="voice"
  xml:lang="en-GB"
  root="string"
  tag-format="semantics/1.0">
  <ruleid="string">
  <tag>out.digitstring=newArray();</tag>
  <itemrepeat="1-">
  <rulerefuri="#digits"/>
  <tag>out.digitstring.push(rules.digits);</tag>
  </item>
  </rule>
  <ruleid="digits">
  <one-of>
  <item>one<tag>out=1;</tag></item>
  <item>two<tag>out=2;</tag></item>
  <item>three<tag>out=3;</tag></item>
  <item>four<tag>out=4;</tag></item>
  <item>five<tag>out=5;</tag></item>
  </one-of>
  </rule>
  </grammar>
  如果用戶的輸入語句是”5,4,3,2,1“的話,生成的array 類型的對象變量結(jié)果格式為:
  {
  digitstring:[ 5, 4, 3, 2, 1]  // 這里的長度是5,包含五個數(shù)值。
  }
  如果按照上面的三條規(guī)則進(jìn)行轉(zhuǎn)換以后,生成的結(jié)果類似于:
  < xmlversion="1.0"encoding="UTF-8" ><resultxmlns="http://www.ietf.org/xml/ns/mrcpv2"
  grammar="http://www.example.com/yesno.grxml">
  <interpretation confidence="0.93">
  <input mode="speech">
  five four three two one
  </input>
  <instance>
  <digitstring length="5"> // 長度取決于array 對象值。
  <item index="0">5</item>  // 這里0對應(yīng)的是5
  <itemindex="1">4</item>
  <itemindex="2">3</item>
  <itemindex="3">2</item>
  <itemindex="4">1</item>
  </digitstring>
  </instance>
  </interpretation>
  </result>
  6、在前面的章節(jié)中,我們一直討論關(guān)于語音識別輸出結(jié)果的討論。在本章節(jié)中,我們將重點介紹語音注冊的輸出結(jié)果。語音注冊聽起來比較費(fèi)解,簡單來說,它是一種機(jī)制,用戶可以通過增加自己的一些短語創(chuàng)建說話人屬于自己的,獨立的,相對個性化的語法結(jié)構(gòu)。此語法結(jié)構(gòu)看在后續(xù)的正常語音識別中使用。典型的應(yīng)用案例就是很多人使用的電話薄。說話人可以對語音識別引擎進(jìn)行訓(xùn)練,輸入朋友姓名電話號碼等。其他用戶可以說出訓(xùn)練后的朋友姓名,然后識別出朋友相應(yīng)的電話號碼等關(guān)聯(lián)信息。
  從概念上來說,注冊語音語法可以看作是簡單的SRGS語法,它由幾個可選設(shè)置構(gòu)成,例如以下示例:
  < xmlversion="1.0"encoding="UTF-8" ><grammarversion="1.0"
  xmlns="http://www.w3.org/2001/06/grammar"
  mode="voice"
  xml:lang="en-GB"
  root="address"
  tag-format="semantics/1.0-literals">
  <ruleid="address">
  <one-of>
  <item>Mary<tag>user01</tag></item>
  <item>Anne<tag>user02</tag></item>
  <item>JohnHenry<tag>user03</tag></item>
  …
  </one-of>
  </rule>
  </grammar>
  這里,短語(Mary,Anne,JohnHenry)通過自己的注冊session ID和對應(yīng)的語義解釋添加到了語法中。每個短語通過MRCP 客戶端提供的唯一短語ID來進(jìn)行跟蹤。在注冊會話中,用戶說幾次短語的名稱,每次捕捉的短語會和以前的短語采樣進(jìn)行對比。當(dāng)捕捉到足夠說話采樣以后,短語經(jīng)過訓(xùn)練以后生成個人注冊語音語法。這個個人的注冊語音語法可以通過正常的語音識別引擎使用個人語法的URL加以調(diào)用。當(dāng)短語在設(shè)定的注冊會話期間成功匹配后,語義解釋結(jié)果會以NLSML的結(jié)果返回。這里,我們再次強(qiáng)調(diào),這里的部署僅從理論上加以討論,具體的實現(xiàn)方式完全依賴于每個語音識別的平臺本身以及平臺語法和短語等存儲方式,語法結(jié)構(gòu)等相關(guān)參數(shù)。當(dāng)MRCP 客戶端對語音識別引擎發(fā)出 START-PHRASE-ENROLLMENT請求時,注冊會話則開始啟動。當(dāng)MRCP客戶端對語音識別引擎發(fā)出END-PHRASE-ENROLLMENT 請求時,注冊會話的生命周期結(jié)束。如果在RECOGNIZE請求中包含頭域Enroll-Utterance:true會觸發(fā)對語音進(jìn)行捕捉。在對應(yīng)的RECOGNITION-COMPLETE事件中會包含NLSML結(jié)果,它封裝了注冊的嘗試信息。具體的注冊結(jié)果我們在未來的章節(jié)中會做進(jìn)一步的介紹,現(xiàn)在我們專門針對NLSML中包含的語音注冊結(jié)果的格式進(jìn)行介紹。
  NLSML包含的語音注冊結(jié)果通過<enrollment-result>來加以定義,<enrollment-result>是<result>的子要素。以下列表說明了語音注冊結(jié)果的表達(dá)方式:
  讓我們看一下在語音注冊會話生命周期中,RECOGNITION-COMPLETE事件返回的NLSML結(jié)果。在下面的示例中,具體語法結(jié)果表示通過URL設(shè)定了個人語法,目前收到一個連續(xù)的語音,仍然需要獲得兩個或多個語音,并且還有兩個不相容短語(Mary和Madge,它們分別通過clash-phrase-id 表示)。
  < xmlversion="1.0"encoding="UTF-8" ><resultxmlns="http://www.ietf.org/xml/ns/mrcpv2"
  grammar="http://example.com/ve/personal-grammar-01">
  <enrollment-result>
  <num-good-repetitions>1</num-good-repetitions>
  <num-repetitions-still-needed>2</num-repetitions-still-needed>
  <consistency-status>consistent</consistency-status>
  <transcriptions>
  <item>Marie</item>
  </transcriptions>
  <num-clashes>2</num-clashes>
  <clash-phrase-ids>
  <item>Mary</item>
  <item>Madge</item>
  </clash-phrase-ids>
  </enrollment-result>
  </result>
  7、MRCP通過NLSML封裝了說話人的狀態(tài)驗證信息。這些結(jié)果消息包含在VERIFICATION-COMPLETE事件的消息體中,是GET-INTERMEDIATE-RESULT請求的對應(yīng)響應(yīng)。關(guān)于說話人驗證和定位消息,我們在以前的章節(jié)中做過簡單的介紹,在未來的章節(jié)中會更加深入地進(jìn)行剖析。這里,我們僅關(guān)心NLSML的文件結(jié)構(gòu), 這里的NLSML文件用來描述訓(xùn)練的聲紋結(jié)果,聲紋對比以后的語音變化,說話語音和多個聲紋對比來確認(rèn)狀態(tài)。NLSML在<verification-result> XML要素來獲得支持。以下列表是一個關(guān)于speaker verification/identification 結(jié)果的匯總:
  以下是一個在聲紋訓(xùn)練中返回的驗證結(jié)果。NLSML包含在VERIFICATION-COMPLETE的事件消息體中,或GET-INTERMEDIATE-RESULTS 請求的響應(yīng)中:
  < xmlversion="1.0"encoding="UTF-8" ><resultxmlns="http://www.ietf.org/xml/ns/mrcpv2">
  <verification-result>
  <voiceprint id="joebloggs.voiceprint">
  <incremental>
  <verification-score>0.91</verification-score>
  <device>cellular-phone</device>
  <gender>male</gender>
  <utterance-length>751</utterance-length>
  </incremental>
  <cumulative>
  <verification-score>0.93</verification-score>
  <device>cellular-phone</device>
  <gender>male</gender>
  <utterance-length>1522</utterance-length>
  <need-more-data>true</need-more-data>
  </cumulative>
  </voiceprint>
  </verification-result>
  </result>
  在這個示例中已經(jīng)有一個聲紋的確認(rèn)ID:joebloggs.voiceprint。<incremental> 表示要針對前一個講話的分析結(jié)果來做進(jìn)一步處理。其他獨立的標(biāo)簽表示設(shè)備類型,說話人性別等信息。<cumulative>中的值是針對說話語音分析,這些語音分析數(shù)據(jù)是通過多個VERIFY或VERIFY-FROM-BUFFER請求獲得的累計的cumulatives cores值。<verification-score> 這里表示的是擬然值,同樣的說話人說過的所有同樣的句子。<utterance-length>表示訓(xùn)練中所使用的所有語音長度,它以毫秒為單位。<need-more-data>設(shè)置為true則表示需要更多數(shù)據(jù)來完成聲紋訓(xùn)練,MRCP 客戶端可能需要從用戶側(cè)獲得更多的數(shù)據(jù),因此要求發(fā)送更多的VERIFY 或VERIFY-FROM-BUFFER請求獲得支持?jǐn)?shù)據(jù)。
  現(xiàn)在,讓我們介紹一個關(guān)于驗證結(jié)果的示例。在START-SESSION請求中,我們在頭域Voiceprint-Identifier設(shè)定了一個單個的聲紋,我們期望獲得的單個聲紋NLSML返回結(jié)果,在結(jié)果中包含一個<voiceprint>。具體的xml 結(jié)果如下:
  < xmlversion="1.0"encoding="UTF-8" ><resultxmlns="http://www.ietf.org/xml/ns/mrcpv2">
  <verification-result>
  <voiceprintid="joebloggs.voiceprint">
  <incremental>
  <verification-score>0.85</verification-score>
  <device>carbon-button-phone</device>
  <gender>male</gender>
  <utterance-length>841</utterance-length>
  </incremental>
  <cumulative>
  <verification-score>0.81</verification-score>
  <device>carbon-button-phone</device>
  <gender>male</gender>
  <utterance-length>1619</utterance-length>
  <decision>accepted</decision>
  </cumulative>
  </voiceprint>
  </verification-result>
  </result>
  通過累計分析,這里的<decision>accepted</decision>表示說話人語音資源已經(jīng)足夠匹配其中一個說話的聲紋。
  最后,我們再介紹一個如何確認(rèn)從多個說話人的聲紋中確認(rèn)某個說話人。這里,假設(shè)“JoeBloggs”是屬于我們前面例子中“MaryBloggs”和“TedBloggs”的成員。在START-SESSION 的請求中設(shè)定的Voiceprint-Identifier將會列出所有三個聲紋,然后生成NLSML結(jié)果,這個結(jié)果包含三個<voiceprint>要素:
  < xml version="1.0" encoding="UTF-8" >
  <result xmlns="http://www.ietf.org/xml/ns/mrcpv2">
  <verification-result>
  <voiceprint id="marybloggs.voiceprint">
  <incremental>
  <verification-score>0.85</verification-score>
  <device>cellular-phone</device>
  <gender>female</gender>
  <utterance-length>842</utterance-length>
  </incremental>
  <cumulative>
  <verification-score>0.85</verification-score>
  <device>cellular-phone</device>
  <gender>female</gender>
  <utterance-length>842</utterance-length>
  <decision>accepted</decision>
  </cumulative>
  </voiceprint>
  <voiceprint id="tedbloggs.voiceprint">
  <cumulative>
  <verification-score>0.31</verification-score>
  </cumulative>
  </voiceprint>
  <voiceprint id="joebloggs.voiceprint">
  <cumulative>
  <verification-score>0.29</verification-score>
  </cumulative>
  </voiceprint>
  </verification-result>
  </result>
  這里的排序是按照<verification-score> 的值,從最大值到最小值的排序方式。說話人語音和列表中的聲紋進(jìn)行對比,現(xiàn)在可以確認(rèn),說話人是Mary Bloggs,而不是另外的人。
  8、在本章節(jié)中,我們介紹了MRCP協(xié)議中的數(shù)據(jù)表達(dá)格式-自然語言語義標(biāo)識語言(NLSML)。在具體的章節(jié)中,我們首先介紹了NLSML的背景知識,文件結(jié)構(gòu)。然后介紹了NLSML的語音識別的結(jié)果輸出格式和其腳本(ECMAScript)的轉(zhuǎn)換機(jī)制以及語義對象,array等使用方式的內(nèi)容。我們也介紹了通過用戶注冊的語法實現(xiàn)個人語法的NLSML結(jié)果以及如何使用在標(biāo)準(zhǔn)的語音識別引擎中。最后,我們介紹了關(guān)于如何驗證說話人以及確認(rèn)說話人的方式,聲紋訓(xùn)練。MRCP協(xié)議通過幾個不同的NLSML和聲紋資源輸出結(jié)果,和相應(yīng)的最終<verification-score>值來判斷說話人。
  在接下來的章節(jié)中,我們會介紹MRCP數(shù)據(jù)呈現(xiàn)的最后一種語法格式-Pronunciation Lexicon Specification (PLS)。
  參考資料:
  https://www.w3.org/TR/semantic-interpretation/
  https://www.nuance.com/content/dam/nuance/en_us/collateral/enterprise/data-sheet/ds-nuance-recognizer11-en-us.pdf
     


  unimrcp-MRCP協(xié)議學(xué)習(xí)分享,QQ群號:208136295
  關(guān)注微信公眾號:asterisk-cn,獲得有價值的行業(yè)分享
  freepbx 技術(shù)論壇:www.ippbx.org.cn
  Asterisk, freepbx技術(shù)文檔: www.freepbx.org.cn
  歐米(Omni)智能客服解決方案
  融合通信商業(yè)解決方案,協(xié)同解決方案首選產(chǎn)品:www.hiastar.com
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題