遠(yuǎn)傳科技一直高度重視產(chǎn)品技術(shù)創(chuàng)新,擴(kuò)建科研隊(duì)伍,加大研發(fā)投入。憑借精準(zhǔn)的研發(fā)投入和雄厚的技術(shù)沉淀,迄今為止,遠(yuǎn)傳科技已獲得專利及知識(shí)產(chǎn)權(quán)相關(guān)證書105項(xiàng),成績(jī)斐然。
遠(yuǎn)傳科技始終堅(jiān)持創(chuàng)新驅(qū)動(dòng)發(fā)展的原則,將產(chǎn)品創(chuàng)新與實(shí)際應(yīng)用緊密結(jié)合,聚焦在自然語(yǔ)言處理(NLP)、深度學(xué)習(xí)、知識(shí)圖譜、數(shù)據(jù)挖掘等核心技術(shù)領(lǐng)域。
今天我們來(lái)講講其中一項(xiàng)發(fā)明專利:《文本相似度模型的訓(xùn)練方法、系統(tǒng)、裝置和介質(zhì)》。
文本相似度,顧名思義是指兩個(gè)文本(文章)之間的相似度,相似程度的評(píng)價(jià)有很多角度:?jiǎn)渭兊淖置嫦嗨贫龋ɡ纾何液退?v.s. 我和她),語(yǔ)義的相似度(例如:爸爸 v.s. 父親)和風(fēng)格的相似度(例如:我喜歡你 v.s. 我好喜歡你耶)等等。
可以說(shuō),文本相似度是自然語(yǔ)言處理(NLP)中必不可少的重要環(huán)節(jié),幾乎所有NLP的領(lǐng)域都會(huì)涉及到!在搜索引擎、推薦系統(tǒng)、論文鑒定、機(jī)器翻譯、自動(dòng)應(yīng)答、命名實(shí)體識(shí)別、拼寫糾錯(cuò)等領(lǐng)域有廣泛的應(yīng)用。
雖然已有布爾模型、概率模型、向量空間模型等文本表示模型,相似度度量及距離度量等相似度計(jì)算方法,但在效率及性能等方面還存在一些無(wú)法忽視的問(wèn)題,比如:這些模型存在無(wú)法表現(xiàn)特征項(xiàng)的出現(xiàn)順序、向量維度高、計(jì)算效率低和模型魯棒性差等問(wèn)題。傳統(tǒng)算法無(wú)法識(shí)別意思相似或者相關(guān)的詞語(yǔ),而且文本中的核心關(guān)鍵詞的重要程度與其他非關(guān)鍵詞重要程度一樣,這些都對(duì)文本相似度準(zhǔn)確率的提高造成了很大的困擾。
遠(yuǎn)傳科技提供的文本相似度模型的訓(xùn)練方法、系統(tǒng)、裝置和介質(zhì),通過(guò)對(duì)訓(xùn)練語(yǔ)料進(jìn)行劃分,得到訓(xùn)練集、特征向量、重要性特征、訓(xùn)練數(shù)據(jù)的完全特征表示、噪音數(shù)據(jù)的完全特征表示、輸入特征向量,基于輸入特征向量完成文本相似度模型的訓(xùn)練。解決了文本相似度計(jì)算存在的準(zhǔn)確率低和魯棒性差的問(wèn)題,實(shí)現(xiàn)了利用對(duì)抗的思想,將噪音數(shù)據(jù)的特征融入訓(xùn)練數(shù)據(jù)中來(lái)擾動(dòng)訓(xùn)練數(shù)據(jù)的擬合,進(jìn)一步結(jié)合特征向量和重要性特征,提高了文本相似度模型的的魯棒性和準(zhǔn)確率。從而解決相關(guān)技術(shù)中文本相似度計(jì)算存在的準(zhǔn)確率低和魯棒性差的問(wèn)題。
文本相似度模型發(fā)明專利的取得,有利于遠(yuǎn)傳科技持續(xù)推動(dòng)自然語(yǔ)言研發(fā)生產(chǎn),提升產(chǎn)品的技術(shù)含量,鞏固公司在智能交互行業(yè)領(lǐng)域內(nèi)的知識(shí)產(chǎn)權(quán)競(jìng)爭(zhēng)優(yōu)勢(shì),增強(qiáng)核心競(jìng)爭(zhēng)力。