谷歌今天開(kāi)放了自然語(yǔ)言理解軟件SyntaxNet的源代碼,將其作為該公司TensorFlow開(kāi)源機(jī)器學(xué)習(xí)庫(kù)的一部分。這款軟件可以用于自動(dòng)分析語(yǔ)句含義,而此次公布的包括訓(xùn)練新模型的代碼,以及英語(yǔ)文本分析的預(yù)訓(xùn)練模型。
谷歌表示,這個(gè)名為Parsey McParseface的句法分析程序可以自動(dòng)判斷某個(gè)單詞是名詞、動(dòng)詞還是形容詞,它是目前全球同類(lèi)程序中準(zhǔn)確度最高的一款,甚至可以與人類(lèi)語(yǔ)言學(xué)家媲美。
這種技術(shù)在自然語(yǔ)言研究領(lǐng)域擁有極其重要的意義。但對(duì)谷歌本身而言同樣意義重大。
“我們內(nèi)部評(píng)估技術(shù)的方法非常不同。我們不太關(guān)心基準(zhǔn),更加關(guān)心對(duì)下游系統(tǒng)性能的影響。我們的目標(biāo)是改善用戶(hù)體驗(yàn)。”谷歌研究院產(chǎn)品經(jīng)理戴夫·奧爾(DaveOrr)說(shuō)。
與TensorFlow一樣,SyntaxNet主要使用C++執(zhí)行。它現(xiàn)在實(shí)現(xiàn)了開(kāi)源,使得外部程序員也可以對(duì)其加以改進(jìn),從而幫助該公司尋找新的人才并改進(jìn)產(chǎn)品。整體而言,語(yǔ)句分析與產(chǎn)品評(píng)論有關(guān),包括應(yīng)用評(píng)論以及餐館和購(gòu)物點(diǎn)評(píng),這項(xiàng)技術(shù)與互聯(lián)網(wǎng)搜索和Google Now On Tap功能也有關(guān)系。
“這非常重要,因?yàn)檎Z(yǔ)言有的時(shí)候很微妙,未必能直接理解人們的意思,有些內(nèi)容與上下文關(guān)系很緊密。”谷歌研究院團(tuán)隊(duì)主管塔尼亞·拜德拉克斯-維斯(Tania Bedrax-Weiss)說(shuō)。
奧爾表示,與傳統(tǒng)的機(jī)器學(xué)習(xí)算法相比,深度學(xué)習(xí)技術(shù)在語(yǔ)言理解方面更加擅長(zhǎng)。這種方法通常需要通過(guò)大量數(shù)據(jù)對(duì)人工神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后讓其對(duì)新數(shù)據(jù)進(jìn)行推斷。谷歌還將深度學(xué)習(xí)技術(shù)用于圖片識(shí)別和語(yǔ)音識(shí)別。事實(shí)上,神經(jīng)網(wǎng)絡(luò)是SyntaxNet的關(guān)鍵所在,該項(xiàng)目的開(kāi)發(fā)代號(hào)為“神經(jīng)官能癥”(neurosis)。