但過(guò)于頻繁的視頻會(huì)議,讓一些人產(chǎn)生了奇怪的想法并將其付諸實(shí)踐。最近,一位名為 馬特 · 里德(Matt Reed)的工程師,就成功開(kāi)發(fā)出了代替自己參加 ZOOM 視頻會(huì)議的 AI。
乍看之下好像還挺像這么一回事兒的。
。▉(lái)源:馬特 · 里德)
而且這個(gè)視頻會(huì)議 AI 不是只有畫(huà)面而已,里德還為它設(shè)計(jì)了簡(jiǎn)單的語(yǔ)音互動(dòng)功能,可用以接收你的領(lǐng)導(dǎo)或者同事所說(shuō)的話,然后還能自動(dòng)說(shuō)出你所編寫(xiě)的內(nèi)容,打造出和諧的會(huì)議互動(dòng)氛圍。
那么,這個(gè)機(jī)器人具體是如何實(shí)現(xiàn)的?
為了打造它,里德首先通過(guò) Quicktime 錄制了自己的視頻圖像,包含幾個(gè)常用的視頻會(huì)議表情,例如微笑,擺動(dòng)頭部等。當(dāng)這些畫(huà)面循環(huán)播放時(shí),仿佛就是一個(gè)克隆版的自己。
然后是配置語(yǔ)音功能; Artyom.js 這一語(yǔ)音識(shí)別和文本轉(zhuǎn)語(yǔ)音的開(kāi)源庫(kù),他構(gòu)建了一個(gè)自定義 HTML Web 應(yīng)用程序,可以實(shí)現(xiàn)對(duì)麥克風(fēng)傳入的音頻進(jìn)行語(yǔ)音識(shí)別和響應(yīng)提示。
這個(gè)庫(kù)的優(yōu)點(diǎn)在于,不同于 Alexa 或 Siri 必須使用喚醒詞才能說(shuō)話,它只需要聽(tīng)到 “How are you”“Are you OK” 之類的命令就能觸發(fā)下一步回應(yīng),比如循環(huán)表情靜止的圖像或者說(shuō)出回復(fù)。
你可以將里德該步驟的創(chuàng)作理解為聊天機(jī)器人或 Alexa 語(yǔ)音技能。聊天機(jī)器人的原理就是經(jīng)過(guò)編程,可以理解某些輸入,并根據(jù)這些關(guān)鍵字運(yùn)行命令以給出一些書(shū)面響應(yīng)。但是由于人類語(yǔ)言的自然可變性,聊天機(jī)器人和里德的 Zoombot 還是蠻容易出錯(cuò)的,畢竟它們都沒(méi)有學(xué)會(huì)人類隨機(jī)應(yīng)變的技能。
。▉(lái)源:馬特 · 里德)
最后,里德通過(guò)軟件 ManyCam 創(chuàng)建虛擬網(wǎng)絡(luò)攝像頭,再將 Zoom 攝像頭設(shè)置為 ManyCam 虛擬網(wǎng)絡(luò)攝像頭,然后打開(kāi)揚(yáng)聲器,這個(gè) Zoombot 就可以開(kāi)始上班了!
現(xiàn)在,里德已經(jīng)將他的具體教程發(fā)表在了 GitHub 上,而且廣受關(guān)注。地址詳見(jiàn):https://github.com/mcreed/zoombot。或許你也有興趣試一試。
。▉(lái)源:馬特 · 里德)
盡管這項(xiàng)發(fā)明看起來(lái)頗具無(wú)厘頭色彩,因?yàn)樵趯?shí)際的使用過(guò)程中,它和真人參會(huì)的反應(yīng)還是有比較多的區(qū)別,例如你能通過(guò)眨眼的頻次察覺(jué)出它并非真人(目前用來(lái)識(shí)別 DeepFake 視頻的方法之一就包括觀察眨眼頻率),但里德確實(shí)展示了這樣的一種需求和可能性,原來(lái)視頻會(huì)議工具還能這么玩。
畢竟,當(dāng)里德在真實(shí)的視頻會(huì)議中使用他的 Zoombot 時(shí),確實(shí)給已經(jīng)對(duì)視頻會(huì)議日益麻木的同事們帶來(lái)了很多歡樂(lè)。
或許有一天這樣詭異的景象真的會(huì)出現(xiàn):打開(kāi)一個(gè)視頻會(huì)議,可能參加的全是機(jī)器替身。