2月21日,馬克·扎克伯格在參加“生命科學(xué)突破獎”基金會發(fā)布儀式上第一次嘗試了谷歌眼鏡。據(jù)在場記者說,他看上去對這款谷歌產(chǎn)品非常感興趣,還說Facebook已有幾位工程師等著在為這款產(chǎn)品做開發(fā)了。據(jù)說,他問谷歌創(chuàng)始人謝爾蓋·布林,“怎么能戴上去不顯得尷尬?怎么能不破壞跟別人的眼光接觸而用這個眼鏡?”無從得知布林當(dāng)時做何回答。連一向?qū)⒐雀枰曌鲎畲蟾偁帉κ值脑瞬,都愿意為谷歌眼鏡率先做開發(fā),這個產(chǎn)品前景太值得想象了。
是的,太具有想像力了,扎克伯格可以用同樣的話去問蘋果和三星:你們的手機怎么能握上去不顯得象塊石頭?他可以去問Kindle:你們的電子閱讀器能不能卷起來塞屁股口袋里?
無論是手機、平板、眼鏡、手表,產(chǎn)品設(shè)計的追求總是無止境的,但基于工藝的限制,在某個時代那個產(chǎn)品就只能在某一個尺寸標(biāo)準(zhǔn)下下功夫而無法突破,業(yè)內(nèi)的朋友形容這就象如來佛的五指山,只要芯片還是那么大,你想做得小都不現(xiàn)實,例如蘋果手表,例如谷歌眼鏡。
實際上,真正的如來佛的五指山,是人機互動體驗,我無數(shù)次在想,蘋果手表真的需要那么大的屏幕嗎?它非得通過一個手指的觸控才能操控嗎?谷歌眼鏡戴起來能更能再囧點么?我們想想,如果說手表還能用觸控來解決體驗,那谷歌眼鏡最好的操控體驗是什么?搖頭晃腦?上下其手?
對眾多電子產(chǎn)品而言,又要追求越做越小,越做越薄,又要追求更好的操控體驗,如來佛的五指山又變大了,突破口,只能等待語音識別!目前中國最好的語音識別效果最好的當(dāng)仁不讓是訊飛,連微信新增的語音提醒體驗用的都是訊飛的,或者說他們自己的語音團隊揉入了訊飛的技術(shù)。全球語音技術(shù)做得最好的當(dāng)然就是Nuance了,從軍事到Siri,它全干了。
很多人樂此不彼的在玩Siri,在玩訊飛語音輸入,并且覺得還不錯,甚至覺得非常好。實話講,是挺好的,只不過如果要說能放到谷歌眼鏡上去,那還差十萬八千里呢,這十萬八千里,就是“可信識別技術(shù)”。
一種技術(shù),無論用的是什么算法,無論是中國人還是以色列人還是美國寫的,都無所謂,特別是對于普羅大眾而言,我們哪懂啥算法是啥啊?我們需要的,就是在任何自然環(huán)境下,人類自然的講話,這包括無論是在房間,還是馬路邊,還是酒吧里,在各種環(huán)境下,只要人與人之間能聽得見,聽得懂,手表們眼鏡們就要聽得懂。以及象小孩子一樣去學(xué)習(xí)。三個月前你和家里的小孩子講話你還覺得挺累的,因為他牛頭不對馬嘴,詞不成詞,句不成句,三個月后你突然發(fā)現(xiàn)他詞藻豐富起來,話語節(jié)奏以及條理一下子很清楚,開始有邏輯性。這才是真正的“實用”與“自然體驗”,所以,手表真的不再需要什么觸控,因為一個手指頭的觸控本來也談不上什么好體驗。所以,眼鏡真的不需要搖頭晃腦或上下其手,本來鏡框也裝不下那么多的東西。
“可信識別技術(shù)”所面對的還不僅僅是語音識別這一個領(lǐng)域,而是幾乎整個數(shù)字世界,就象中國傳統(tǒng)文化周易中的“八卦”,世間萬物,一個“八卦”全部解釋清楚。Nuance、google、訊飛們能做到嗎?難,太難了,他們的技術(shù)框架同出一宗,都來自于“馬爾可夫模型理論”,這三十年以來全世界的語音研究幾乎都在同這個理論下做文章,可理論模型這東西就象一棟大樓的設(shè)計,圖紙設(shè)計好是30層,你蓋好之后,是不可能改成100層的,如果你想改就得重新設(shè)計圖紙重新蓋,而上述的這些公司,現(xiàn)在已經(jīng)在28層了。如果不是這幾年的“云計算”所帶來的海量語料,那可能還在蓋十幾層呢。
我們現(xiàn)在需要耐心等待就是這個數(shù)字世界的“八卦”,全世界無數(shù)的科學(xué)家這三十年來為語音識別技術(shù)而奮斗,可能是明天,可能是十年…時間不是問題,因為人類需要一種象空氣一樣的技術(shù),你感覺不到它,而你卻每時每刻的依賴著它!