由CTI論壇(www.estzdh.com)主辦的2021中國呼叫中心及企業(yè)通信大會 (http://www.estzdh.com/expo/2021/ccec2021spring/index.html)于4月15日在北京遼寧大廈成功召開。本次會議以“5G時代 共筑企業(yè)通信云生態(tài)”為主題。深圳黃鸝智能科技有限公司CEO劉志受邀接受了CTI論壇的專訪。
深圳黃鸝智能科技有限公司CEO劉志
CTI論壇:各位朋友,各位嘉賓,這里是2021中國呼叫中心及企業(yè)通信大會的視頻采訪現(xiàn)場。今天我們有幸請到了深圳黃鸝智能科技有限公司CEO劉志先生,F(xiàn)在先請劉總跟大家打聲招呼。
劉志:hello, 各位CTI論壇的朋友們,大家好,我是深圳黃鸝智能科技有限公司的劉志。在這里很榮幸能夠接受我們這次大會的專訪。
CTI論壇:劉總,非常高興您接受我們的現(xiàn)場專訪。我現(xiàn)在有幾個問題,請您跟我們的觀眾朋友們交流一下。我的第一個問題是這樣的,黃鸝智聲這個品牌相信對于很多人還很陌生,這是一個新興的品牌,這家成立于2019年的人工智能技術(shù)企業(yè),但是來頭一點都不小,他們的研發(fā)團隊都是清華大學(xué)的背景。請劉總介紹下成立黃鸝智聲的初衷是什么。
劉志:這個說來就有點話長,剛才跟秦總聊,咱們CTI論壇是2000年就成立了,那個時候我剛好步入聲音這個領(lǐng)域。那剛好是我在讀研究生的階段,就接觸到了和聲音相關(guān)的各種技術(shù)。畢業(yè)之后,我就開始了創(chuàng)業(yè)旅程,最早是做語音識別,在05年左右的時候的語音識別還不像現(xiàn)在這么火,那個時候連蘋果的siri還沒出來。實際上蘋果手機上的第一款語音撥號軟件就是我們團隊做的,我們當時針對歐美市場做了一款語音撥號軟件,叫voicedialler,把電話簿導(dǎo)入進去之后,就直接說一聲,我要call somebody,就把電話給打出去了,當時就做的這樣一個產(chǎn)品,市場的反應(yīng)非常好。后來我們又做了口語測評類的產(chǎn)品,就是教學(xué)生學(xué)英語,我們用機器來評判學(xué)生的口語發(fā)音到底是不是準確。但是在做這幾件事情的過程中,我就發(fā)現(xiàn)一個我們怎么也繞不開的一個問題,那就是噪聲問題。即使到今天,噪聲問題也依然是我們聲音通信行業(yè)以及智能交互行業(yè)里面,大家最頭疼的問題,也是繞不開的一個問題。我的印象非常深刻,我們的識別系統(tǒng)在安靜環(huán)境下識別率做的很好,但是在很多實際應(yīng)用場景,比如說開車啊,戶外啊,識別率就直線下降。我還有印象,我們的系統(tǒng)中有一個識別詞叫“清華大學(xué)電子工程系”,平時在安靜環(huán)境下識別非常準確,一到車上結(jié)果變成了“清華大型電子對撞機”,結(jié)果就完全不對了,這件事情就促使我們在聲音前端處理這個方向開始了研究。經(jīng)過十多年的研發(fā)的積累,我們找到了一條路徑。因為降噪這件事情說起來,大家一聽都能理解,但是想做好非常困難。我們也是經(jīng)過十多年的演化之后才找到了一套獨有方式,能夠很好的去解決降噪當中一個最主要的矛盾,就是既要降噪降的好,又要保證聲音低失真,所以我們十幾年來就一直圍繞這個點,因為很多時候我們?nèi)硕瓦@個機器啊,它對聲音的敏感度還不一樣。我們?nèi)硕鷮υ肼暤娜萑潭仁窍鄬Ρ容^好的,但是機器因為很多是在安靜環(huán)境下訓(xùn)練出來的,噪聲和失真對它的影響就比較大。未來的時代是人機交互的時代,我們的聲音發(fā)揮的作用越來越多的不光是在人和人之間通信,還包括人機交互。咱們的論壇上很多嘉賓都在討論這個問題,對吧?所以說聲音的降噪、語音的增強,作為產(chǎn)業(yè)鏈條上的前端技術(shù),是大家都繞不開的一個問題。我們看到這個技術(shù)巨大的市場應(yīng)用價值,所以經(jīng)過前面的這些積淀之后,我們決定把這一塊的技術(shù)獨立出來,專門圍繞著拾音降噪,我們通過這種人工智能和信號處理相結(jié)合的這種方式,來解決這個降噪難題。然后我們就是圍繞著幾個大的應(yīng)用場景,或者說幾個未來大的趨勢:第一個就是人和人之間通信,需要拾取清晰干凈的聲音;第二是人機交互,讓機器能夠聽懂人;第三是未來需要讓人能聽懂機器,因為機器也會發(fā)出聲音,要想聽懂機器的語言同樣需要降噪處理。在這三個大的場景當中,我們認為降噪都能夠發(fā)揮作用。這個就是我們黃鸝智聲成立的初衷,我們的使命叫做“用聲音智能改善人類生活與工作品質(zhì)”。因為聲音在我們生活工作當中方方面面都能起到作用,但是今天我們覺得聲音的價值還是很多時候沒有發(fā)揮出來。所以我們是希望能夠通過我們所做的這些工作,真正的把聲音的價值給發(fā)揮出來,能夠讓整個行業(yè)更好的給我們?nèi)祟惾ヌ峁└嗟谋憷,這是我們的初衷。
CTI論壇:好的,謝謝劉總。這個聲音對于我們?nèi)祟惿畹暮凸ぷ鬟@種價值,也是黃鸝成立的初衷。劉總,我的第二個問題是隨著5G和AI的發(fā)展,聲音通信和智能化處理存在巨大需求。但噪聲干擾和器件限制,極大降低了聲音采集的精度和范圍,嚴重制約著通信質(zhì)量和聲音智能處理效果。聲請您談一下聲音前端處理的這種技術(shù)發(fā)展的方向和趨勢。
劉志:好的, 這是一個比較專業(yè)一點的問題了。我就先盡我的所能做一些介紹,談?wù)勎易约旱睦斫狻?/div>
剛才其實說到,聲音有非常大的作用。我們每天都在跟人打電話,對吧?這是聲音的傳輸,那在傳輸之前呢?我們要把聲音先采集下來。有了傳輸,這就是我們所說的通信。那么人機交互是什么呢?聲音首先采集下來,之后交給機器去做識別,F(xiàn)在有語音識別,有聲紋識別等等的智能化處理,F(xiàn)在甚至可以通過聲音來判別情緒,未來還有很多很多聲音里面可以傳遞出的信息。那我們通常來說把這個前面采音的部分叫做聲音的前端處理,后面做識別也好、做通信也好,我們把它叫做后端。簡單來說就是說我先得把聲音采集下來,而且在這個采的這個過程中,我們希望這個聲音盡可能采的清晰,盡可能把我想要的有用的聲音給抓取,把噪聲盡可能給屏蔽掉,這個我們廣義的把它叫做聲音的前端處理。您剛才也提到前端處理有幾種大的手段,一種是靠聲學(xué)的器件,就是麥克風(fēng)。好的麥克風(fēng)很貴的,有的甚至上百萬一只,它的動態(tài)范圍、保真度都有差異。另一種手段就是做信號處理,就是麥克風(fēng)采集進來之后,怎么樣去把這個聲音的降噪這個問題,把語音的增強這個問題給解決。我們就是站在這個角度去研究,著眼點是在算法層面。降噪又有很多具體的細分的點,比如回聲就是一種噪聲;芈暿鞘裁茨?比如說我有個音箱,它放出來的聲音被麥克風(fēng)又采集進去了,這個就叫回聲。還有混響,房間中的反射,會非常嚴重的影響我們的聽感,我們聽著就是感覺嗡嗡嗡嗡的不清楚;然后還有噪聲,比如說我在家辦公呢,旁邊有人在裝修,打電鉆;或者我在這說話呢,我孩子在旁邊喊一嗓子,這都是噪聲。噪聲還分穩(wěn)態(tài)和非穩(wěn)態(tài)的等等。這些對于我們的有用聲音來說,它都屬于噪聲。我們的目的就是要把他們都消除掉,而且還要保證我的這個聲音盡量的少受損傷。這就是前端要做的事情,那從技術(shù)手段上來說呢,又分為很多信號處理的手段,以及深度學(xué)習(xí)的手段,AI的算法。具體到每一種手段的話,他又有各自的優(yōu)點和缺點。那么對于我們黃鸝智聲來說,我們所做的是一種融合性的手段,是一種創(chuàng)新性的融合,是把信號處理和AI的算法綜合在一起,取長補短,這樣能夠達到的一個效果就是剛才說的最難辦的問題--高降噪的同時還要保證低失真這一點。這是我們團隊在聲音前端處理這個技術(shù)上取得的一個相比于其他方法更加有價值的一個成果。
CTI論壇:聽劉總這一段解釋,然后真的讓我覺得自己也得到了一個知識的普及。觀眾可能也會是對于這個行業(yè)可能會理解得更深一些。
那么第三問題是黃鸝精巧C101u單耳專業(yè)降噪話務(wù)耳機榮獲CTI論壇2020編輯推薦獎,與市面上大部分降噪耳機不同,黃鸝主攻“通話降噪”,請介紹此款耳機的創(chuàng)新具體表現(xiàn)在哪里?
劉志:其實如果單純從外觀和基本的功能上來說的話,和市面上所有的這種單耳的話務(wù)耳機基本沒有區(qū)別。我們自己找了點區(qū)別,比如說我們做了一個防止夾發(fā)的設(shè)計,我們還有一個波浪型的設(shè)計,讓佩戴舒適性更高一些;當然還有輕巧,我們做到四十幾克。但是這些坦率來說,不是我們最核心的創(chuàng)新。我們的最核心的創(chuàng)新還是集中在我們的拾音降噪性能。因為我們發(fā)現(xiàn),今天在呼叫中心,企業(yè)的通訊辦公這個領(lǐng)域,噪音是一個大家都很頭疼的問題。但是之前也沒有好的解決方案,我走訪了一些客戶,他們的坐席距離比今天我跟秦總要近多了,最多的就是胳膊挨著胳膊,中間都沒有隔板,在他們業(yè)務(wù)最高峰的時候啊,使用我們的這款耳機去和客戶溝通,把這個聲音錄下來,回放回聽的時候,客戶都是非常驚訝的,就是完全沒有周邊的聲音干擾,每個接線員的聲音就是他自己的聲音,清晰可聞。這樣的客戶體驗我相信是我們很多企業(yè)都希望能夠達到。其次我們跟后端做語音識別的一些伙伴做了測試,那我們可以看到今天的安靜環(huán)境下,語音識別的系統(tǒng)識別率可以到90%以上。但是真到了這個實際的噪聲場景,一旦大家都坐下來,都開始嘰嘰喳喳說話的時候,那個識別率下降非常嚴重,掉到了70%甚至以下。這個時候把我們的這個耳機用上之后,識別率就一下回到了接近安靜環(huán)境下的水平,所以針對呼叫中心語音質(zhì)檢,智能客服的應(yīng)用,可以輔助語音識別,讓語音識別能夠在這種嘈雜環(huán)境下依然可以保持一個健壯穩(wěn)定,高識別率、高水準的輸出。所以說這樣一款產(chǎn)品,它搭載了我們的核心技術(shù)之后,能夠產(chǎn)生的兩大優(yōu)點:一個是讓我通話的對方,讓我們的客戶體驗度提升。第二個是讓機器也能聽明白,讓今天的很多智能化場景真正能夠落地。我們能夠做到的就是用一款產(chǎn)品可以同時滿足這兩點,這個恰恰是今天很多其他技術(shù)做不到的。這是我們這款耳機最核心的亮點,也是我們給客戶真真實實帶來的價值。我們的團隊做事情的一個原則,就是一定是真真實實的要給大家?guī)韮r值,聽得見,聽得清,聽得懂,能夠感受體會的到。
CTI論壇:謝謝劉總精彩的分享。我想在這里說一下,就是說我跟劉總的初次見面應(yīng)該是在2019年的10月份啊,在深圳的一個大會上,然后呢。我們在行業(yè)有個老專家胡志明先生介紹的。然后當時因為畢竟也沒有體驗過,然后我們就邀請他參加我們2019年12月年底的編輯推薦活動,然后劉總就帶來了一款他們的這個產(chǎn)品的一個功能的現(xiàn)場演示。我跟大家介紹一下當時在座的近100位的行業(yè)的專家們真的在聽完劉總的這個演示以后,真的我覺得那個掌聲是我最近幾年聽到最熱烈的,真的是因為他確實是就如同剛才劉總介紹。在呼叫中心里頭,就是說他們那耳機上完了以后,人家說就完全的就是說真的當時的現(xiàn)場的這些,近百位的專家們真的都有那種感覺,哇,就是說在噪音的情況下,完了以后,他們再把重新時間和降噪之后的呈現(xiàn)了以后,真的很震驚,因為劉總當時也是就是說你們你們這些人隨便鼓掌,說話呀,然后唱歌什么都行。然后劉總在那說,然后居然就把其他人的聲音都給屏蔽了。真的我非常感謝劉總,感謝黃鸝智聲給行業(yè)帶來這么一個新鮮的一個震撼的一個產(chǎn)品和技術(shù)。謝謝謝謝。
劉志:也特別感謝CTI論壇。其實您說的這個場景我歷歷在目啊,那個時候我拿的還是一個非常粗糙的demo,當時心里也非常忐忑啊。但恰恰是這次機會,把我們引入到了這個行業(yè),帶我們走出了第一步。所以真的是也是非常感謝秦總,包括我們整個cti論壇所有的同仁,也希望把更多更好的產(chǎn)品帶給我們行業(yè),帶給我們所有的客戶,以及未來進入到千家萬戶!
CTI論壇:謝謝劉總,謝謝。我們在這里頭也預(yù)祝黃鸝智聲一個年輕的公司,在今后真的未來可期取得更大的成績。謝謝大家,。
劉志:感謝大家!
采訪嘉賓介紹:
劉志:深圳黃鸝智能科技有限公司CEO,兼任清華大學(xué)電子工程系企業(yè)導(dǎo)師、經(jīng)管學(xué)院GTE項目導(dǎo)師,中國教育學(xué)會智能語言教學(xué)研究中心研究員。清華大學(xué)工學(xué)碩士,高級工程師,擁有近20年人工智能領(lǐng)域創(chuàng)新創(chuàng)業(yè)經(jīng)驗。曾獲北京市科技進步獎、中國電子學(xué)會科技進步獎等多項榮譽,擁有專利數(shù)十項。中國語音環(huán)境降噪處理專家。
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。
相關(guān)閱讀:
- ·黃鸝智聲CEO劉志:后疫情時代語音降噪對于客戶體驗的重要性2020-09-21 10:35:18
- ·黃鸝智能劉志:智能化背景下語音前端技術(shù)的新挑戰(zhàn)2021-04-16 09:49:03
- ·深圳黃鸝智能科技有限公司總經(jīng)理劉志:機遇2020-12-21 11:36:57
- ·專訪深圳黃鸝智能科技有限公司CEO劉志2020-09-21 14:10:16
- ·深圳黃鸝智能科技劉志:極致2019-12-24 09:16:24