直播平臺(tái)成為投資者爭(zhēng)相搶占的行業(yè)風(fēng)口,“直播”成為近年來炙手可熱的關(guān)鍵詞,恐怕沒有太大爭(zhēng)議。如果說去年“papi醬”的爆紅依賴于視頻直播行業(yè)原創(chuàng)視頻備受追捧以及視頻內(nèi)容個(gè)性化迎合大眾口味,那么不得不說在此之后網(wǎng)紅時(shí)代所帶來的更多的是直播圈子里的亂象,大尺度戲碼,重口味表演。
直播圈急需文化部門的關(guān)注以及各直播平臺(tái)的自身監(jiān)管。顯然,要解決這一問題就必須要有比人工鑒別效率更高的手段,用人工智能技術(shù)來鑒別就是現(xiàn)在直播平臺(tái)通用的手段。雖然不少企業(yè)都把目光聚焦在視頻鑒別上,但音頻審核也是人工智能鑒別技術(shù)的一部分,二者缺一不可。那在大家熟悉的視頻鑒別之外,音頻檢測(cè)究竟能解決哪些問題?這一技術(shù)是如何進(jìn)行鑒別的呢?極限元智能科技聯(lián)合創(chuàng)始人馬驥為大家解讀關(guān)于音頻審核背后的技術(shù)。
全民直播時(shí)代 音視頻審核技術(shù)如何實(shí)現(xiàn)語音識(shí)別?
一、音視頻審核的需求現(xiàn)狀
音視頻審核主要針對(duì)互聯(lián)網(wǎng)傳播的信息進(jìn)行審核,審核的內(nèi)容有不良信息、劣質(zhì)信息。以直播平臺(tái)為例,2016年,是互聯(lián)網(wǎng)直播平臺(tái)爆發(fā)的一年,除了各式各樣的直播形式。與此同時(shí),也出現(xiàn)了大量的在線實(shí)時(shí)信息,這其中有害信息是最為嚴(yán)重的一個(gè)現(xiàn)象。今年,相關(guān)部門已經(jīng)針對(duì)這些亂象加大了打擊力度,因此基于互聯(lián)網(wǎng)直播平臺(tái)的有害信息檢測(cè)成為重中之重。
以圖像識(shí)別技術(shù)為基礎(chǔ)如何進(jìn)行鑒別?在直播的時(shí)候,每個(gè)直播間會(huì)間隔一秒或幾秒采集一個(gè)關(guān)鍵幀,關(guān)鍵幀會(huì)發(fā)送到圖像識(shí)別引擎,引擎根據(jù)圖像的顏色、紋理等等特征來對(duì)敏感圖像進(jìn)行過濾,這一過程會(huì)檢測(cè)肢體輪廓等關(guān)鍵特征信息,然后對(duì)檢測(cè)圖像特征與特征庫模型里面的特征相似度進(jìn)行匹配,給予待測(cè)圖像不良、正常、性感等不同維度的權(quán)重值,以權(quán)重值最高的作為判定結(jié)果輸出。
基于圖像識(shí)別得視頻鑒別檢測(cè)準(zhǔn)確率可以達(dá)到99%以上,可以為視頻直播平臺(tái)節(jié)省70%以上的工作量。
還有一些是語音為主的直播節(jié)目,比如談話聊天、脫口秀、在線廣播等。視頻檢測(cè)所使用到的圖像技術(shù)就很難在這些應(yīng)用場(chǎng)景發(fā)揮作用,所以音頻檢測(cè)需要有針對(duì)性的技術(shù)手段。
除了剛剛提到的幾個(gè)音頻檢測(cè)應(yīng)用場(chǎng)景之外,例如網(wǎng)絡(luò)音視頻資源審核,例如微信發(fā)布語音視頻信息,平臺(tái)后臺(tái)會(huì)對(duì)這些數(shù)據(jù)進(jìn)行審核;另外公安技偵通過技術(shù)手段來偵查網(wǎng)絡(luò)、電話犯罪行為;第三個(gè)是呼叫中心,傳統(tǒng)呼叫中心會(huì)產(chǎn)生大量的電話錄音,很多行業(yè)會(huì)對(duì)這些錄音進(jìn)行錄音質(zhì)檢,從這些錄音中提取業(yè)務(wù)開展的情況;最后一個(gè)是電信安全,主要是以關(guān)鍵詞檢索的手段來防止電信詐騙。
二、音頻檢測(cè)采用的技術(shù)手段
音頻可以分為有內(nèi)容和無內(nèi)容兩種:說話內(nèi)容相關(guān)的包括說了什么?(涉政、涉詐、涉賭還是廣告信息),另外還可以從說話內(nèi)容來判斷語種以及說話人的辨識(shí);此外還有與說話內(nèi)容無關(guān)的信息,例如特定錄音片段、歌曲旋律、環(huán)境音等等。
針對(duì)不同的數(shù)據(jù)類型有不同的檢測(cè)技術(shù)。針對(duì)說話內(nèi)容有語音識(shí)別、關(guān)鍵詞檢索等;針對(duì)語種的判別有語種識(shí)別的技術(shù);針對(duì)說話人的識(shí)別有聲紋識(shí)別技術(shù);針對(duì)說話內(nèi)容無關(guān)的通常采用音頻比對(duì)的技術(shù)來進(jìn)行檢測(cè)。
語音識(shí)別的關(guān)鍵技術(shù)——聲學(xué)模型
語音識(shí)別的聲學(xué)模型主要有以下兩種:混合聲學(xué)模型和端到端的聲學(xué)模型。
混合聲學(xué)模型通常是隱馬爾科夫模型結(jié)合混合高斯、深度神經(jīng)網(wǎng)絡(luò)、深度循環(huán)神經(jīng)網(wǎng)絡(luò)以及深度卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)模型。端到端聲學(xué)模型目前有兩大類,一是連接時(shí)序分類—長(zhǎng)短時(shí)記憶模型,二是注意力模型。
混合高斯—隱馬爾科夫模型是根據(jù)語音的短時(shí)平穩(wěn)性采用采用隱馬爾科夫模型對(duì)三因子進(jìn)行建模。圖中顯示的是,輸入語音參數(shù)通過混合高斯模型計(jì)算每一個(gè)隱馬爾科夫模型狀態(tài)的后驗(yàn)概率,然后隱馬爾可夫模型轉(zhuǎn)移概率來描述狀態(tài)之間的轉(zhuǎn)移。
混合神經(jīng)網(wǎng)絡(luò)—隱馬爾科夫模型是將混合高斯模型用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行替代,但是保留了隱馬爾科夫的結(jié)構(gòu),對(duì)于輸入端的擴(kuò)幀和深度神經(jīng)網(wǎng)絡(luò)的非線性變換,識(shí)別率可以得到很大的提升。
前面的深度神經(jīng)網(wǎng)絡(luò)對(duì)歷史信息的建模只是通過在輸入端擴(kuò)幀實(shí)現(xiàn)的,但對(duì)歷史信息的建模作用是有限的。
在深度循環(huán)神經(jīng)網(wǎng)絡(luò)中,對(duì)輸入的歷史信息可以進(jìn)行有效的建模,可以做大限度的保留歷史信息。根據(jù)現(xiàn)有的實(shí)驗(yàn)結(jié)果來看,在很多任務(wù)上,深度循環(huán)神經(jīng)網(wǎng)絡(luò)性能表現(xiàn)要由于深度神經(jīng)網(wǎng)絡(luò)。當(dāng)然,深度循環(huán)神經(jīng)網(wǎng)絡(luò)也存在一些缺點(diǎn)。例如,在訓(xùn)練的時(shí)候,會(huì)出現(xiàn)梯度爆炸和梯度消失的問題。
那么如何有限解決梯度爆炸和梯度消失的問題呢?學(xué)者又引入了一種長(zhǎng)短時(shí)記憶模型。長(zhǎng)短時(shí)記憶模型采用控制門(包括輸入門、遺忘門和輸出門)將梯度累積變成梯度累加,在一定程度上可以解決深度循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)梯度消失的問題。
上面提到的深度循環(huán)神經(jīng)網(wǎng)絡(luò)能夠有效地對(duì)歷史信息進(jìn)行建模,但是它存在計(jì)算量太大的問題,特別是為了減少這種梯度消失又引入了長(zhǎng)短時(shí)記憶模型之后,計(jì)算的信息量有加劇。應(yīng)對(duì)這一難題,業(yè)界又引入了深度卷積神經(jīng)網(wǎng)絡(luò)模型。這種模型在圖像識(shí)別領(lǐng)域和語音識(shí)別領(lǐng)域都得到了顯著的效果。
在語音識(shí)別領(lǐng)域,我們可以從圖中可以看出,一共有四種深度神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu),隨著深度的增加可以有效地提升聲學(xué)模型的構(gòu)建能力。
語言模型
語言模型——N-Gram
基于N-Gram的特點(diǎn)是每個(gè)詞出現(xiàn)的概率,之和前面第N-1個(gè)詞有關(guān),整句話出現(xiàn)的概率是每個(gè)詞出現(xiàn)的概率的乘積。N-Gram有一個(gè)缺點(diǎn),由于數(shù)據(jù)稀缺性需要進(jìn)行一個(gè)平滑算法,然后得到后驗(yàn)概率。
語言模型——DNN-Gram
DNN-Gram把深度神經(jīng)網(wǎng)絡(luò)引入可以有效地克服平滑算法的誤差。例如圖中顯示的,通過深度神經(jīng)網(wǎng)絡(luò)構(gòu)建語音性不需要平滑算法的處理。
語言模型——RNN-Gram
和聲學(xué)模型一樣,構(gòu)建語言模型也需要對(duì)歷史信息進(jìn)行訓(xùn)練建模,在聲學(xué)模型中提到的深度循環(huán)神經(jīng)網(wǎng)絡(luò)在這里也有應(yīng)用。
基于深度神經(jīng)網(wǎng)絡(luò)的語言模型每個(gè)詞出現(xiàn)的概率和N-Gram一樣,只是和向前的第N-1個(gè)詞有關(guān),但實(shí)際上,每個(gè)詞出現(xiàn)的頻率和之前所有詞都有相關(guān)性,因此需要引入歷史信息進(jìn)行訓(xùn)練建模。所以在這里加入了RNN-Gram進(jìn)行語言模型的構(gòu)建。
近幾年,語音識(shí)別的聲學(xué)模型和語言模型都得到了很大的提高。2016年,微軟的語音識(shí)別團(tuán)隊(duì)宣稱在swithboard數(shù)據(jù)集上超過了人類,swithboard數(shù)據(jù)集是一個(gè)以口語為主的訓(xùn)練測(cè)試數(shù)據(jù)集,包含了大量的副語言,所以用這種數(shù)據(jù)集進(jìn)行語音識(shí)別測(cè)試具有一定的挑戰(zhàn)性。
不過,語音識(shí)別在一些特殊領(lǐng)域的識(shí)別效果就大打折扣了。在強(qiáng)干擾環(huán)境和特殊領(lǐng)域中,可以通過基于語音識(shí)別的關(guān)鍵詞檢索方法來進(jìn)行音頻信息的檢查。
基于語音識(shí)別的關(guān)鍵詞檢索
基于語音識(shí)別的關(guān)鍵詞檢索是將語音識(shí)別的結(jié)構(gòu)構(gòu)建成一個(gè)索引網(wǎng)絡(luò),然后把關(guān)鍵詞從索引網(wǎng)絡(luò)中找出來。從這一流程圖中可以看到,首先把語音進(jìn)行識(shí)別處理,從里面提取索引構(gòu)建索引網(wǎng)絡(luò),進(jìn)行關(guān)鍵詞檢索的時(shí)候,我們會(huì)把關(guān)鍵詞表在網(wǎng)絡(luò)中進(jìn)行頻率,找到概率最高的,輸出其關(guān)鍵詞匹配結(jié)果。
構(gòu)建檢索網(wǎng)絡(luò)
構(gòu)建檢索網(wǎng)絡(luò)是語音關(guān)鍵詞檢索的重要環(huán)節(jié)。在這個(gè)圖中,在第一個(gè)時(shí)間段內(nèi)(w1、w3、w6、w7),這句話被識(shí)別成了四個(gè)不同的詞,語音識(shí)別只能給出一條路徑,但在語音關(guān)鍵詞檢索網(wǎng)絡(luò)中可以從四個(gè)結(jié)果中進(jìn)行篩選。
關(guān)鍵詞檢索
有了檢索網(wǎng)絡(luò)后,接下來的工作就是關(guān)鍵詞檢索工作。關(guān)鍵詞檢索是基于音節(jié)數(shù)據(jù),首先將用戶設(shè)定的關(guān)鍵詞文本解析成音節(jié)數(shù)據(jù),再從檢索網(wǎng)絡(luò)中找出匹配結(jié)果,相比語音識(shí)別這種文本結(jié)果檢索,這種容錯(cuò)性更強(qiáng),而且關(guān)鍵詞檢索可以只用在基于CTC,計(jì)算量更小,執(zhí)行效率更高,更適用于海量數(shù)據(jù)的檢索場(chǎng)景。
說話人識(shí)別的關(guān)鍵技術(shù)
說話人識(shí)別也稱之為聲紋識(shí)別,主要目的是對(duì)說話人的身份確認(rèn)和辨識(shí)。
它的流程如下:首先對(duì)說話人的訓(xùn)練建模,把注冊(cè)語音進(jìn)行特征提取,模型訓(xùn)練之后得到說話人的模型庫;在測(cè)試的時(shí)候,我們需要通過一個(gè)很短的音頻去提取特征值,然后基于之前構(gòu)建的模型進(jìn)行閾值判斷,判斷出是集合內(nèi)還是外,最終確認(rèn)身份。在這一過程中,注冊(cè)語音只要10s左右的語音,測(cè)試只要2-5s的語音。
說話人識(shí)別的關(guān)鍵技術(shù)——模型訓(xùn)練GMM。完成關(guān)鍵特征提取后就要進(jìn)行模型訓(xùn)練。GMM的訓(xùn)練流程是:首先把訓(xùn)練語音進(jìn)行特征提取,得到梅爾頻率倒譜系數(shù),然后生成一個(gè)通用背景模型,再通過MAP的方法得到說話人的模型。
注冊(cè)語音的流程也是類似,通過特征提取,進(jìn)行模型訓(xùn)練得到混合高斯模型。在測(cè)試的時(shí)候,把測(cè)試語音進(jìn)行特征提取,然后從通用背景模型和混合高斯模型進(jìn)行最大相似度的判斷,再輸出識(shí)別結(jié)果。
說話人識(shí)別的關(guān)鍵技術(shù)——模型訓(xùn)練I-Vector
I-Vector在近兩年有比較廣泛的應(yīng)用,它將說話人特征和信道特征統(tǒng)一建模,得到說話人特征通過信道補(bǔ)償記錄進(jìn)行識(shí)別,有效解決了訓(xùn)練樣本和實(shí)際檢測(cè)樣本存在信道不匹配的問題。信道特征對(duì)說話人識(shí)別的準(zhǔn)確性干擾很大,如果前期學(xué)習(xí)建模過程中,能把信道特征統(tǒng)一建模后期在識(shí)別的時(shí)候,可以實(shí)現(xiàn)信道補(bǔ)償,大大提升說話人識(shí)別的魯棒性。
說話人識(shí)別的關(guān)鍵技術(shù)——模型訓(xùn)練DNN
我們還可以進(jìn)一步介入深度神經(jīng)網(wǎng)絡(luò)的方式來提取統(tǒng)計(jì)量。用深度神經(jīng)網(wǎng)絡(luò)替代一些統(tǒng)一背景模型,可以把音素相關(guān)信息通過語音識(shí)別的深度神經(jīng)網(wǎng)絡(luò)結(jié)合起來,采集到更多的說話人特征信息。
音頻對(duì)比技術(shù)
音頻對(duì)比技術(shù)也是引用很早很廣泛的音頻檢索技術(shù)。音頻對(duì)比主要是從音頻信號(hào)中提取特征,通過特征進(jìn)行比對(duì)來檢索。圖中提取的過程就是通過頻譜最大值點(diǎn)來建模。
特征構(gòu)建
在完成最大值點(diǎn)完成建模后,我們需要進(jìn)行特征的構(gòu)建。特征構(gòu)建是通過最大值點(diǎn)之間的距離來建模,例如兩個(gè)最大值點(diǎn)的距離、位置信息作為一個(gè)固定的特征來完成音頻特征信息的構(gòu)建。有了上述音頻特征之后,就可以對(duì)兩個(gè)不同音頻進(jìn)行檢索,最大相似度的地方就是相似點(diǎn)。這種技術(shù)最適用于錄音片段的檢索。
其它技術(shù)
1.語音欲處理技術(shù):包括音頻編解碼、噪聲消除(軟件處理,硬件解決方案)、語音信號(hào)增強(qiáng)。
2.語義識(shí)別:對(duì)語音識(shí)別后的文本結(jié)果進(jìn)行分析,結(jié)合上下文,來判斷真是意圖。
3.語種識(shí)別、男女聲識(shí)別:識(shí)別方言、外語語種、發(fā)音人性別進(jìn)行識(shí)別。
4.流媒體技術(shù):在實(shí)時(shí)音頻數(shù)據(jù)處理中,需要用到數(shù)據(jù)切分、數(shù)據(jù)緩存。
5.云平臺(tái)技術(shù):云服務(wù)架構(gòu)設(shè)計(jì)、、服務(wù)模塊化整合、負(fù)載均衡等。
6.大數(shù)據(jù)技術(shù):海量數(shù)據(jù)存儲(chǔ)、訓(xùn)練樣本自動(dòng)提取、模型訓(xùn)練等。
三、應(yīng)用場(chǎng)景案例
音頻審核數(shù)據(jù)來源可以分為實(shí)時(shí)數(shù)據(jù)和存量數(shù)據(jù)。存量數(shù)據(jù)主要是現(xiàn)有的語音資源,實(shí)時(shí)數(shù)據(jù)則包括正在直播的廣播、電視節(jié)目等。
存量音頻數(shù)據(jù)審核
場(chǎng)景:電信運(yùn)營(yíng)商詐騙電話檢測(cè)
這是針對(duì)存量數(shù)據(jù)的解決方案,它有大量的通話錄音,而且因?yàn)樵O(shè)備供應(yīng)商的不同,會(huì)造成音頻格式、音質(zhì)不統(tǒng)一;另外,電話錄音還存在噪聲干擾、方言口音問題。
針對(duì)這類數(shù)據(jù)的檢測(cè),我們可以提供一套完整的解決方案。
首先把通話錄音通過API接口上傳到關(guān)鍵詞檢索服務(wù)器上,關(guān)鍵詞檢索服務(wù)器的API網(wǎng)關(guān)對(duì)它的請(qǐng)求進(jìn)行分類處理之后,移交給后續(xù)的業(yè)務(wù)網(wǎng)關(guān)來分發(fā)處理。首先要進(jìn)行音頻預(yù)處理,音頻格式轉(zhuǎn)碼、語音降噪等,然后把處理后的文件存儲(chǔ);接下來,把結(jié)果反饋給業(yè)務(wù)網(wǎng)關(guān),由音頻比對(duì)對(duì)已知錄音片段進(jìn)行檢測(cè),如果有匹配這些錄音片段就反饋結(jié)果——存在詐騙信息。如果經(jīng)過音頻比對(duì)沒有發(fā)現(xiàn)詐騙信息,我們會(huì)調(diào)用關(guān)鍵詞檢索服務(wù)。
實(shí)時(shí)音頻數(shù)據(jù)審核
場(chǎng)景:在線直播平臺(tái)敏感信息檢測(cè)
它的數(shù)據(jù)是實(shí)時(shí)生成的,需要用到流媒體技術(shù),包含圖像、音頻兩大數(shù)據(jù)源,所用到的檢測(cè)技術(shù)也不一樣。音頻檢測(cè)還分為語種、說話人確認(rèn)、內(nèi)容識(shí)別。累積了大量的檢測(cè)數(shù)據(jù)之后,對(duì)后期的模型優(yōu)化升級(jí)也提出了更高的要求。
首先會(huì)對(duì)直播中的音視頻資源提取,分別交由圖像處理模塊和語音處理模塊,針對(duì)圖像數(shù)據(jù)我們要提取關(guān)鍵幀,針對(duì)語音數(shù)據(jù),我們會(huì)把視頻數(shù)據(jù)中的音頻資源提取出來。
圖像數(shù)據(jù)的處理,拿到圖像數(shù)據(jù)關(guān)鍵幀后會(huì)定時(shí)發(fā)送到處理平臺(tái)上( 雷鋒網(wǎng)注:可以在云端或者私有云部署)。
在圖像識(shí)別部分要對(duì)圖像預(yù)處理、圖像分割,拿到有效的區(qū)域來檢測(cè),在有害信息識(shí)別檢測(cè)階段,我么會(huì)完成特征提取、目標(biāo)分類、判斷匹配,找出里面涉黃、涉暴的信息。如果用戶有進(jìn)一步的需求,例如廣告識(shí)別的要求,我們可以根據(jù)二維碼、數(shù)字、字符檢測(cè)技術(shù)來進(jìn)行廣告的識(shí)別。音頻的數(shù)據(jù)提取之后,上傳到到服務(wù)器端。音頻實(shí)時(shí)處理有個(gè)局限是會(huì)占用大量的帶寬,所以通常采用私有云的部署方式。
點(diǎn)擊這里了解方維互動(dòng)直播系統(tǒng)