網(wǎng)易易盾 AI Lab 論文入選 ICASSP 2023!黑科技讓語音識別越“聽”越準

每個科幻迷都向往著在未來能像和老朋友對話一樣,用寥寥數(shù)語發(fā)動星際飛船,征服星辰大海;或者擁有鋼鐵俠的人工智能管家賈維斯,幾句對話就能造出一套納米戰(zhàn)甲。其實這個畫面離我們并不遠——就像 iPhone 中的 Siri 一樣同我們觸手可及。它的背后是自動語言識別技術(shù)(Automatic Speech Recognition)。這項關(guān)鍵技術(shù)能將語音轉(zhuǎn)換為計算機可識別的文字或命令,實現(xiàn)便捷、高效、智能的人機交互體驗。


【資料圖】

而隨著深度學(xué)習(xí)等 AI 技術(shù)的發(fā)展,語音識別技術(shù)已經(jīng)取得了巨大的進步——不僅識別準確度大大提高,而且能夠更好地處理口音、噪聲和背景音等問題。但隨著技術(shù)在生活和業(yè)務(wù)中的不斷應(yīng)用,仍會遇到一些瓶頸,畢竟從理論研究到實際應(yīng)用,從論文到產(chǎn)品,需要考慮太多的現(xiàn)實因素。如何讓語音識別更好地輔助內(nèi)容審核?如何讓識別動作本身也能像人腦一樣,根據(jù)對語境的理解,以更低的成本給出更準確的答案?網(wǎng)易智企旗下易盾 AI Lab 給出了新方法。

易盾又出黑科技,智企邁向全世界!

近日,全球語音、聲學(xué)會議ICASSP 2023 公布了論文入選名單,網(wǎng)易智企旗下易盾 AI Lab 提交的論文成功被錄用。今年是第 48 屆 ICASSP 大會,也是疫情后的第一屆線下大會,雖然大會官方還未公布最后錄用了多少篇論文,但論文投遞的數(shù)量相較往年上升了 50%,達到了驚人的 6,000+。

面對如此激烈的競爭,網(wǎng)易智企易盾 AILab 團隊憑借一篇語音識別方向的論文《Improving CTC-based ASRModels with Gated Interplayer Collaboration(基于 CTC 的模型改進,實現(xiàn)更強的模型結(jié)構(gòu))》脫穎而出,成功拿到了前往希臘羅德島線下參會的門票。

“GIC”,助力語音識別更進一步

語音識別本質(zhì)上是語音序列到文字序列的轉(zhuǎn)化,而要完成這樣的轉(zhuǎn)化,一般會用到三類模型,CTC、Attention-based 和 RNN-Transducer,它們在完成任務(wù)的時候采用了不同的路徑:

CTC:基于神經(jīng)網(wǎng)絡(luò)模型,在訓(xùn)練過程中通過反向傳播來更新模型參數(shù)以最小化損失函數(shù)。該算法引入了“空白符”來表示無意義字符或者間隔符號。CTC 適合處理輸入輸出長度相差較大的數(shù)據(jù),如語音識別中將聲學(xué)特征映射為文本;

Attention-based:注意力機制,也是基于神經(jīng)網(wǎng)絡(luò)模型,并且使用一種稱為“注意力”的技術(shù)來對輸入進行加權(quán)匯聚。在每個時間步驟上,該模型會根據(jù)當前狀態(tài)和所有輸入計算出一個分布式權(quán)重向量,并將其應(yīng)用于所有輸入以產(chǎn)生一個加權(quán)平均值作為輸出。這種方式可以使得模型更好地關(guān)注與當前預(yù)測相關(guān)的部分信息;

RNN-Transducer:轉(zhuǎn)錄器,這個算法結(jié)合了編碼器-解碼器框架和自回歸建模思想,在生成目標序列時同時考慮源語言句子和已生成部分目標語言句子之間的交互作用。與其他兩種方法不同,RNN-Transducer 沒有明確區(qū)分編碼器和解碼器階段,并且直接從源語言到目標語言進行轉(zhuǎn)換,因此可以同時考慮源語言句子和已生成部分目標語言句子之間的交互作用。

相比后兩者,雖然 CTC 具有天然的非自回歸解碼性質(zhì),解碼速度相對快很多,但依然有著性能劣勢:

1. CTC 算法設(shè)置了條件獨立性假設(shè),即 CTC 假設(shè)每個時間步的輸出之間是獨立的。這對語音識別任務(wù)來說并不合理,假如說“ji rou”這個發(fā)音,在不同的上下文中預(yù)測的文字內(nèi)容應(yīng)該不一樣的。如果上文是“我喜歡吃”,接下來“雞”的概率應(yīng)該更高,同理如果上文是“他手臂有”,接下來“肌”的概率應(yīng)該更高。如果通過 CTC 訓(xùn)練,很容易就會在忽略上文的前提下,輸出“我喜歡吃肌肉”這樣好笑的文本;

2.從建模的視角來看,Attention-based模型和 RNN-Transducer 模型根據(jù)輸入和之前時間步的輸出預(yù)測當前時間步的輸出,而 CTC 模型僅僅利用輸入來預(yù)測當下的輸出,在 CTC 模型的建模過程中,文本信息僅僅是作為一種監(jiān)督信號回傳給網(wǎng)絡(luò),并沒有作為網(wǎng)絡(luò)的輸入顯式促進模型的預(yù)測。

我們希望能在保留 CTC 解碼效率的同時,盡可能地解決以上兩點劣勢。于是,我們想從 CTC 模型本身出發(fā),設(shè)計輕量級的模塊給基于 CTC 的模型引入文本信息,使得模型能夠整合聲學(xué)和文本信息,學(xué)習(xí)到文本序列上下文之間的相互作用,從而緩解 CTC 算法的條件獨立性假設(shè)。但過程中,我們碰到了兩個問題:如何在CTC模型(Encoder +CTC 結(jié)構(gòu))里注入文本信息?如何自適應(yīng)地融合文本特征和聲學(xué)特征?

為了實現(xiàn)上述目標,我們設(shè)計了 Gated Interlayer Collaboration(簡寫為GIC)機制。GIC 模塊主要包含一個嵌入層(embedding layer)和一個門控單元(gate unit)。其中,嵌入層用于生成每一音頻輸入幀的文本信息,門控單元用于自適應(yīng)地融合文本信息和聲學(xué)信息。

具體地,我們的方法基于多任務(wù)學(xué)習(xí)(Multi-taskLearning)框架,利用編碼器模塊(Encoder)中間層的輸出計算輔助 CTC loss,整個網(wǎng)絡(luò)的目標函數(shù)是最后一層的 CTC loss 和中間層輔助 CTC loss 的加權(quán)和。GIC 將網(wǎng)絡(luò)中間層的預(yù)測,即 Softmax 輸出的概率分布作為每一幀的軟標簽,點乘嵌入層矩陣之和作為每一幀的文本表征。最后,生成的文本表征和聲學(xué)表征通過一個門控單元自適應(yīng)地融合,成為一個新特征輸入到下一層。此時的新特征融合了文本特征和聲學(xué)特征,使得下一層的 Encoder 模塊可以學(xué)習(xí)到聲學(xué)序列上下文信息和文本序列上下文信息。整個模型的框架如下圖所示:

在 Conformer 和 Transformer 這兩個模型上的實驗表明:

1. GIC 同時支持漢語和英語的場景識別,同時準確度均取得了顯著的性能提升;

2. GIC 模型性能超過了同參數(shù)規(guī)模的Attention-based 和 RNN-transducer 模型,并且具有非自回歸解碼的優(yōu)勢,帶來數(shù)倍的解碼速度提升

3. 相對原始的 CTC 模型,GIC 在多個開源數(shù)據(jù)集有遠超 10% 的相對性能提升。

Conformer 模型下的結(jié)論

Transformer 模型下的結(jié)論

GIC 為 CTC 模型的性能帶來了很大的提升。相對原始的 CTC 模型,GIC 模塊大約帶來2M 的額外參數(shù),其中,計算中間層輔助 CTC loss 所用的線性層與最后一層是共享的,不會帶來額外的參數(shù)。多個中間層共享嵌入層,帶來 256*5000 約等于 1.3M 的參數(shù)。除此之外,多個門控單元的參數(shù)是 256*256*2*k,合計約 0.6M 的額外參數(shù)量。

領(lǐng)先技術(shù)造就先進業(yè)務(wù)

論文中的 GIC 已經(jīng)應(yīng)用在了網(wǎng)易易盾的內(nèi)容審核業(yè)務(wù)中。

作為網(wǎng)易智企旗下一站式數(shù)字內(nèi)容風控品牌,易盾長期專注于數(shù)字內(nèi)容安全風控和反垃圾信息的技術(shù)研發(fā)和創(chuàng)新。其中,針對以聲音作為載體的數(shù)字內(nèi)容,易盾提供了多種音頻內(nèi)容審核引擎,包括歌曲、廣播、電視節(jié)目、直播等各種類型的音頻內(nèi)容,及時檢測和過濾含有敏感、違規(guī)、低俗,廣告內(nèi)容的語音,從而減少不良內(nèi)容的社會影響,營造良好的網(wǎng)絡(luò)環(huán)境。

針對有具體語義內(nèi)容的音頻,易盾通過語音識別技術(shù)將音頻文件中的語音內(nèi)容轉(zhuǎn)寫為文字內(nèi)容,再利用檢測模塊分析和處理文本,從而實現(xiàn)對音頻內(nèi)容的自動化審核和過濾。因此,語音識別的準確率與音頻內(nèi)容的審核效率和準確性是息息相關(guān)的,會直接影響到客戶開展業(yè)務(wù)的安全與穩(wěn)定。

論文中的 GIC 在內(nèi)容審核中的應(yīng)用取得了顯著的效果提升。在實際的應(yīng)用過程中,需要調(diào)試的超參數(shù)有兩個,分別是多任務(wù)學(xué)習(xí)系數(shù) lambda 和中間層層數(shù) k。在18 層編碼器結(jié)構(gòu)中我們發(fā)現(xiàn) k=5,lambda=0.5 有較好的實驗效果。接著,我們會從這個設(shè)置開始嘗試,不斷微調(diào)以確定最優(yōu)的超參數(shù)。

?

幕后英雄:網(wǎng)易智企易盾 AI Lab

這不是易盾 AI Lab 團隊第一次獲得這樣規(guī)格的榮譽。

作為網(wǎng)易智企下設(shè)的始終走在人工智能研究前沿的技術(shù)團隊,易盾 AI Lab 致力于圍繞精細化、輕量化、敏捷化打造全面嚴謹、安全可信的 AI 技術(shù)能力,不斷提升數(shù)字內(nèi)容風控服務(wù)水平。在這之前,團隊曾獲得多項 AI 算法競賽冠軍及重要獎勵榮譽:

2019 年第一屆中國人工智能大賽 旗幟識別賽道最高級 A 級證書

2020 年第二屆中國人工智能大賽 視頻深度偽造檢測賽道最高級 A 級證書

2021 年第三屆中國人工智能大賽 視頻深度偽造檢測和音頻深度偽造檢測賽道兩項最高級 A 級證書

2021 年中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟“創(chuàng)新之星”、“創(chuàng)新人物”

2021 年第十六屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC2021)“長短視頻多語種多模態(tài)識別競賽”—漢語長短視頻直播語音關(guān)鍵詞(VKW)雙賽道冠軍

2021 年獲得浙江省政府頒發(fā)的科學(xué)技術(shù)進步獎一等獎

2022 年 ICPR 多模態(tài)字幕識別比賽(Multimodal Subtitle Recognition, 簡稱 MSR 競賽,國內(nèi)首個多模態(tài)字幕識別大賽)賽道三“融合視覺和音頻的多模態(tài)字幕識別系統(tǒng)”冠軍

未來已來,AI 的 iPhone 時刻已至。今天,易盾成功登上了語音學(xué)的學(xué)術(shù)殿堂;未來,技術(shù)將成就業(yè)務(wù)的方方面面,而網(wǎng)易易盾將始終伴您左右。

推薦DIY文章
我對創(chuàng)新創(chuàng)業(yè)的認識和理解:創(chuàng)新和創(chuàng)業(yè)是相輔相成、不可分割的_天天熱議
兒童滑梯室內(nèi)價格大全 木制的兒童滑梯配套設(shè)施會不一樣嗎
滔滔不絕的竇文濤:是一位非常著名的主持人 深受觀眾的喜愛
發(fā)電廠設(shè)備接地的詳細方法 科普與接地設(shè)計相關(guān)的基本概念
君生我未生 我生君已老全文與作者:這首詩是唐代銅官窯瓷器上的銘文
我出門總是帶著五瓶藥水 來自歌曲《藥水歌》 是藥水哥的原創(chuàng)歌曲
精彩新聞

超前放送