阿里發(fā)布語(yǔ)音合成技術(shù) 與原始音頻錄音接近程度高達(dá)97%

7月10日下午消息,阿里巴巴發(fā)布新一代語(yǔ)音合成技術(shù)KAN-TTS,稱(chēng)可大幅提高合成語(yǔ)音與真人發(fā)聲的相似度,并將語(yǔ)音合成定制成本降低10倍以上。該技術(shù)由達(dá)摩院機(jī)器智能實(shí)驗(yàn)室自主研發(fā)。

阿里方面稱(chēng),當(dāng)前業(yè)界商用系統(tǒng)的合成語(yǔ)音與原始音頻錄音的接近程度通常在85%到90%之間,而基于KAN-TTS技術(shù)的合成語(yǔ)音可將該數(shù)據(jù)提高到97%以上。

據(jù)悉,KAN-TTS由達(dá)摩院機(jī)器智能實(shí)驗(yàn)室自主研發(fā),深度融合了目前主流的端到端TTS技術(shù)和傳統(tǒng)TTS技術(shù),從多個(gè)方面改進(jìn)了語(yǔ)音合成。傳統(tǒng)語(yǔ)音合成定制需要10小時(shí)以上的數(shù)據(jù)錄制和標(biāo)注,對(duì)錄音人和錄音環(huán)境要求很高。從啟動(dòng)定制到最終交付,項(xiàng)目周期長(zhǎng)成本高。

阿里利用Multi-Speaker Model與Speaker-aware Advanced Transfer Learning相結(jié)合的方法,將語(yǔ)音合成定制成本降低10倍以上,周期壓縮3倍以上。也就是說(shuō),用1小時(shí)有效錄音數(shù)據(jù)和不到兩個(gè)月制作周期,就能完成一次標(biāo)準(zhǔn)TTS定制。

此外,這使得普通用戶定制“AI聲音”的門(mén)檻更低。只需手機(jī)錄音十分鐘,就能獲得與錄制聲音高度相似的合成語(yǔ)音。

推薦DIY文章
聯(lián)想小新Air14 2023公開(kāi)部分規(guī)格:新筆電將搭載下沉式鍵盤(pán)
朗科新推絕影NV5000-t固態(tài)硬盤(pán) 溫控技術(shù)更高 售價(jià)暫未公布
2022款iPadPro將可使用視頻編輯軟件達(dá)芬奇 使用軟件更專(zhuān)業(yè)
蘋(píng)果全新推出AppleTV 4K產(chǎn)品:流式傳輸可以千兆以太網(wǎng)進(jìn)行
智己L7SnakePerformance高性能版:新車(chē)瞄準(zhǔn)數(shù)秒級(jí)圈速提升
閃迪大師PRO-G40SSD外置固態(tài)硬盤(pán):兼具極速傳輸與耐用優(yōu)點(diǎn)
精彩新聞

超前放送