【轉載數位時代 / 盧佳柔】
機器人說出像人一樣有「情感」的話,這個想像已經愈趨真實,NVIDIA於INTERSPEECH 2021大會中,大秀AI語音合成技術展現實際成果。
語音應用讓人與人之間的互動有了改變,也讓生活變得更加有趣。NVIDIA深度學習應用研究部門副總裁Bryan Catanzaro表示,NVIDIA一直在思索如何透過AI強化人與電腦的互動,而「語音」技術的強化,就是其中一個重要指標。
五年前Amazon Alexa智慧音箱的出現,重新定義了人與機器互動的方式,可以命令Alexa播放音樂、開冷氣,甚至和Alexa聊天,人們可以透過語音做更多的事情,在科技應用的重要性逐漸增加。
除了讓機器人聽懂人話,NVIDIA表示,下一步就是要賦予機器人帶有「感情」的說話能力,將人機介面帶往更高層次。
AI聲音技術加持,讓機器說話帶有「感情」
而這有賴於表達性語言合成技術,透過對話式人工智慧模型為角色、虛擬助理及個人化數位分身產生聲音。例如透過NVIDIA RAD-TTS技術,使用個人說話的聲音來訓練文字轉語音模型,即能將任何文字提示變成說話者的聲音。
此外,該技術還支援聲音轉換功能,例如影片中是 A 在說話 (甚至是唱歌),觀眾們聽到的卻是 B 的聲音。NVIDIA談到,RAD-TTS設計靈感是將人聲當成一種樂器,使用者便能夠逐幀微調合成聲音的音調、持續時間和能量。
例如應用在電影製作中,導演可錄製自己讀出影片腳本的聲音,接著用 AI 模型將說話內容變成女性旁白者的聲音。導演可以再運用這個基本的旁白內容,像配音員一樣指導 AI 並進行調整,讓合成出來的語音強調特定字眼、修改旁白節奏,以更貼切地表達影片的調性。
不只配音,其中文字轉語音的功能還能用在遊戲、協助聲音機能或語言機能障礙者,或幫助使用者用將自己的聲音翻譯不同語言;甚至還能重現著名歌手的表演,不僅可以配合歌曲旋律,還能配合人聲背後所表達的情感。
表達性語言合成只是NVIDIA Research 團隊在對話式 AI 的其中一項研究,這個領域還包括自然語言處理、自動語音辨識、關鍵字偵測、音訊增強等。這項先進研究成果的部分內容已透過 NVIDIA NeMo 工具套件成為開放原始碼,可以在 NGC 容器及其它軟體中心取得,並經最佳化調整,能在 NVIDIA GPU 上高效執行。
不過他也透露,目前AI語音最大挑戰在於延遲性問題,由於機器回應的速度不夠即時,連帶會影響人機互動的感受,讓對話看起來較沒有這麼自然。該公司也正積極努力克服這項技術挑戰,隨著技術的更迭與數據資料的累積、分析,相信這個問題將很快會被解決。