機器人講話也能帶感情，文字直接轉成聲音！NVIDIA展示AI語音合成技術成果

【轉載數位時代 / 盧佳柔】

機器人說出像人一樣有「情感」的話，這個想像已經愈趨真實，NVIDIA於INTERSPEECH 2021大會中，大秀AI語音合成技術展現實際成果。

語音應用讓人與人之間的互動有了改變，也讓生活變得更加有趣。NVIDIA深度學習應用研究部門副總裁Bryan Catanzaro表示，NVIDIA一直在思索如何透過AI強化人與電腦的互動，而「語音」技術的強化，就是其中一個重要指標。

五年前Amazon Alexa智慧音箱的出現，重新定義了人與機器互動的方式，可以命令Alexa播放音樂、開冷氣，甚至和Alexa聊天，人們可以透過語音做更多的事情，在科技應用的重要性逐漸增加。

除了讓機器人聽懂人話，NVIDIA表示，下一步就是要賦予機器人帶有「感情」的說話能力，將人機介面帶往更高層次。

AI聲音技術加持，讓機器說話帶有「感情」

而這有賴於表達性語言合成技術，透過對話式人工智慧模型為角色、虛擬助理及個人化數位分身產生聲音。例如透過NVIDIA RAD-TTS技術，使用個人說話的聲音來訓練文字轉語音模型，即能將任何文字提示變成說話者的聲音。

此外，該技術還支援聲音轉換功能，例如影片中是 A 在說話 (甚至是唱歌)，觀眾們聽到的卻是 B 的聲音。NVIDIA談到，RAD-TTS設計靈感是將人聲當成一種樂器，使用者便能夠逐幀微調合成聲音的音調、持續時間和能量。

例如應用在電影製作中，導演可錄製自己讀出影片腳本的聲音，接著用 AI 模型將說話內容變成女性旁白者的聲音。導演可以再運用這個基本的旁白內容，像配音員一樣指導 AI 並進行調整，讓合成出來的語音強調特定字眼、修改旁白節奏，以更貼切地表達影片的調性。

不只配音，其中文字轉語音的功能還能用在遊戲、協助聲音機能或語言機能障礙者，或幫助使用者用將自己的聲音翻譯不同語言；甚至還能重現著名歌手的表演，不僅可以配合歌曲旋律，還能配合人聲背後所表達的情感。

表達性語言合成只是NVIDIA Research 團隊在對話式 AI 的其中一項研究，這個領域還包括自然語言處理、自動語音辨識、關鍵字偵測、音訊增強等。這項先進研究成果的部分內容已透過 NVIDIA NeMo 工具套件成為開放原始碼，可以在 NGC 容器及其它軟體中心取得，並經最佳化調整，能在 NVIDIA GPU 上高效執行。

不過他也透露，目前AI語音最大挑戰在於延遲性問題，由於機器回應的速度不夠即時，連帶會影響人機互動的感受，讓對話看起來較沒有這麼自然。該公司也正積極努力克服這項技術挑戰，隨著技術的更迭與數據資料的累積、分析，相信這個問題將很快會被解決。

機器人講話也能帶感情，文字直接轉成聲音！NVIDIA展示AI語音合成技術成果

分享 :

分享 :