微軟宣布Azure AI Speech"Avatar"智能語音服務全面上線,該服務允許開發人員構建支持自然語音的語音功能、多語種、生成式 AI 應用程序。Azure AI Speech服務中新的文本到語音頭像功能可以將簡單的文本轉換為逼真的人以自然的聲音說話的視頻。開發人員可以使用作為該服務一部分的任何預建替身,也可以創建自己的自定義替身。
新功能使開發人員能夠為其用戶創建個性化和引人入勝的內容。這項服務的輸出視頻分辨率為 1920 x 1080,每秒 25 幀(FPS)。
下面是文字轉語音"頭像"服務的演示:
Azure Speech 文本轉語音"Avatar"具有以下功能:
通過 Azure AI 文本轉語音技術,將文本轉換成逼真的人聲數字視頻,并配以自然的聲音。
提供一系列預制頭像。
化身的聲音由 Azure AI 文本轉語音技術生成。
通過批量合成 API 異步或實時將文字合成為語音化身視頻。
在 Speech Studio 中提供內容創建工具,無需編碼即可創建視頻內容。
通過 Speech Studio 中的即時聊天頭像工具實現實時頭像對話。
文字轉語音"Avatar"服務的定價有點復雜。不出所料,收費將基于視頻輸出的長度,并按秒計費。此外,作為文本到語音頭像服務解決方案一部分的文本到語音、語音到文本、Azure OpenAI 或其他 Azure 服務將單獨收費。此外,該服務現在可在以下 Azure 地區使用:東南亞、北歐、西歐、瑞典中部、美國中南部和美國西部