;
亞馬遜(Amazon)早在 2016 年就在 AWS 推出按字計費的 AWS Polly 文字轉語音(Text-to-Speech,TTS)服務。過去很容易分辨電腦與人讀音的差別,隨著現代機器學習技術加持,文字轉語音引擎在近幾年來取得巨大的進步,音質已達新聞播報員的水準了。亞馬遜 AWS 雲端運算部門於 30 日發表了一系列新神經網路文字轉語音(Neural Text-to-Speech,NTTS)模型,並採用模仿新聞播報員聲音的全新風格。
「語音音質當然很重要,但要讓合成語音聽起來更真實、更吸引人,我們還有很大的努力空間,」亞馬遜新聞稿指出:「至於語音風格?當然,人類的耳朵可以分辨新聞節目、體育節目、大學課程等風格的不同;事實上,大多數人在正確語境下採用正確的說話風格,必然讓資訊更容易理解。」
正如亞馬遜網路服務技術傳教士賽門(Julien Simon)在部落格文指出的,透過自然度和表現力提升,神經網路文字轉語音引擎能大幅提高語音音質的表現。至於全新新聞播報員風格支援,能讓新聞報導和部落格文章等論述文聽起來更真實。
這全拜神經網路文字轉語音的底層機器學習演算法之賜而達成,西蒙表示:「多虧 Polly 和新聞播報員風格,(聽眾)可享受高音質的文章閱讀,聽起來就像他們在電視或廣播聽到的一樣。」
「能教 Alexa 根據客戶的要求調整說話風格,這為 ;;;Alexa ;;;提供以前無法想像的全新體驗,」亞馬遜文字轉語音服務研發團隊資深經理布林(Andrew Breen)在部落格寫道。
多家媒體已開始使用,第一年有限字數免費
如今,舉凡加拿大《環球郵報》(The Globe and Mail)、《今日美國》(USA Today)、Gannett 媒體集團、數位軟體出版商 BlueToad、出版工具供應商 TIM Media、《大英百科全書》(Encyclopedia Britannica)、非營利的教育科技(Ed-tech)公司 CommonLit 和遊戲開發商 Volley 等 AWS 客戶,已在使用 Polly 提供的新聞播報員風格。今年 1 月,亞馬遜已默默推廣到支援 Alexa 的裝置,用於每日新聞簡報及維基百科內容片段解說。
新的新聞播報員風格提供男(Matthew)、女(Joanna)兩種英語語音,而神經網路文字轉語音引擎則支援 11 種語音,包括 3 種英語語音和 8 種美語語音,皆採即時與批次處理模式,目前位在美東(維吉尼亞州)、美西(奧勒岡州)和歐洲(愛爾蘭)等 AWS 服務區域的使用者皆可使用。
計費方面,從第一次語音請求(標準語音或 NTTS 語音)開始,最初 12 個月內,每月最多有 100 萬字元的神經網路文字轉語音服務免費,之後就要按字計費了。
憑藉神經網路轉語音引擎與新聞播報員風格,亞馬遜與 Google 正面交鋒2 月,後者在雲端 NTTS 服務推出 31 個新 WaveNet 語音和 24 個新標準語音(整個 WaveNet 語音總數達 57 個)。亞馬遜另一個競爭對手是微軟,微軟在預覽版提供 3 種 AI 生成語音,並透過 Azure 語音服務 API 提供 75 種標準語音。
(本文由科技新報授權轉載,首圖來源:pixabay)