MoneyDJ新聞 2023-10-16 13:05:41 記者 新聞中心 報導
生成式AI技術顛覆以往使用AI的方式,並深入各領域發展出多樣化的創新應用,而媒體產業在此波浪潮下也沒有缺席。專攻影像技術的光禾感知以AIGC(人工智慧生成內容)技術,結合微軟Azure AI語音服務,為民視新聞打造台灣首位AI生成的虛擬電視新聞主播「敏熙」,於6月底正式亮相以來廣受各方好評。
本次合作集結影像、聲音與新聞製播等三方專業技術,由光禾感知生成AI虛擬主播影像後,搭配微軟Azure AI的語音合成技術,產出發音自然、流暢的播報人聲,再借助民視新聞多年新聞製播經驗,以及豐富的新聞播報、訪談節目等高畫質新聞影像資料庫進行形象優化,量身打造專屬於民視的AI主播模型。
身為台灣微軟及民視新聞雙邊合作多年的產業夥伴,光禾感知科技執行長王友光指出,光禾感知2022年底開始投入AI主播製作,透過大量蒐集照片作為訓練原料,以擴散模型(Diffusion model)為技術基底,訓練出能夠生成動態圖像的模型,完成主播臉孔塑造;此次與台灣微軟攜手促成民視「敏熙」主播的誕生,展現生成式AI於影像生成領域無限的技術發展潛力。
除了外貌,聲音在新聞播報中亦扮演重要角色,微軟Azure AI語音服務的TTS(文字轉語音)及Viseme技術即為實現敏熙主播自然且順暢人聲關鍵。不同於傳統如機械音般的文字轉語音服務,Azure AI語音服務擁有豐富模型,提供140種語系以上、超過400個近似真人發音的預建神經語音模型供選擇。且Azure AI語音服務還支援自訂模型,可根據需求調整語音的風格、速度、音調等參數,進而生成貼近真人主播具備情緒及抑揚頓挫的語音,展現出結合AI與美感的傳播科技成果。
此外,透過Viseme技術還能提升虛擬主播嘴型與播報文字精準度。Viseme技術能夠在說話過程定義臉部及嘴唇、下顎及舌頭等位置,使虛擬主播臉部嘴型與語音的結合呈現更為自然。兩者技術相輔相成不僅能生成嘴型與聲音吻合的AI臉部影像,也能進一步實現多國語系主播的可能,敏熙現在已可以進行綜合中文及英文的播報內容。
除了啟用虛擬AI主播外,民視也透過相關技術協助即時翻譯、資料搜尋整合與除錯等前期業務,在科技的輔助下增加新聞內容的豐富度。台灣微軟商務事業群總經理李光耀表示,微軟將持續導入AI前瞻技術,延伸生成式AI觸角至各產業,實踐智慧創新應用;此次合作成功展現生成式AI技術為產業帶來的無限可能,也樂見透過電視新聞的傳播,帶動AI之於個人及產業的正向影響力。
民視新聞傳播群副總經理胡婉玲分享,民視不只看到生成式AI技術為新聞產業帶來的嶄新機會,也充分評估相關風險並恪守相關法規與新聞倫理,禁止採用AI生成的新聞內容,確保所有AI虛擬主播的播出內容皆由編輯撰寫並依循既有審核流程,在發展新聞多樣性的同時,也維持高度正確性。
微軟表示,民視AI主播敏熙6月上線後,獲得市場及觀眾熱烈迴響,並持續由三方進行播報精準度提升,在聲音方面微軟藉由結合最新AI技術而更加擬真的TTS及Viseme技術不斷優化聲音的呈現,光禾感知則網羅民視豐富且涵蓋中文、英文、台語、客語等語言的4K高畫質新聞影像資料庫,持續訓練全新影像模型,呈現細緻的臉部肌肉紋路,確保整體脣形、聲音及肢體語言更加擬真與自然。