2025年9月29日 星期一

AI語音生成的新發展-帶情緒感的文字轉語音生成index TTS 2

index TTS2
這是無意間在討論區中看到的關鍵字
好奇查下去才發現,又是個功能強大的新AI應用
介紹官網在此
IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
這套由中國BiliBlil開發的文字轉語音(Text To Speech)AI應用在9月8日發表了第2代
名稱就是開頭的index TTS2
它的強大之處包含了兩個以往不好做到與很難做到的功能
幾近零樣本的語音複製與可控制的帶情緒語音

先不講究專有名詞,直接看展示影片就會明白上面講的兩件事是什麼
首先第一個,讓子彈飛的經典對話,翻譯翻譯什麼叫驚喜

沒錯,幾近完美地複製原角色說話的聲紋與語氣
裡面的英語都是文字輸出後讓AI產出的
我覺得複製的部分還原了至少9分像了
帶情緒的部分更是與原語氣差不了多少

第二個,我選了展示的最後一個影片
著名的梗圖產生動畫,MyGO

會選這個是要展示除了英語外,index TTS2它要產生中文語音也沒問題
只是畢竟是中國開發的,要靠簡體字它才認得文字

網頁中還有其它展示啦
就不一一截取到這裡展示了
總之在連假前發現,驚嘆其功能
然後趁著連假稍微玩了一下,體驗一下這最新科技
寫一下這一篇小介紹

官方github網頁在此
https://github.com/index-tts/index-tts
很遺憾的,它安裝上有點小問題
官方安裝用了LFS套件要拉大檔案
然而這套件的流量似乎有限,出現錯誤碼後去查,查到這篇也有一樣的狀況
声音克隆:IndexTTS2本地安装和运行记录! – 托尼不是塔克
所以只能先禁用,自己手動下載剩下來的大檔案(主要是範例音檔)
詳細流程如下:

git lfs install --skip-smudge
git clone https://github.com/index-tts/index-tts.git indextts2

接下來,我是用pip安裝uv,或是照上一篇用powershell安裝都行
安裝完成後,先進行其它套件的安裝
如果要用全部的功能,那就要執行uv sync --all-extras
但我只想用webui介面來玩玩,所以照官方建議只執行下面這個就行

uv sync --extra webui

安裝的套件包含3GB的Pytorch,所以也要一段不短的時間
套件完成之後再用uv安裝huggingface的下載模型工具,進行模型檔的下載
當然不用這個套件,直接用huggingface上面下載也行,不過有工具比較方便嘛

uv tool install "huggingface_hub[cli]"

hf download IndexTeam/IndexTTS-2 --local-dir=checkpoints

但這邊我出了第二個問題,明明有已經執行完成安裝hf,但卻無法使用
後來一查發現,執行路徑沒有設
uv安裝hf後會放在使用者資料夾的.local的bin當中
這部分只好自己將路徑設定,這樣就沒問題了
接著就可以在indextts2的目錄中執行

uv run webui.py

執行前還蠻害怕跑不起來的,因為從國外Youtuber的影片看到,VRAM吃了10GB
而我的VRAM只有6GB
實際執行下去,還好跑得起來,只是速度不快
3秒左右的語音,要花100秒左右生成
這邊我拿了之前上台報告的練習影片的音軌來玩玩
嗯,恐怖啊,真的是9成像

這技術應用上,正面來說,就是展示影片的狀況,用原聲發出不同語言的語音
講中文,進行語音轉文字翻譯後,再由文字轉語音產出目標的語言
多麼美好的前景啊
不過負面上就更多疑慮了
像是不肖人士截取一小段聲音後,就可以做出9成像的聲音
然後就可以假傳指令或詐騙用
想想就很恐怖
那東西都已經被發明出來了,也就只能想辦法共存了

沒有留言: