黑龍的單車與ACG誌: AI語音生成的新發展-帶情緒感的文字轉語音生成index TTS 2

2025年9月29日星期一

AI語音生成的新發展-帶情緒感的文字轉語音生成index TTS 2

發文者： DarkDragon

index TTS2
這是無意間在討論區中看到的關鍵字
好奇查下去才發現，又是個功能強大的新AI應用
介紹官網在此
IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
這套由中國BiliBlil開發的文字轉語音(Text To Speech)AI應用在9月8日發表了第2代
名稱就是開頭的index TTS2
它的強大之處包含了兩個以往不好做到與很難做到的功能
幾近零樣本的語音複製與可控制的帶情緒語音

先不講究專有名詞，直接看展示影片就會明白上面講的兩件事是什麼
首先第一個，讓子彈飛的經典對話，翻譯翻譯什麼叫驚喜

沒錯，幾近完美地複製原角色說話的聲紋與語氣
裡面的英語都是文字輸出後讓AI產出的
我覺得複製的部分還原了至少9分像了
帶情緒的部分更是與原語氣差不了多少

第二個，我選了展示的最後一個影片
著名的梗圖產生動畫，MyGO

會選這個是要展示除了英語外，index TTS2它要產生中文語音也沒問題
只是畢竟是中國開發的，要靠簡體字它才認得文字

網頁中還有其它展示啦
就不一一截取到這裡展示了
總之在連假前發現，驚嘆其功能
然後趁著連假稍微玩了一下，體驗一下這最新科技
寫一下這一篇小介紹

官方github網頁在此
https://github.com/index-tts/index-tts
很遺憾的，它安裝上有點小問題
官方安裝用了LFS套件要拉大檔案
然而這套件的流量似乎有限，出現錯誤碼後去查，查到這篇也有一樣的狀況
声音克隆：IndexTTS2本地安装和运行记录! – 托尼不是塔克
所以只能先禁用，自己手動下載剩下來的大檔案(主要是範例音檔)
詳細流程如下：

git lfs install --skip-smudge
git clone https://github.com/index-tts/index-tts.git indextts2

接下來，我是用pip安裝uv，或是照上一篇用powershell安裝都行
安裝完成後，先進行其它套件的安裝
如果要用全部的功能，那就要執行uv sync --all-extras
但我只想用webui介面來玩玩，所以照官方建議只執行下面這個就行

uv sync --extra webui

安裝的套件包含3GB的Pytorch，所以也要一段不短的時間
套件完成之後再用uv安裝huggingface的下載模型工具，進行模型檔的下載
當然不用這個套件，直接用huggingface上面下載也行，不過有工具比較方便嘛

uv tool install "huggingface_hub[cli]"

hf download IndexTeam/IndexTTS-2 --local-dir=checkpoints

但這邊我出了第二個問題，明明有已經執行完成安裝hf，但卻無法使用
後來一查發現，執行路徑沒有設
uv安裝hf後會放在使用者資料夾的.local的bin當中
這部分只好自己將路徑設定，這樣就沒問題了
接著就可以在indextts2的目錄中執行

uv run webui.py

執行前還蠻害怕跑不起來的，因為從國外Youtuber的影片看到，VRAM吃了10GB
而我的VRAM只有6GB
實際執行下去，還好跑得起來，只是速度不快
3秒左右的語音，要花100秒左右生成
這邊我拿了之前上台報告的練習影片的音軌來玩玩
嗯，恐怖啊，真的是9成像

這技術應用上，正面來說，就是展示影片的狀況，用原聲發出不同語言的語音
講中文，進行語音轉文字翻譯後，再由文字轉語音產出目標的語言
多麼美好的前景啊
不過負面上就更多疑慮了
像是不肖人士截取一小段聲音後，就可以做出9成像的聲音
然後就可以假傳指令或詐騙用
想想就很恐怖
那東西都已經被發明出來了，也就只能想辦法共存了

沒有留言:

張貼留言

黑龍的單車與ACG誌

2025年9月29日星期一

AI語音生成的新發展-帶情緒感的文字轉語音生成index TTS 2

沒有留言:

精選集

空間移動

2025年9月29日 星期一

AI語音生成的新發展-帶情緒感的文字轉語音生成index TTS 2

沒有留言:

2025年9月29日星期一