用過只能說,太棒了
當然動作稱不上栩栩如生
原圖太過細致的作畫細節也會被省略
但是產生動作算流暢,圖上保留的部分也十分還原
算是非常可以了
只要有張圖,下幾個關鍵字
等待個幾十分鐘到一小時
幾秒鐘的動畫就出現了
這次觸碰的AI應用是FramePack
https://github.com/lllyasviel/FramePack
不過硬體需求算相當高
官網上與硬體需求有相關的項目是這些:
「Nvidia的GPU,至少是RTX30XX、RTX40XX與RTX50XX,然後顯卡記憶體至少6GB
要下載30GB左右的模型到硬碟中」
雖然作者已經降低到6GB記憶體的卡,連筆電版的GPU都可以用
讓剛好符合規格的我起心動念地測試
實際使用下去的狀況,吃掉的資源是蠻嚇人的
除了RTX3060的RAM 6GB全滿之外(這意料中事)
硬碟空間實際上是佔了45GB的空間
然後電腦RAM的部分,吃掉了38GB左右(30GB的模型再加CUDA運作)
加上系統本身佔的7GB,差不多48GB吃滿
然後即便這樣,跑的速度還是慢到不行
根據作者在官網說明,他測試的速度,桌機版RTX4090大概會以1張2.5秒最慢的速度
而筆電版可能會到慢8倍,也就是約20秒1張左右
我實測下去則更慘,筆電版RTX3060 6GB,一張約28秒以上
因為我跑了5秒30fps總張數150張的影片花了1小時多
以檔案生出時間來看約是1小時10分鐘
所以是70分鐘=4200秒,4200秒/150張=28秒/張
以這速度,要做25秒的影片就要生成快6個小時
筆電版真的不行啊
正當這麼想的時候,有網友回饋他桌機版RTX3060 12GB的也差不多這時間
所以桌不桌機不是重點了,應該是作者的RTX4090是新一代的才有辦法更快啊
如果生成速度是一張2.5秒的話,25秒影片只要31分鐘多
有點想買新的桌機了...
使用心得差不多都講完了 XD
來說說安裝,Windows版很簡單,從官方網頁下載1.7GB的檔案解壓縮後
先執行update.bat,再執行run.bat就會在下載完30GB的模型後開啟網頁
不過,有網友遇到了問題
因為作者包裝版的cuda是12.6版,但這版本對RTX50XX系的支援有問題
同時據其它網友說,目前官方只有nighty版的cuda12.8比較支援RTX50XX
所以要的話,只能自己下載nighty版使用
因為我沒有RTX50XX的顯示卡
所以只能查證到RTX50XX跑cuda12.6確實有問題
這就等Nvidia官方處理了
至於自救處理法,目前網友是推,使用pinokio安裝
https://pinokio.computer/
這版修了一些東西掉,這樣RTX50XX系列就可以跑了
另外自己有注意到開啟應用時有xformer的字樣
但顯示not installed
查了一下,Reddit的這篇有解法
https://www.reddit.com/r/StableDiffusion/comments/1k34bot/installing_xformers_triton_flashsage_attention_on/?rdt=49714
照著做之後,處理速度略有小提升
5秒鐘影片的生成,可以在1小時內完成了
另外照著這篇做不是完全沒問題
在執行這行時出現問題
python.exe -s -m pip install -U 'triton-windows<3.3'
我是將'改成"之後才沒問題的,像這樣
python.exe -s -m pip install -U "triton-windows<3.3"
至於最後兩行安裝是沒問題的,可以安心使用
不過即便有加速套件,我用的還是蠻痛苦的,畢竟生5秒影片要一小時
所以在打算有玩過就好要關閉這項目時
網友就推了個修改後的強化模組給我了
https://github.com/lllyasviel/FramePack/issues/138
這串原本也是討論Xformer等提速套件安裝,也有給解法了
但最主要的這討論裡面有個修正的MOD:FlowDownTheRiver_Mod
我一開始用的是V3版,裡面有兩個原始專案沒有的好用功能
EndFrame與降解析度
目前最新版出到V5,則再多了一個影片輸出改FPS
降解析度實在太棒了,5秒的影片只需要10分鐘
光這個就讓我又多玩了一兩天
不過也因為這個一兩天,讓我覺得這終究還是正在發展中的技術
稍微玩玩還行,實用度還不是非常高
主原因就是這個下面的圖左,我想讓圖左邊這架里歐做右邊東方不敗的招牌動作
我下了指令下了好幾種,不動就是不動,頂多舉起手來
參考官網的提示詞說明上,是請AI「根據圖片」去產生接下來的動作
圖片丟上去ChatGPT得到的就是下面的描述:
「The robot performs a powerful kung fu dance, striking sharp poses with dramatic arm sweeps and high knee lifts.」
跑出來有動感很多,像下面這樣
但不是我要的動作,改了幾次也調不出東方不敗的效果
好吧,沒關係,我還有EndFrame這功能
強制轉第二張圖的動作
可是我一直生不出比較合格的第二張圖,最後請ChatGpt生了這張圖
雖然是類吉姆頭,但雙手至少高舉,且單腳站立,勉強湊合著用
就這樣生成了這個動畫
這邊可以看出,FramePack的動畫生成權重是偏最後一張圖的
也就是說,有了夠正確的第二張圖,FramePack可以補間到蠻正常的狀態
有了EndFarme看起來能玩的東西好像更多了,但是!
這種補間工具其實之前就有了,之所以沒有研究除以之前自己顯示卡還不足之外
最主要還是,這製作法與傳統製作動畫其實並無太大差別了
頂多就是中間的畫面是AI補的,但關鍵畫格(Key Frame)還是需要的
與FramePack一開始範例用文字生動作性質就相差很遠了
雖然也是個好工具了,尤其用來生成「偽Stop Motion」動畫會容易很多
之後應該也會拿幾個模型擺拍來生成一下,這玩意的研究就先到此
期待之後有更棒的東西出來
沒有留言:
張貼留言