【Stable Diffusion】たった1枚のイラストと音声データだけで”喋るアニメーション”を作成できるSadTalkerを試してみたのじゃ💖

セレスティア学園長
セレスティア学園長

わしもそろそろ喋ってみたいのじゃ💖

アンナ
アンナ

それならStable Diffusionの拡張機能SadTalkerを試してみましょう!

セレスティア学園長
セレスティア学園長

悲しそうな拡張機能なのじゃ・・

SadTalkerとは?

 SadTalkerは、音声に合わせて口パクする動画を生成する技術です。
SadTalkerは、Stable DiffusionのWebUIで使える拡張機能として提供されています。

 SadTalkerを使うと、一枚の画像と音声さえあれば、画像が動き出して実際にしゃべっているように見える動画を作成できます。これは、音声から頭部の姿勢や表情などの3D情報を生成し、それを空間マッピングすることで最終映像を合成する仕組みになっています。

SadTalkerを使うには、以下の手順が必要です。

・Stable Diffusion WebUI Automatic1111のセットアップ
・ffmpegのインストール
・SadTalker拡張機能のインストール
・SadTalkerモデルの設置

・音声ファイルと画像ファイルの準備
・SadTalkerのWebUIで動画作成

 導入の詳細は以下の記事を参照にしてください。
Sadtalker拡張機能でStable Diffusionで音声に合わせて会話する動画を作成 | 鷹の目週末プログラマー (happy-shibusawake.com)

実践:SadTalkerを使ってみた

セレスティア学園長
セレスティア学園長

よし!SadTalkerの設定が終わったのじゃ!

早く作るのじゃ!

アンナ
アンナ

では喋らせたい人物の画像と音声データを用意しましょう!

セレスティア学園長
セレスティア学園長

イラストはこれを使うのじゃ💖

アンナ
アンナ

では次に音声データですね。

今回、音声データ作成に「VOICEVOX」というソフトを使ってみます。

VOICEVOXはテキストを様々なキャラクターの声で読み上げてくれるソフトです。

アンナ
アンナ

声は”四国めたん”ちゃんで作ってみますね!

読み上げる文章はどうしましょう?

セレスティア学園長
セレスティア学園長

「わしはゴスロリ学園の学園長、セレスティア・シャドーハートなのじゃ」

これで頼むのじゃ💖

アンナ
アンナ

了解です!

はい、出来ましたよ!

セレスティア学園長
セレスティア学園長

可愛い声なのじゃ💖

アンナ
アンナ

いよいよSadTalkの出番ですね!

SadTalkはtxt2imgと同じ並びのタブにあるのでSadTalkのタブをクリックしましょう!

アンナ
アンナ

下図の①に人物イラストをアップロードします。

②に音声データをアップロードします。

あとはGenerateボタンを押すだけです!

生成された動画は③に表示されます。

セレスティア学園長
セレスティア学園長

セットしたのじゃ💖

セレスティア学園長
セレスティア学園長

Generateボタンポチッなのじゃ💖

セレスティア学園長
セレスティア学園長

動画が作られずにエラーと表示されているのじゃ・・

アンナ
アンナ

そうなんです!

SadTalkは喋らせたい人物の顔がリアル寄りでないと認識出来ずにエラーになるんです!

上の方にもエラーが表示されています。

セレスティア学園長
セレスティア学園長

泣きながらエラーを訴えているのじゃ・・

まさにSadTalkなのじゃ💖

しかし泣きたいのはこっちの方なのじゃ!

セレスティア学園長
セレスティア学園長

これはこれで可愛いのじゃ💖

関係ないけど実写系はなかなか赤目にならないのじゃ・・

アンナ
アンナ

学園長が愚痴ってる間に生成成功です!

それでは見てみましょう!

セレスティア学園長
セレスティア学園長

凄いのじゃ!

画像1枚と音声データだけでここまでの動画が作れたのじゃ💖

セレスティア学園長
セレスティア学園長

じゃが、リアルすぎて明らかに別人なのじゃ・・・

アンナ
アンナ
セレスティア学園長
セレスティア学園長

2.5次元でもいけたのじゃ!

もう少し、もう少しわしに近づけるのじゃ!

セレスティア学園長
セレスティア学園長

こ、これも出来たのじゃ!

アンナ
アンナ

アニメ調ですが目鼻口がしっかりと描かれていますからね。

AIはその部分で人の顔だと判断しているんじゃないでしょうか。

セレスティア学園長
セレスティア学園長

作っていて気になったことがあるのじゃが、動画の画質が悪いのじゃ・・・

アンナ
アンナ

それは設定で調整できますよ!

face model resolutionを256から512にして解像度を上げてみましょう!

preprocessもcropからfullに変更しました。cropは顔周りだけを切り抜くのに対してfullは参照画像をそのまま動画にします。

セレスティア学園長
セレスティア学園長

ヒッ!

なんか怖い動画になったのじゃ!

アンナ
アンナ

画素数を上げたり、fullにすると人物の顔が崩れやすいみたいですね。

GFPGAN as Face enhancerにチェックを入れるたりStill Modeにチェックを入れるとそれが抑えられるみたいですよ

セレスティア学園長
セレスティア学園長

いい感じになったのじゃ💖

まとめ

セレスティア学園長
セレスティア学園長

今回のまとめなのじゃ💖

SadTalkerと解説とインストール手順
 SadTalkerは、1枚のイラストと音声データで音声に合わせて口パクする動画を生成できる

SadTalkerの使い方

SadTalkerの実践
 ・目口鼻がはっきりしていないアニメ調イラストでは動画が作れない
 ・画素数設定のface model resolution256から512に上げる場合はGFPGAN as Face enhancerにチェックを入れると動画が安定しやすい
 ・preprocessをfullにセットする場合、Still Modeにチェックを入れると動画が安定しやすい

セレスティア学園長
セレスティア学園長

今日も楽しかったのじゃ💖

アンナ
アンナ

イラストが動くだけでもワクワクするのに喋るなんて凄いですよね!

セレスティア学園長
セレスティア学園長

そうじゃな💖

早くわしのようなアニメ顔にも対応して欲しいのじゃ💖

アンナ
アンナ

SadTalkerは今のところ3次元イラストの方が安定してますね

でもこの業界の進歩は早いのですぐに出来ますよ!

わたしたちが知らないだけでもうあるかもしれませんしね!

セレスティア学園長
セレスティア学園長

知っている人がいればぜひ教えて欲しいのじゃ💖

それが出来るようになれば、好きなアニメキャラにあんなことやこんなことを言わせることも可能なのじゃ💖

アンナ
アンナ

・・・

み、みなさんも面白い活用法があればぜひ教えてくださいね!

AI生成におすすめのコスパ最強グラフィックボード!! MSI GeForce RTX 3060 VENTUS 2X 12G OC グラフィックスボード VD7553

AIイラスト制作には大容量ストレージが必須です

ComfyUIやStable Diffusionを使っていると、

✅ モデル(Checkpoint / LoRA / ControlNet)
✅ 生成した画像や動画
✅ 学習データやバックアップ

などで、あっという間に数百GB〜数TBの容量を使います。

特にCドライブ(SSD)にすべて保存していると、 Windowsの動作が不安定になったり、生成エラーの原因になることもあります。

そのためおすすめなのが、モデルや生成画像は大容量HDDに保存して、CドライブはComfyUI本体だけにする構成です。

実際に多くのAIイラストユーザーが「SSD+大容量HDDの併用」で環境を安定させています。

✅ AIイラスト用途で選ぶポイント
容量:最低 4TB以上(できれば8TB)
信頼性の高いメーカー(Seagate / Western Digital / Toshiba)
長時間稼働向けモデル

以下は、AIイラスト制作用ストレージとして実績のあるおすすめ商品です。

Western Digital Blue 4TB(内蔵HDD)

・安定性が高く故障報告が少ない
・価格と信頼性のバランスが良い
・AIモデル保存用に最適
Western Digital Blue 4TB
Amazonで購入する


Seagate IronWolf 8TB

✅私はこれを購入しました。
・NAS向け設計で長時間稼働に強い
・大量のAIモデル・生成データを安心して保存できる
・将来的に動画生成や学習用途にも対応
Seagate IronWolf 8TB
Amazonで購入する


私の使用しているグラフィックボード

GeForce RTX 5060 Ti

現在使用しているグラボです。
グラフィックRAMサイズは16GBです。
今まで使っていたSabilityMatrixが使えなくなったりComfyUIも動かすにはひと手間必要だったので、正直そこまでお勧めはしません。
しかし今後のアップデートなどで使用環境が良くなることを期待しています。スペックは以前のグラボより高いです
GeForce RTX 3060 Ti

商品リンク: https://amzn.to/4aoafIJ

GeForce RTX 3060 Ti

これは以前まで使っていたグラボです。
グラフィックRAMサイズは8GBと少し物足りないですが、ローカル生成AIツールでは安定して使えます。
stable-diffusion-webui-forgeを使えば960×1680サイズもそこそこのスピードで生成してくれます!
GeForce RTX 3060 Ti

商品リンク: https://amzn.to/4q6dnO7
AI動画
Celestiaをフォローする
セレスティアのAIゆるラボ|AIイラスト・AI動画・マネタイズ実験室

コメント

タイトルとURLをコピーしました