【Stable Diffusion】たった1枚のイラストと音声データだけで”喋るアニメーション”を作成できるSadTalkerを試してみたのじゃ💖

AI動画

2025.04.042024.01.21

セレスティア学園長

セレスティア学園長

わしもそろそろ喋ってみたいのじゃ💖

アンナ

アンナ

それならStable Diffusionの拡張機能SadTalkerを試してみましょう！

セレスティア学園長

セレスティア学園長

悲しそうな拡張機能なのじゃ・・

目次

SadTalkerとは？
実践：SadTalkerを使ってみた
まとめ

SadTalkerとは？

　SadTalkerは、音声に合わせて口パクする動画を生成する技術です。
SadTalkerは、Stable DiffusionのWebUIで使える拡張機能として提供されています。

　SadTalkerを使うと、一枚の画像と音声さえあれば、画像が動き出して実際にしゃべっているように見える動画を作成できます。これは、音声から頭部の姿勢や表情などの3D情報を生成し、それを空間マッピングすることで最終映像を合成する仕組みになっています。

SadTalkerを使うには、以下の手順が必要です。

・Stable Diffusion WebUI Automatic1111のセットアップ
・ffmpegのインストール
・SadTalker拡張機能のインストール
・SadTalkerモデルの設置
・音声ファイルと画像ファイルの準備
・SadTalkerのWebUIで動画作成

　導入の詳細は以下の記事を参照にしてください。
Sadtalker拡張機能でStable Diffusionで音声に合わせて会話する動画を作成 | 鷹の目週末プログラマー (happy-shibusawake.com)

実践：SadTalkerを使ってみた

セレスティア学園長

セレスティア学園長

よし！SadTalkerの設定が終わったのじゃ！

早く作るのじゃ！

アンナ

アンナ

では喋らせたい人物の画像と音声データを用意しましょう！

セレスティア学園長

セレスティア学園長

イラストはこれを使うのじゃ💖

アンナ

アンナ

では次に音声データですね。

今回、音声データ作成に「VOICEVOX」というソフトを使ってみます。

VOICEVOXはテキストを様々なキャラクターの声で読み上げてくれるソフトです。

セレスティア学園長

セレスティア学園長

しかも無料なのじゃ！

ここからダウンロードできるのじゃ💖

VOICEVOX | 無料のテキスト読み上げ・歌声合成ソフトウェア

無料で使える中品質なテキスト読み上げ・歌声合成ソフトウェア。商用・非商用問わず無料で、誰でも簡単にお使いいただけます。イントネーションを詳細に調整することも可能です。

アンナ

アンナ

声は”四国めたん”ちゃんで作ってみますね！

読み上げる文章はどうしましょう？

セレスティア学園長

セレスティア学園長

「わしはゴスロリ学園の学園長、セレスティア・シャドーハートなのじゃ」

これで頼むのじゃ💖

アンナ

アンナ

了解です！

はい、出来ましたよ！

セレスティア学園長

セレスティア学園長

可愛い声なのじゃ💖

アンナ

アンナ

いよいよSadTalkの出番ですね！

SadTalkはtxt2imgと同じ並びのタブにあるのでSadTalkのタブをクリックしましょう！

アンナ

アンナ

下図の①に人物イラストをアップロードします。

②に音声データをアップロードします。

あとはGenerateボタンを押すだけです！

生成された動画は③に表示されます。

セレスティア学園長

セレスティア学園長

セットしたのじゃ💖

セレスティア学園長

セレスティア学園長

Generateボタン、ポチッなのじゃ💖

セレスティア学園長

セレスティア学園長

動画が作られずにエラーと表示されているのじゃ・・

アンナ

アンナ

そうなんです！

SadTalkは喋らせたい人物の顔がリアル寄りでないと認識出来ずにエラーになるんです！

上の方にもエラーが表示されています。

セレスティア学園長

セレスティア学園長

泣きながらエラーを訴えているのじゃ・・

まさにSadTalkなのじゃ💖

しかし泣きたいのはこっちの方なのじゃ！

アンナ

アンナ

それではモデルを実写系に変更して試してみましょう！

モデルはmajicmixRealistic_v7です。

majicMIX realistic 麦橘写实 - v7 | Stable Diffusion Checkpoint | Civitai

V7 is here. So far so good for me. ASIAN ALERT! 推荐参数 Recommended Parameters for V7: Sampler: Euler a, Euler, restart Steps: 20~40 Hires upscaler: E...

セレスティア学園長

セレスティア学園長

これはこれで可愛いのじゃ💖

関係ないけど実写系はなかなか赤目にならないのじゃ・・

アンナ

アンナ

学園長が愚痴ってる間に生成成功です！

それでは見てみましょう！

セレスティア学園長

セレスティア学園長

凄いのじゃ！

画像１枚と音声データだけでここまでの動画が作れたのじゃ💖

セレスティア学園長

セレスティア学園長

じゃが、リアルすぎて明らかに別人なのじゃ・・・

アンナ

アンナ

次はもう少しだけアニメに寄せた絵柄でやってみましょう！

モデルはxxmix9realistic_v40です。

XXMix_9realistic - v4.0 | Stable Diffusion Checkpoint | Civitai

I found a new AI tool Shakker, a best image to image tool. You can try it via You can run XXMix_9realistic on sinkin.ai : ht...

セレスティア学園長

セレスティア学園長

2.5次元でもいけたのじゃ！

もう少し、もう少しわしに近づけるのじゃ！

アンナ

アンナ

はい！ではもっと学園長に近づけていきますよ！

モデルはdarkSushi25D25D_v40です。

Dark Sushi 2.5D 大颗寿司2.5D - v4.0 | Stable Diffusion Checkpoint | Civitai

Recommend: vae-ft-mse-840000-ema use highres fix to improve quality. Source: using MBW to merge Chillout and Dark Sushi and also add a little NijiE...

セレスティア学園長

セレスティア学園長

こ、これも出来たのじゃ！

アンナ

アンナ

アニメ調ですが目鼻口がしっかりと描かれていますからね。

AIはその部分で人の顔だと判断しているんじゃないでしょうか。

セレスティア学園長

セレスティア学園長

作っていて気になったことがあるのじゃが、動画の画質が悪いのじゃ・・・

アンナ

アンナ

それは設定で調整できますよ！

face model resolutionを256から512にして解像度を上げてみましょう！

preprocessもcropからfullに変更しました。cropは顔周りだけを切り抜くのに対してfullは参照画像をそのまま動画にします。

セレスティア学園長

セレスティア学園長

ヒッ！

なんか怖い動画になったのじゃ！

アンナ

アンナ

画素数を上げたり、fullにすると人物の顔が崩れやすいみたいですね。

GFPGAN as Face enhancerにチェックを入れるたりStill Modeにチェックを入れるとそれが抑えられるみたいですよ。

セレスティア学園長

セレスティア学園長

いい感じになったのじゃ💖

まとめ

セレスティア学園長

セレスティア学園長

今回のまとめなのじゃ💖

✅SadTalkerと解説とインストール手順
　SadTalkerは、１枚のイラストと音声データで音声に合わせて口パクする動画を生成できる

✅SadTalkerの使い方

✅SadTalkerの実践
　・目口鼻がはっきりしていないアニメ調イラストでは動画が作れない
　・画素数設定のface model resolution256から512に上げる場合はGFPGAN as Face enhancerにチェックを入れると動画が安定しやすい
　・preprocessをfullにセットする場合、Still Modeにチェックを入れると動画が安定しやすい

セレスティア学園長

セレスティア学園長

今日も楽しかったのじゃ💖

アンナ

アンナ

イラストが動くだけでもワクワクするのに喋るなんて凄いですよね！

セレスティア学園長

セレスティア学園長

そうじゃな💖

早くわしのようなアニメ顔にも対応して欲しいのじゃ💖

アンナ

アンナ

SadTalkerは今のところ3次元イラストの方が安定してますね

でもこの業界の進歩は早いのですぐに出来ますよ！

わたしたちが知らないだけでもうあるかもしれませんしね！

セレスティア学園長

セレスティア学園長

知っている人がいればぜひ教えて欲しいのじゃ💖

それが出来るようになれば、好きなアニメキャラにあんなことやこんなことを言わせることも可能なのじゃ💖

アンナ

アンナ

・・・

み、みなさんも面白い活用法があればぜひ教えてくださいね！

AI生成におすすめのコスパ最強グラフィックボード！！

MSI GeForce RTX 3060 VENTUS 2X 12G OC グラフィックスボード VD7553

コメント

タイトルとURLをコピーしました