【Stable Diffusion】たった1枚のイラストと音声データだけで”喋るアニメーション”を作成できるSadTalkerを試してみたのじゃ💖

セレスティア学園長
セレスティア学園長

わしもそろそろ喋ってみたいのじゃ💖

アンナ
アンナ

それならStable Diffusionの拡張機能SadTalkerを試してみましょう!

セレスティア学園長
セレスティア学園長

悲しそうな拡張機能なのじゃ・・

SadTalkerとは?

 SadTalkerは、音声に合わせて口パクする動画を生成する技術です。
SadTalkerは、Stable DiffusionのWebUIで使える拡張機能として提供されています。

 SadTalkerを使うと、一枚の画像と音声さえあれば、画像が動き出して実際にしゃべっているように見える動画を作成できます。これは、音声から頭部の姿勢や表情などの3D情報を生成し、それを空間マッピングすることで最終映像を合成する仕組みになっています。

SadTalkerを使うには、以下の手順が必要です。

・Stable Diffusion WebUI Automatic1111のセットアップ
・ffmpegのインストール
・SadTalker拡張機能のインストール
・SadTalkerモデルの設置

・音声ファイルと画像ファイルの準備
・SadTalkerのWebUIで動画作成

 導入の詳細は以下の記事を参照にしてください。
Sadtalker拡張機能でStable Diffusionで音声に合わせて会話する動画を作成 | 鷹の目週末プログラマー (happy-shibusawake.com)

実践:SadTalkerを使ってみた

セレスティア学園長
セレスティア学園長

よし!SadTalkerの設定が終わったのじゃ!

早く作るのじゃ!

アンナ
アンナ

では喋らせたい人物の画像と音声データを用意しましょう!

セレスティア学園長
セレスティア学園長

イラストはこれを使うのじゃ💖

アンナ
アンナ

では次に音声データですね。

今回、音声データ作成に「VOICEVOX」というソフトを使ってみます。

VOICEVOXはテキストを様々なキャラクターの声で読み上げてくれるソフトです。

アンナ
アンナ

声は”四国めたん”ちゃんで作ってみますね!

読み上げる文章はどうしましょう?

セレスティア学園長
セレスティア学園長

「わしはゴスロリ学園の学園長、セレスティア・シャドーハートなのじゃ」

これで頼むのじゃ💖

アンナ
アンナ

了解です!

はい、出来ましたよ!

セレスティア学園長
セレスティア学園長

可愛い声なのじゃ💖

アンナ
アンナ

いよいよSadTalkの出番ですね!

SadTalkはtxt2imgと同じ並びのタブにあるのでSadTalkのタブをクリックしましょう!

アンナ
アンナ

下図の①に人物イラストをアップロードします。

②に音声データをアップロードします。

あとはGenerateボタンを押すだけです!

生成された動画は③に表示されます。

セレスティア学園長
セレスティア学園長

セットしたのじゃ💖

セレスティア学園長
セレスティア学園長

Generateボタンポチッなのじゃ💖

セレスティア学園長
セレスティア学園長

動画が作られずにエラーと表示されているのじゃ・・

アンナ
アンナ

そうなんです!

SadTalkは喋らせたい人物の顔がリアル寄りでないと認識出来ずにエラーになるんです!

上の方にもエラーが表示されています。

セレスティア学園長
セレスティア学園長

泣きながらエラーを訴えているのじゃ・・

まさにSadTalkなのじゃ💖

しかし泣きたいのはこっちの方なのじゃ!

セレスティア学園長
セレスティア学園長

これはこれで可愛いのじゃ💖

関係ないけど実写系はなかなか赤目にならないのじゃ・・

アンナ
アンナ

学園長が愚痴ってる間に生成成功です!

それでは見てみましょう!

セレスティア学園長
セレスティア学園長

凄いのじゃ!

画像1枚と音声データだけでここまでの動画が作れたのじゃ💖

セレスティア学園長
セレスティア学園長

じゃが、リアルすぎて明らかに別人なのじゃ・・・

アンナ
アンナ
セレスティア学園長
セレスティア学園長

2.5次元でもいけたのじゃ!

もう少し、もう少しわしに近づけるのじゃ!

セレスティア学園長
セレスティア学園長

こ、これも出来たのじゃ!

アンナ
アンナ

アニメ調ですが目鼻口がしっかりと描かれていますからね。

AIはその部分で人の顔だと判断しているんじゃないでしょうか。

セレスティア学園長
セレスティア学園長

作っていて気になったことがあるのじゃが、動画の画質が悪いのじゃ・・・

アンナ
アンナ

それは設定で調整できますよ!

face model resolutionを256から512にして解像度を上げてみましょう!

preprocessもcropからfullに変更しました。cropは顔周りだけを切り抜くのに対してfullは参照画像をそのまま動画にします。

セレスティア学園長
セレスティア学園長

ヒッ!

なんか怖い動画になったのじゃ!

アンナ
アンナ

画素数を上げたり、fullにすると人物の顔が崩れやすいみたいですね。

GFPGAN as Face enhancerにチェックを入れるたりStill Modeにチェックを入れるとそれが抑えられるみたいですよ

セレスティア学園長
セレスティア学園長

いい感じになったのじゃ💖

まとめ

セレスティア学園長
セレスティア学園長

今回のまとめなのじゃ💖

SadTalkerと解説とインストール手順
 SadTalkerは、1枚のイラストと音声データで音声に合わせて口パクする動画を生成できる

SadTalkerの使い方

SadTalkerの実践
 ・目口鼻がはっきりしていないアニメ調イラストでは動画が作れない
 ・画素数設定のface model resolution256から512に上げる場合はGFPGAN as Face enhancerにチェックを入れると動画が安定しやすい
 ・preprocessをfullにセットする場合、Still Modeにチェックを入れると動画が安定しやすい

セレスティア学園長
セレスティア学園長

今日も楽しかったのじゃ💖

アンナ
アンナ

イラストが動くだけでもワクワクするのに喋るなんて凄いですよね!

セレスティア学園長
セレスティア学園長

そうじゃな💖

早くわしのようなアニメ顔にも対応して欲しいのじゃ💖

アンナ
アンナ

SadTalkerは今のところ3次元イラストの方が安定してますね

でもこの業界の進歩は早いのですぐに出来ますよ!

わたしたちが知らないだけでもうあるかもしれませんしね!

セレスティア学園長
セレスティア学園長

知っている人がいればぜひ教えて欲しいのじゃ💖

それが出来るようになれば、好きなアニメキャラにあんなことやこんなことを言わせることも可能なのじゃ💖

アンナ
アンナ

・・・

み、みなさんも面白い活用法があればぜひ教えてくださいね!

AI生成におすすめのコスパ最強グラフィックボード!! MSI GeForce RTX 3060 VENTUS 2X 12G OC グラフィックスボード VD7553

コメント

タイトルとURLをコピーしました