わしもそろそろ喋ってみたいのじゃ💖
それならStable Diffusionの拡張機能SadTalkerを試してみましょう!
悲しそうな拡張機能なのじゃ・・
SadTalkerとは?
SadTalkerは、音声に合わせて口パクする動画を生成する技術です。
SadTalkerは、Stable DiffusionのWebUIで使える拡張機能として提供されています。
SadTalkerを使うと、一枚の画像と音声さえあれば、画像が動き出して実際にしゃべっているように見える動画を作成できます。これは、音声から頭部の姿勢や表情などの3D情報を生成し、それを空間マッピングすることで最終映像を合成する仕組みになっています。
SadTalkerを使うには、以下の手順が必要です。
・Stable Diffusion WebUI Automatic1111のセットアップ
・ffmpegのインストール
・SadTalker拡張機能のインストール
・SadTalkerモデルの設置
・音声ファイルと画像ファイルの準備
・SadTalkerのWebUIで動画作成
導入の詳細は以下の記事を参照にしてください。
Sadtalker拡張機能でStable Diffusionで音声に合わせて会話する動画を作成 | 鷹の目週末プログラマー (happy-shibusawake.com)
実践:SadTalkerを使ってみた
よし!SadTalkerの設定が終わったのじゃ!
早く作るのじゃ!
では喋らせたい人物の画像と音声データを用意しましょう!
イラストはこれを使うのじゃ💖
では次に音声データですね。
今回、音声データ作成に「VOICEVOX」というソフトを使ってみます。
VOICEVOXはテキストを様々なキャラクターの声で読み上げてくれるソフトです。
しかも無料なのじゃ!
ここからダウンロードできるのじゃ💖
声は”四国めたん”ちゃんで作ってみますね!
読み上げる文章はどうしましょう?
「わしはゴスロリ学園の学園長、セレスティア・シャドーハートなのじゃ」
これで頼むのじゃ💖
了解です!
はい、出来ましたよ!
可愛い声なのじゃ💖
いよいよSadTalkの出番ですね!
SadTalkはtxt2imgと同じ並びのタブにあるのでSadTalkのタブをクリックしましょう!
下図の①に人物イラストをアップロードします。
②に音声データをアップロードします。
あとはGenerateボタンを押すだけです!
生成された動画は③に表示されます。
セットしたのじゃ💖
Generateボタン、ポチッなのじゃ💖
動画が作られずにエラーと表示されているのじゃ・・
そうなんです!
SadTalkは喋らせたい人物の顔がリアル寄りでないと認識出来ずにエラーになるんです!
上の方にもエラーが表示されています。
泣きながらエラーを訴えているのじゃ・・
まさにSadTalkなのじゃ💖
しかし泣きたいのはこっちの方なのじゃ!
これはこれで可愛いのじゃ💖
関係ないけど実写系はなかなか赤目にならないのじゃ・・
学園長が愚痴ってる間に生成成功です!
それでは見てみましょう!
凄いのじゃ!
画像1枚と音声データだけでここまでの動画が作れたのじゃ💖
じゃが、リアルすぎて明らかに別人なのじゃ・・・
次はもう少しだけアニメに寄せた絵柄でやってみましょう!
モデルはxxmix9realistic_v40です。
2.5次元でもいけたのじゃ!
もう少し、もう少しわしに近づけるのじゃ!
こ、これも出来たのじゃ!
アニメ調ですが目鼻口がしっかりと描かれていますからね。
AIはその部分で人の顔だと判断しているんじゃないでしょうか。
作っていて気になったことがあるのじゃが、動画の画質が悪いのじゃ・・・
それは設定で調整できますよ!
face model resolutionを256から512にして解像度を上げてみましょう!
preprocessもcropからfullに変更しました。cropは顔周りだけを切り抜くのに対してfullは参照画像をそのまま動画にします。
ヒッ!
なんか怖い動画になったのじゃ!
画素数を上げたり、fullにすると人物の顔が崩れやすいみたいですね。
GFPGAN as Face enhancerにチェックを入れるたりStill Modeにチェックを入れるとそれが抑えられるみたいですよ。
いい感じになったのじゃ💖
まとめ
今回のまとめなのじゃ💖
✅SadTalkerと解説とインストール手順
SadTalkerは、1枚のイラストと音声データで音声に合わせて口パクする動画を生成できる
✅SadTalkerの使い方
✅SadTalkerの実践
・目口鼻がはっきりしていないアニメ調イラストでは動画が作れない
・画素数設定のface model resolution256から512に上げる場合はGFPGAN as Face enhancerにチェックを入れると動画が安定しやすい
・preprocessをfullにセットする場合、Still Modeにチェックを入れると動画が安定しやすい
今日も楽しかったのじゃ💖
イラストが動くだけでもワクワクするのに喋るなんて凄いですよね!
そうじゃな💖
早くわしのようなアニメ顔にも対応して欲しいのじゃ💖
SadTalkerは今のところ3次元イラストの方が安定してますね
でもこの業界の進歩は早いのですぐに出来ますよ!
わたしたちが知らないだけでもうあるかもしれませんしね!
知っている人がいればぜひ教えて欲しいのじゃ💖
それが出来るようになれば、好きなアニメキャラにあんなことやこんなことを言わせることも可能なのじゃ💖
・・・
み、みなさんも面白い活用法があればぜひ教えてくださいね!
コメント