
Stable Diffusion で インペイントを極めよう
Stable Diffusion とは…
もし、あなたが思い通りの「絵」を、自由に描けるとしたら?
突然ですが「AI画像生成」という言葉を聞いたことがありますか?
最近、ニュースやSNSで話題の、文章(プロンプト)を入力するだけで、AIが自動でイラストや写真を生成してくれる、あの魔法のような技術のことです。
現在では、GPT, Gemini, Copilot, など、多くの無料画像生成AIが大活躍していますが、その中でも、自分のPCにインストールして、自分好みにどこまでもカスタマイズできる最強のAI画像生成ツールが、今回ご紹介する「Stable Diffusion(ステーブル・ディフュージョン)」です。
「え、でも、AIが描く絵って、なんか変な感じなんでしょ?」
「プログラミングとか、専門知識がないと無理なんじゃない?」
そう思った、そこのあなた。
はっきり言ってそんな時代じゃないです。
「自分が脳内で描いた思い通りで最高な絵を描いてくれる」それが筆者の思っていたAI生成画像ですが、しかし、いざやってみると実際、そうでもない…。
「なんかちげぇ」とか「なんか惜しい」という完全に射幸心をあおられまくったガチャ沼にハマりますが、Stable Diffusion はローカルで稼働するので何万枚の絵を描いてもらっても無料なので、問題はない。
しかし、真の凄さは、ただ絵を生成するだけではありません。
生成した絵を、まるで粘土をこねるように、自分の手で、細部まで、“理想の姿”に創り変えることができるのです。これは、現実の写真を使うことも可能です。
この記事では筆者が、Stable Diffusionの「i2i(img2img)-In paint-」という機能を使って、1枚の「AIが生成した絵」を「作品」に変えていく、その全記録を、チュートリアルの形でお届けします。
この記事を読み終える頃には、あなたもきっとその沼のような楽しさに、気づいてしまうはずです。
疑似的に楽しんでってください。
SDガチャで「ほぼ当たり」の絵が出た

プロンプト
1girl, solo, (cool beautiful woman:1.2), street style, twin tails, sharp brown eyes, confident expression, bubble gum, smirk, looking at viewer, confident, slightly rebellious, (oversized black hoodie:1.2), graphic print on hoodie, beanie, standing, hands in pockets, leaning against wall, (in front of a graffiti-covered wall:1.3), vibrant graffiti art, street art, urban setting, alleyway, concrete wall, daytime, slightly overcast, diffused lighting, dynamic composition, realistic,
Stable Diffusion(SD)に限らず、AI生成画像においては、各パーツに割り当てる画素数によってクオリティが大きく変わりますが、わかりやすいのは顔ですね。
簡単に言えば、全身図より顔のアップのほうが顔がキレイに出力されるということです。
それはそうと、この画像、うまい具合に手をポケットに入れており、ポージングや表情なども良いのですが…やはりどうにも気に入りません。
特に気になるのは以下の三点。
- beanie(ニット帽)がなんか変
- 顔が変(目が変)
- ズボンを履いてるのかわからん
ということで、これらを直していきましょう。
最重要工程!i2iインペイントで「顔面」を創り変える!

AI生成画像初期ならば、これでも十分クオリティは高いと言われてたと思いますが、AIの改良/進化はすさまじく、もはやこの程度では誰も満足しなくなりました。
まして、筆者の使用しているSDのバージョンは1.5と、これも低い…とはいえ2年しか経ってないのですが…。しかし、これしか使えないんだからしょうがない。
それはともかく、全身図で生成した場合、AIは顔に十分な解像度を割り当ててくれず、顔が崩れてしまうことがよくありますが、これを修正するだけでも、絵の印象は劇的に変わります。
改造/修正の方法

- [Inpaint] タブに移動し、修正したい「顔」の部分だけをブラシでマスクします。
- プロンプトを「顔」に特化させます。 masterpiece, best quality, absurdres, (perfect face:1.4), beautiful brown eyes, detailed lips, cool expression のように、顔に関する呪文だけを入力。全身を描いた時のプロンプトは、逆にノイズになるので削除しましょう。
- Denoising strengthを調整します。 ここが最重要。0.4~0.6の間で調整するのがオススメです。元の顔の輪郭や雰囲気を活かしつつ、ディテールだけを高品質に描き直すことができます。
修正ガチャの後

このように、マスクをかけて一転集中的な作業を行わせることでディティールがアップします。
ちなみに、目が青くなりやすいのは、モデルの学習の際に金髪=青眼が多いためで、また、片目、主に左目が変になりやすいのは、角度付きの画像を学習しているからです。そういうのもこのようにインペイントで修正できます。どうにもならない場合は画像編集で自力で直したほうが早いですが…。
好みの問題?i2iインペイントで「パンツ」を履かせる!

少年向けに「うひょー!」とか言ってみましたが、無法地帯なSDユーザーの筆者…この程度なんとも思いません。それよりも「なんか履けよ!風邪ひくぞ!」と、親心まで感じる始末。
改造/修正の方法

- [Inpaint] タブに移動し、脚(太もも)の部分だけをブラシでマスクします。コツは、パーカーとの切れ目を細かく塗りつぶすことです。
- プロンプトを「ズボン」に特化させます。masterpiece, best quality, absurdres, ripped jeans のように、履かせたいズボンに関する呪文だけを入力。今回は、ストリート感を出すために破れたジーンズにしましょう。
- Denoising strengthを調整します。 ここが最重要。0.7~0.9の間で調整するのがオススメです。
修正ガチャの後

もしかしたらショーパンだったのかもしれませんが、やっぱりこういうパンツがストリートでは恰好良いですね。
完成に向けてディティールを加えていく

パーカー(フーディ)の素材的に、プルオーバー(かぶり式)ではなく、「ジッパータイプの素材だろ!?」と思ったので、チャックをつけることにしました。
真ん中に一筆でマスク線をいれ[zip-up hoodie, zipper]などと指定し、何度かガチャを行います。
ほかにも、耳が微妙だったのでピアスを追加したり、手(親指)がなんか気に入らないので修正したり、帽子の先端を消すなど、細かく調整していきます。
結論:完成した画像がコチラ

このような感じで、細かく修正していくことが可能で、髪の色を変えたりもできます。
結論としては、一発生成を目指すのではなく、8割ほど完成した画像を加工していくのが良い画像を作るコツだと実感しています。
ただし、画像のサイズがでかければでかいほど、キレイな画像になります。
筆者はこれ、GTX960という化石みたいなグラボでやってますが、RTX3060 12GB なら、コスパもよく、さらに倍のサイズを今よりも早く作れるとのことです。
\誰かくれ/
時代は”動画生成”
SD1.5で作った画像→klingAI2.1で動画化 pic.twitter.com/SGZrhZnKBW
— ウラカタヒロ (@UrakataHero) August 5, 2025
Stable Diffusionでも動画は作れますが、ハイスペックPCが必要。
色んな動画生成作成サイトがあるのだが、いずれも進化が早く、どこが良いなどと言うのはなかなか…筆者は最初に試したのがKlingだったので、Klingを使っていますが、GoogleのVEOもかなり強力で、これからはGeminiがどんどん強化されていくように感じています。いずれにしてI2V対応が必須。
執筆後記

モデルがどうのマージがどうのとLoRAがどうのと、むつかしい話はそっちのけで、どうしたら良い画像を生成することができるのか?という1点のみを探求しています。
公開する場所もよくわからんので、たぶんこのブログで公開していくでしょうけど、しかし、SDってのはなんていうか…モロ見えのドスケベ画像ばっかり出力されるんですよ…。それを隠すためのi2iでもあります。黒塗りとかモザイクとかより、こう、見えそうで見えないみたいな方が絵として良いですから。

