Stable Diffusion 単語


ニコニコ動画でStable Dif…の動画を見に行く

ステイブルディフュージョン

5.4千文字の記事

Stable Diffusionステイブル・ディフュージョン)とは、2022年開された画像生成AIサービスである。略してSDとも呼ばれる。

潜在拡散モデルという技術を使って高品質な画像生成を実現しており、オープンソースかつ無料で利用できることもあいまって、2024年現在NovelAI Diffusion(以下NAI)などと共に流となっている画像生成AIサービスであると思われる。

特徴

簡単なテキスト(これをプロンプトと呼ぶ)で描かせたい内容を示して画像を生成するtxt2imgと、元になる画像を加工して新たな画像を生成するimg2imgに対応している。

NAIとの比較

Stable Diffusionと共に流となっている画像生成AIサービスであるNAIとは、以下のような点が異なっている。これから画像生成AIに触れたいがどのサービスを利用するか迷っている人は参考にしてほしい。

なお、以下の表においてStable Diffusionはローカル版の利用を想定している。

Stable Diffusion NAI
初期費用 ある程度のグラボを搭載したPCを用意する必要がある。 普通PCまたはスマホで利用できる。
利用料金 無料 有料。
サブスクプランの加入または都度課金が必要で、制限で画像を生成できる最上位のプラン$25。
プロンプトの反応性 使用するモデルにもよるが、基本的にプロンプトの反応性はNAIに劣る。 良好。
性の高さ モデルの変更やLoRAの使用、さらにはControlNetなどの拡張機能によって画や構図を自由自在に変えられる。 モデルの変更はアップデートによるもののみで、拡性に乏しい。

利用方法

Stable Diffusionは大きく分けて、WEB上で動作させる方法とローカル環境を構築して動作させる方法がある。

WEB上ではHugging FaceDreamStudioなどのサイト開されており、難しい技術などは一切不要で手軽に利用できるが、機が著しく制限される、または課金が必要なため、多くのユーザーローカル環境を構築して利用している。

ローカル版は更に、ブラウザ上で動くStable Diffusion Web UIと、専用のアプリケーションを使うNMKD Stable Diffusion GUIがある。それぞれの特徴は以下のとおりである。

Stable Diffusion Web UI(以下WebUI版)
PythonGitなどのツールを利用してローカル環境を構築し、Webブラウザで動作させる。拡性の高さなどから、2024年現在最も利用者が多いと思われるStable Diffusionである。導入までの技術的なハードルはやや高いが、ユーザー数が多い分ノウハウも蓄積されており、不明な点をすぐに調べたり聞いたりしやすい点もメリット
AUTOMATIC1111氏が開するAUTOMATIC1111版や、AUTOMATIC1111版よりも高速で動作するForge版、独特なUIを持つConfyUI版などがある。ただし前者2つはNVIDIAグラフィックボードを積んでいるのが前提。
NMKD Stable Diffusion GUI(以下GUI版)
専用のアプリケーションダウンロードし、それをローカルで動作させる。WebUI版とべると手軽に導入できるのがメリットだが、拡性では劣る。とはいえバージョンが上がるごとに利用できる機が充実してきており、ControlNetなどの高度な拡張機能を必要としないのであればこちらを使うのもアリだろう。
AUTOMATIC1111版とは違いRadeonでも動く。

モデル

Stable Diffusionで画像を生成するには、Stable Diffusion本体のほかにモデルという学習データファイルを用意する必要がある。

Stable Diffusionにはデフォルトモデルも用意されているが、これは二次元絵などの生成には向いていないため、そのような画像を生成したい場合は別途モデルダウンロードして適用することになる。モデルCivitaiexitなどのサイトで探すと良いだろう。どのモデルを使用するかによって生成画像がまったく変わってくるため、プレビュー画像などを参考にしながら使用するモデルを検討していこう。
またStable Diffusionにはモデル同士を組み合わせる(マージする)機が備わっており、これを利用して自分で新たなモデルを作り出すこともできる。

ただしモデルにはそれぞれ生成物の開や商用利用に関する利用条件が定められており、その利用条件を逸脱しない範囲での利用をめられる。特に二次元絵の生成に特化したモデルの多くはNAIリークモデルの要素が含まれている可性があり、これらに関してNAI側が法的措置を検討していると表明していることから、その利用にリスクが伴うことは留意すべきである。

また、モデルベースとなったモデルによってSD1.5系・SDXL系に分けられ、SDXL系はさらに生形となるpony系モデルIllustrious系(以下、IL系)モデルなどが存在する。それぞれ必要とされるPCスペックや対応するLoRAなどが違うため、その点も考慮してモデルを吟味しよう。
SDXL系は総じてSD1.5系よりも高品質な画像を生成できるが、要されるPCスペックの高さや対応するLoRAが少ないことから現在SD1.5系を用するユーザーは多い。
pony系モデル   な画像の生成に強いとされているが、プロンプトの記述方法が独特で扱いには慣れが必要。
IL系モデル2024年下半期に登場したばかりで発展途上だが、従来のモデルべてプロンプトの反応性向上や崩壊率の低減などが図られており、ポテンシャルの高さが注されている。これにより、従来のモデルが苦手としてきた版権キャラの出力も、マイナーキャラでなければLoRAに頼らずともやりやすくなっている。

利用者の多いモデル、あるいはかつてよく使われていたモデルには以下のようなものがある。(太字は記事あり)

二次元・アニメ系

実写・リアル系

基本的な使い方

  1. 使用するモデルセットする。
  2. (img2imgの場合のみ)ベースになる画像を読み込む。
  3. プロンプト欄に描いてほしい内容を入力する。
    :ヒマワ畑に佇む白髪ロンの少女を描いてほしい場合
    →“1girl, white hair, long hair, standing, sunflower field”のように入力
  4. ネガティブプロンプト欄に描いてほしくない内容を入力する。
    この欄はに“low quality”や“bad anatomy”といった品質が下がるワードを入れるのに使う。
  5. サンプリングステップ数を設定する。
    低いと中途半端なクオリティになってしまう反面、高いと生成にかかる時間が長くなってしまう。またステップ数が高いからといって必ずしもクオリティになるとは限らない。使用するサンプリングメソッドにもよるが、大体20~50くらいが安。
  6. Width値とHeight値を調節して、生成画像の解像度を設定する。
    後述するが、ただ解像度が変わるだけでなく生成画像の品質にも関わってくるため、できるだけ各モデルごとの推奨値に近い値を設定しよう。
  7. CFGスケールの値を調節する。
    大きくするほどプロンプトに忠実な画像が生成されやすくなり、小さくするほどランダム要素が増えて生成ガチャがしやすくなる。
  8. Generateを押して生成開始!

使い方のヒント

Q. 千手観音が生成されてしまう
Q. デュラハンが生成されてしまう
Q. ケンタウロスが生成されてしまう
Q. その他、よくわからないクリーチャー的なのが生成されてしまう
EasyNegativeなどを導入してネガティブプロンプトにぶち込め。
Q. 版権キャラが生成できない・生成されにくい
Stable Diffusionのモデルは、総じてNAI較するとプロンプトのみで版権キャラを生成するのが難しい傾向にあるようである。キャラ名のみで再現できるキャラとなると、おそらく初音ミクレベル有名キャラに限られてくるだろう。
再現したいキャラのLoRAが配布されているなら、それを適用することで再現率がぐっと上がるので活用してみよう。ければLoRAを自作するか、頑ってプロンプトを組み合わせて再現するしかない。
なお、IL系モデルではこの欠点はある程度解消された模様。
Q. 一部のプロンプトの効きが悪い
モデルによっては、一部のプロンプトの効きが悪い場合がある。そのような場合、以下のような対処を実践することで改善する場合があるので試してみよう。
  • プロンプトの強度を上げてみる。ただし上げすぎると崩壊する可性が高くなるので注意。
  • 別のプロンプトで置き換えてみる。たとえば「tsurimeツリ目)」⇔「slanted eyes(つり上がった)」、「small breasts(小さな胸)」⇔「flat chestらな胸)」など。
  • 別のモデルを使ってみる。
Q. 生成された画像がくすんだ色になってしまう
VAEの内蔵されていないモデルをそのまま使うと、くすんだ色の画像が生成されてしまう。その場合は、別途VAEダウンロードして適用することで鮮やかな画像を生成できるようになる。
Q. 画像の一部がドギツイ色になってしまう
画像の一部だけ不自然な極色になる場合は、サンプリングメソッドの設定が不適切である可性がある。使用しているモデルが推奨しているサンプリングメソッドがあるなら、それを使おう。
Q. 手が崩壊する・崩壊しやすい
残念ながら仕様なので回避は難しい。以下の対処法でどうぞ。
  • が隠れる構図にする。プロンプトに“arms behind back”と定すれば、手を身体の後ろに隠すことができる。
  • 別のモデルを使ってみる。IL系などの後発のモデルは手の崩壊率が低い傾向にあるので、スペックが許す限り新しいモデルを使用してみると良い。
  • 編集ソフトなどを使って、手の部分をトリミングする。ただし、手が画像の端のほうにある場合に限る。
  • 編集ソフトなどを使って、自分で修正する。
  • が崩壊していない画像が出るまで生成し続ける。img2imgを利用して、手の部分だけ書き直させるのも手。
Q. 人物の胴体が異様に長くなる・短くなる
Q. 頼んでもいないのに人物が勝手に増える
アスペクト比を見直してみるといいかも。
画像生成AIは被写体をキャンバスいっぱいに描こうとする傾向があるようで、縦に長すぎるキャンバスだと人物もそれにあわせて胴体が長くなってしまったり、横長のキャンバス立ち絵抱き枕画像を描かせようとするとプロンプトを無視して人物を勝手に増やしてしまったりすることがある。そのような場合、適正なアスペクト比に設定することで改善する可性があるので試してみよう。
うまくいかない場合は、「full body(全身)」「cowboy shot(太腿から上)」「dutch angle斜め構図)」などのプロンプトで描画する範囲を調整するか、ControlNetやRegional Prompterなどの拡張機能に頼ることも検討すべし。
また、SD1.5系モデルは512×512、ponyやIL系を含めたSDXL系モデル1024×1024サイズベースになっており、同じアスペクト比でもこの数値から離れるほど崩壊率が高くなる。より高解像度の画像を出力したい場合は、オプションのhires.fixなどを利用すると良い。
Q. hires.fixを適用すると画像がぼやける
Q. hires.fixを適用すると余計な描き込みが追加される
hires.fixなしだと正常に出力されるのに、hires.fixを適用したら画像がぼやけたり、余計な描き込みが追加されたりする場合は、hires.fix内のノイズ除去強度を調整する。
一般的に、ノイズ除去強度を低くするとhires.fix適用前に近い出力結果になる代わりにぼやけやすくなり、逆にノイズ除去強度を高くするとぼやけにくくなる代わりにhires.fix適用前から逸脱しやすくなる。ノイズ除去強度の数値を調節して、上記の症状が出ない数値を見つけよう。
どんなにノイズ除去強度を調節してもどちらかの症状が現れてしまう場合は、アップスケーラーを変えてみるのも手。個人的なオススメは、低めのノイズ除去強度でもぼやけにくい4x-UltraSharp

関連動画

関連リンク

関連項目

この記事を編集する
関連記事

親記事

子記事

  • なし

兄弟記事

記事と一緒に動画もおすすめ!
もっと見る

掲示板

おすすめトレンド

ニコニ広告で宣伝された記事

記事と一緒に動画もおすすめ!
もっと見る

急上昇ワード改

最終更新:2025/12/19(金) 15:00

ほめられた記事

最終更新:2025/12/19(金) 14:00

ウォッチリストに追加しました!

すでにウォッチリストに
入っています。

OK

追加に失敗しました。

OK

追加にはログインが必要です。

           

ほめた!

すでにほめています。

すでにほめています。

ほめるを取消しました。

OK

ほめるに失敗しました。

OK

ほめるの取消しに失敗しました。

OK

ほめるにはログインが必要です。

タグ編集にはログインが必要です。

タグ編集には利用規約の同意が必要です。

TOP