Stable Diffusionは、オープンソースのテキスト記述や画像修正を使用して画像やビデオを作成するソフトウェアです。 2022年に誕生し、リリースされた。 CompVis、Runway、EleutherAI、LAIONの代表が共同で取り組んだ。
安定した拡散アーキテクチャ
LMUミュンヘンのCompVisチームが開発した拡散モデル(DM)を使用している。 2015年、最初の開発が発表された。 モデルは学んでいる。 このプロセスの目的は、トレーニング画像に連続して適用されるガウスノイズを除去することであり、これは一般的にオートエンコーダーノイズ除去シーケンスと考えられている。
安定した拡散
- 変分オートエンコーダ (VAE ) – 画像をピクセル空間からより小さい次元の潜在空間に圧縮する、
- Uネット– 後方拡散の出力からノイズを除去し、隠れた表現を得る。
- 追加のテキストエンコーダー。
仕組み
安定した拡散
アプリケーションを開く。 Enter your prompt”(プロンプトを入力してください)ウィンドウに、画像の説明を入力 します。 豊かな色彩。インスタグラム用写真 “と入力します。 その後、”Generate image “をクリックする。
出来上がったものを手に入れる。 ある要素において互いに異なる4つのイメージのように見える。 生成には通常2~3分かかる。 受信した画像数に満足できない場合は、「詳細オプション」ウィンドウで画像数を変更できます。
このアプリケーションは混雑しています!すぐに再試行してください。 これは、ニューラルネットワークの人気と訪問者の多さによるものだ。
画像を作成する際に、それぞれのフィールドがどのような役割を担っているのか、詳しく見ていきましょう:
画像の数 好きなだけ選べる。
ステップ この基準は、あなたが望む結果を生成するためにAIがどれだけのステップを踏むかを決定する。 初期設定は30~50。 画像の主要部分には満足しているが、たとえば目についてだけ疑問がある場合は、ステップ数を増やさず、この側面に関連するテキストを詳細に記述する方がよい。
創造性(ガイダンス・スケール)。 ここでAIは、あなたが書いたものをどれだけ正確に解釈するかを選択する。 2-6:AIは好きなことをする、7-11:あなたのリクエストの半分だけを使う、12-15:あなたのテキストをすべて使おうとする、16+:結果はあなたのリクエストと同じ。
解決。 出来上がった画像の品質。
画像にテキストを生成する機能
このニューラルネットワークにおけるテキストから画像への変換シナリオは「txt2img」と呼ばれる。 テキストをヒントとして使用し、サンプルタイプ、出力画像寸法、出力値などの他のパラメータと組み合わせる。
画像は、ユーザーが入力したすべてのデータを分析し、解釈することによって作成される。 生成された画像には、Stable Diffusionで生成されたことを識別できるように、目に見えないデジタル透かしが入ります。 しかし、画像やサイズを変更すれば、透かしの効果は失われる。
完成した画像を修正する
ユーザーがさらなるアクションの基礎となる画像を追加できる、興味深く必要なオプションです。
このように、AIベースのStable Diffusionニューラルネットワークは、すべてのユーザーがアーティストの気分を味わい、素晴らしいデジタルアートを創作する良い機会となる。