Stable Diffusion - ゼロからのインストールとその顛末

国内の資料は、基本的に秋叶氏の一括デプロイパッケージを推奨している。__INLINE_CODE_0__ベースのオープンソースプロジェクトなので、導入もそれほど複雑ではないはずだ。ゼロからやってみるか。

AI生成画像の作成のために、わざわざグラフィックカードを交換したのに、__INLINE_CODE_0__入门版本；服役七年的__INLINE_CODE_1__してしまった。

主要の暗号化は依然として有効になっていません。

未処理

PyTorchの紹介、バージョン対応関係、バージョン確認方法について、改めて構成を見直します。ローカル環境で仮想環境を新たに作成し、PyTorch をデプロイする方法は？翻訳資料、ゼロから始めるStable Diffusion https://stable-diffusion-art.com/install-windows/ 資料を整理する。

手順

中国語で検索しても、ステップバイステップのインストールチュートリアルが見つからないかもしれません。まず、リポジトリをダウンロードし、スクリプトをダブルクリックすれば完了です。

https://github.com/AUTOMATIC1111/stable-diffusion-webui

詳細な使用方法とFAQについては、このページ を参照してください。

なぜか誰もこの倉庫が何なのかを説明してくれない。名前からでもわかるように、これはインターフェースコンソールで、使う私たちにとってより便利になるはずだ。実際、インストール時に公式リポジトリの内容をダウンロードし、実際の__INLINE_CODE_0__コードを入手する。

倉庫でも、インストール起動スクリプトを作成しました。現在のフォルダに__INLINE_CODE_0__虚拟环境。如果有的话默认使用当前路径的的__INLINE_CODE_1__があるかどうかを自動的に識別します。

もし完全に初心者の方でしたら、こちらをご覧ください：https://stable-diffusion-art.com/install-windows/

pytorch

https://pytorch.org/get-started/locally/

ここに私が今日話したいことの肝心な点があります。まず、彼らの手順に従ってスクリプトを直接起動しないでください。Pythonはrequirementファイルで依存ライブラリをインストールするので、これは些細な問題です。重要なのは、GPUドライバのバージョンとPyTorchが対応していることです。これについては多くの情報があり、ネット検索すればすぐに見つかります。

参考：https://blog.csdn.net/weixin_40660408/article/details/129896700

仮想環境を作成し、そこに公式サイトのスクリプトを実行してPyTorchをインストールします。

python -c "import torch; print(torch.version.cuda)"

python -c "import torch; print(torch.__version__, torch.cuda.is_available())"

上記の2つのスクリプトで、インストールするCUDAのバージョンを確認したり、インストールが成功したかどうかをチェックできます。

ここでは、凝った操作は推奨しません。まずは公式ページのロジックに従ってコピーし、そのままインストールしてください。pipでインストールしようとすると、うまくいかないか、CUDAが有効にならない可能性が高いです。

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

フォルダのパスに余計なものが含まれていると、PyTorchが正常に動作しない可能性があります。

何度か試行錯誤し、公式のインストールファイルをダウンロードして手動でインストールも試しました。2.0へのアップデートを考えていたのですが、公式ドキュメントには2.0の方が速度が速いと書いてありました。しかし、以前からあまり使っていなかったので、Pythonのバージョンやそれが影響しているのかはわかりません。途中で公式のマニュアルを確認したところ、3.8の使用が推奨されています。そこで少し競合が発生しました。以前はワンクリックインストールパッケージを使用しており、その中には3.10のバージョンが含まれていたためです。最終的には、最初からやり直して、まず新しいフォルダを作成し、仮想環境を作成し、torchが正常にインストールされていることを確認しました。

インストールした仮想環境を、Web UIのフォルダに移動してください。その後でスクリプトによるインストールを行うと、依存関係の問題はほとんどなくなります。

移動後に、python -m pip install –upgrade –force-reinstall pip を実行して、pipを修正する必要があります。

見た目はなんだか不可解に見えるかもしれませんが、この場所でかなり色々試しました。原因を特定するため、torchが正しく認識されない問題を解決するために、他の依存関係のインストール前にまずこれをインストールするという手順にしました。

Xformers

推奨します。画像生成を高速化し、既存の占有量を削減できます。副作用は、同じパラメータグループで 生成的图像相对不是那么稳定

stable-diffusion-webui:Xformers

huggingface optimization

Optimization Ratio	Time taken	Torch active/reserved	Sys VRAM
100.00%	2m 57.03s	7440/10058 MiB	12288/12288 MiB (100.0%)
51.02%	1m 29.21s	4547/7164 MiB	9298/12288 MiB (75.67%)

((masterpiece)),((best quality)),((high detial)),((realistic,))
Industrial age city, deep canyons in the middle,chinese architectural streets,bazaars, Bridges, (rainy days:1.2), (steampunk:0.8), chinese architecture
Negative prompt: nsfw,((cowboy)),(((pubic))), ((((pubic_hair))))sketch, duplicate, ugly, huge eyes, text, logo, monochrome, worst face, (bad and mutated hands:1.3), (worst quality:2.0), (low quality:2.0), (blurry:2.0), horror, geometry, bad_prompt, (bad hands), (missing fingers), multiple limbs, bad anatomy, (interlocked fingers:1.2), Ugly Fingers, (extra digit and hands and fingers and legs and arms:1.4), crown braid, ((2girl)), (deformed fingers:1.2), (long fingers:1.2),succubus wings,horn,succubus horn,succubus hairstyle, (bad-artist-anime), bad-artist, bad hand, borrowed character, text focus, watermark, sample watermark, character watermark, lofter username, photo date watermark, movie poster, magazine cover, journal, cover, cover page, doujin cover, album cover, manga cover, brand name imitation, EasyNegative,Tights, silk stockings,shorts
Steps: 35, Sampler: DPM adaptive, CFG scale: 5.5, Seed: 2223996555, Size: 1088x1088, Model hash: 543bcbc212, Model: base_Anything-V3.0-pruned, Clip skip: 2, ENSD: 31337

追記

一鍵デプロイパッケージではなく、なぜ推奨されないかというと、そのパッケージには作者が独自にカスタマイズした設定が含まれており、公式のオリジナルとは異なるからです。初心者の方は、なぜパラメータを設定する必要があるのか理解できないかもしれませんが、まずは公式のものを使用するのが最善です。使用時間が長くなるにつれて、公式のマニュアルを参考にすると、どのパラメータを調整すればよいか分かるようになります。

グラフィックカードの選択

データ通貨マイニング後のこと、グラフィックカードの価格は相対的にそれほど高くないので、普通の初心者であれば、VRAMも十分でしょう。

まだ一点、高清放大オプションは、細部を具体化し、画面のディテールをより豊かにしますが、より多くのビデオメモリも必要となります。

以下はNVIDIA GeForce GTX 970、GeForce RTX 3060 Ti、GeForce RTX 3060、GeForce RTX 3080およびGeForce RTX 3080 Tiの単精度（FP32）、半精度（FP16）および倍精度（FP64）浮動小数点演算性能のスペックまとめです。

グラフィックカードモデル	リリース年	単精度浮動小数点演算性能 (TFLOPS)	複精度浮動小数点演算性能 (TFLOPS)	倍精度浮動小数点演算性能 (TFLOPS)
GeForce GTX 970	2014	3.49	87.2	0.109
GeForce RTX 3060 Ti	2020	16.2	32.4	0.51
GeForce RTX 3060	2021	12.7	25.4	0.39
GeForce RTX 3080	2020	29.8	58.9	0.93
GeForce RTX 3080 Ti	2021	34.8	68.7	1.36

引用元、各种显卡性能测试数据

アップデート

半年の間隔を経て、改めてインストール手順を整理したり、より多くの基礎概念を紹介しようと思いましたが、結局、一般の人々がAIで絵を描くというのは、結局のところ、大佬が提供する画像パラメータに基づいて調整したり、既存の画像を元にフォーマットされたリレンダリングを行うだけだと分かりました。

途中でAIを使ってミニプログラムのUI素材を描くという試みがあったが、色々手間取った結果、効果は期待ほどではなく、むしろ公式のミニプログラムからリソース画像を直接引き込んだ方が良いだろう。