儀式の準備
イラスト生成人工知能「Stable Diffusion」ですが、
Web制作の合間合間に環境構築を改善し続けていてようやく形になってきました。
もうWeb UIなどもリリースされているのでいまから参入するならそれを使うのが無難ですが、
自分の環境ではなぜかそれがうまくいかなかったので、
最終的にHugging Faceというサイトが提供している「Diffusers」を導入することで落ち着きました。
これはプログラミング言語Pythonのライブラリで、
Pythonのコードとしてプロンプトを書いて実行することで画像を生成します。
Txt2imgはもちろん、img2img(画像から画像の生成)もできるようです。
ファインチューニング(強化学習)は現時点では公式案内が無いものの今後対応するみたい?
Pythonベースで画像生成環境を作ると細かいところまでカスタマイズできるほか、
実行環境さえあればどこでも動くので小回りが効きやすい利点もあります。
たとえばGoogle Colaboratoryにアップロードすれば究極的にはブラウザからどこでも動かせるので、
iPad単独でもチューニングしたり画像生成したりできます。
一方でローカルでも動くのでネット環境が無い場所でも動くのは便利。
あとDiffusersは幅広い人工知能モデルをカバーしているので、
画像生成のみならず自然言語処理などの他分野にも手を広げていける汎用性の高さも特徴です。
環境はまあまあ整ったのであとはプロンプト(呪文)を極めていきたいですね。
そのためにはどういうプロンプトが有効なのかを知らなければならず、
この辺は技術よりも情報収集が大事になってきそうな部分です。
そうなるとむしろ画像からテキストを抽出する方法を知りたいかもしれない。
それが無いと思いつくキーワードを手当たり次第試すくらいしかなくなりますが、
まあでもそれがアナログお絵描きの練習に相当すると思えば、
あんまりそこをすっ飛ばそうとしない方がいいんだろうか。