生成AI習得の現状
予想外に実家帰省中に計画したタスクの進みが良いので、
今日は余った時間でStable Diffusionをいじり倒していました。
以前、なんやかんやで放置気味だったもののiPhone用アプリをきっかけに少し意欲が出てきた、
プロンプトの吟味ならiPhone単独でも結構いけるかも……みたいなことを書きましたが、
いまとなっては撤回せざるを得ません。
Macbookで改めて生成AIの環境を整えたらめちゃくちゃ捗りやすかったからです。
まあ言うまでもないことなんですけどね。
いろいろと試行錯誤してみると新たな課題がどんどん出てきて深みに入りかけています。
まだ分からないことも多い中、いくつかの発見もあるのでここまでの進捗を書き残しておきます。
まず、大前提として多くの生成AIユーザーと同じく
自分も二次元キャラクター(の女の子)の生成を目論んでいることはご承知おきください。
これは絵師の反発や法規制が追いついていないこともあってややイメージの悪い界隈になりましたが、
再三書いている通り自分は頭の中でしか描けていないオリキャラの創出が目的であって、
よく叩かれる「AI絵の販売」だとか「絵師の活動を否定する」等の予定は一切ありません。
結果的にAIクリエイターとして活動する可能性はまだ残っていますが。
とりあえずいまは良さげなモデルを探す段階です。
ここでいうモデルとは、大元の「Stable Diffusion」をユーザーが追加学習させて改良したものです。
とりあえずここではチェックポイントと呼びます。
AIモデル配布サイトの最大手は「Hugging Face」ですが、
二次元の女の子を目的とする場合は「Civitai」というサイトを使うのが慣例となっています。
ここで探してきたモデルをダウンロードして読み込ませ、
各モデルでさまざまなプロンプトを入力して出力結果の傾向を見極めるという作業。
物によってはかなり強いウェイトがかかっていて、
決まった画風以外のスタイルでは全然出てこないというケースもあります。
でも、それが好みなら変に浅く広くカバーしているよりも高クオリティなイラストを生成できます。
とはいえあまりに生成範囲が狭いモデルを採用すると後々困りそうなので、
ある程度汎用性があり、かつ高クオリティのイラストを出せるモデルを探しています。
モデル紹介ページではどれもかなり高クオリティのイラストを生成しているのですが、
いざやってみると結構難しいんですよね。得意不得意があるみたいです。
個人的に重要かつ厄介だと思ったのが、
何も設定していなくても前回の絵をある程度ベースにした絵が生成されやすいという問題。
これのおかげで生成を繰り返すほどクオリティがどんどん上がっていく良さもあるのですが、
たまたま最初の生成で着ていた衣服の傾向がどこまでも継承されてしまったり、
同じような構図でしか出力されなくなったりと小回りが効きにくくなっていくようにも思います。
とはいえ、Stable Diffusion Web UIにはそれをクリアするコマンドがいまのところ見当たらない。
この辺はプロンプトを増減させて適宜修正するのがいいのか、
継承する強さを設定しているとされる設定値をいじるのが妥当なのか……。
まだまだたくさんいじらないと分からないことも多いです。
あくまで体感ベースですが、この辺はChatGPTくんと似ていると思いました。
彼(彼女?)も結構前のプロンプトに思考が引っ張られる傾向を見せることが多い。
あと立ち絵を生成しようとしているのに見切れることが多いというのも厄介ですね。
これは解像度やアスペクト比の問題でしょうか。
プロンプトに「full body」「look at viewer」等を入れても効かないことが間々ある。
いまのところ512x784(px)で出力することで対策しているものの、これでもまだ完璧ではなさそう。
見切れた部分はアウトペインティングによる二次生成で補完できるとのことですが、
最初から全身が写っているに越したことはないので、もう少し試行錯誤していきたいところ。
とにかく本番は自分でチェックポイントないしLoRAを作るところだと思っているので、
どんどん調べて次のステップに進んでいきたいところです。