Chrononglyph

stable-diffusion

前へ1 / 2次へ
#7793

キャラデザ基盤としての生成AI

今日の出来事stable-diffusion

3日前(#07790 / 2025年04月15日)に解禁したChatGPT Plusにおける画像生成(DELL-E)。
これのおかげで昨今、明らかに創作関連のモチベーションが高まりつつあります。
この現象は2022年秋にStable Diffusionが登場した当時と比べると明らかに意欲の度合いも大きい。
その理由は精度やクオリティなどいくつか考えられますが、
Stable Diffusionの野良モデルと違って著作権問題が完全にセーフティであることと、
あとはなによりもクラウドベースなのでスマホからもなんら問題なく生成できることが大きいですね。


Stable Diffusionはベースモデルをローカルで動かすかぎり著作権的な問題は発生しないはずですが、
それ単独ではさすがに絵描き歴ゼロ年の自分でも自分で描いた方がマシというレベルの絵しか出せません。
なので、特定の絵柄に寄せたりクオリティアップした追加のモデルを探すわけですが、
これはたいてい無断転載サイトを一次ソースとしており、
ここから作り出したものは突き詰めれば他人の著作物のつぎはぎでしかないわけです。
しかもプロンプトは単なる英単語の羅列であり、「術師」はその羅列を変えているにすぎません。
これで一次創作をすることも不可能ではないと思いますが、法的・技術的ハードルが高かったのは事実です。
DELL-Eは自然言語の対話型画像生成ができるので、そのハードルを軽々と超えているわけですね。
しかもベースモデルの段階で十分ハイクオリティなので、法的にグレーなことをする必要性が無い。
その上、スマホから生成できるというのは最強です。


3日前に少しいじった感じではDELL-Eでできることに自分の想像力の方が追いついていない実感がありましたが、
オリキャラのプロフィールを少しずつChatGPTと共有して試行錯誤を繰り返していくうちに、
想像力がどんどん刺激されて解像度が上がってきました。
設定したプロファイルはチャット履歴およびChatGPTのメモリに基づくため、
チャットを変更すると正確な描写ができなくなることがあります。
そのため現状はチャットを変更する前に「あなたが覚えている各キャラの設定をエクスポートして」等とお願いして、
出力された設定一覧をコピペすることによってChatGPTの記憶の維持をしています。


これは中長期的な運用を考えるとやや不便なので、それについてもChatGPTに相談してみました。
やり方としては、GPTsを作ってNotionのデータベースに接続する方法があるとのこと。
これならGPTsに「このキャラのこの設定を〇〇に変更して」とお願いしたとき、DBも上書きしてくれます。
ChatGPTの認識がDBとして可視化されるためいちいち「このキャラの設定は?」と確認プロンプトを打たなくてもよく、
また自分としてもDBをマスタとしてキャラ設定を練ることができるため一石二鳥です。
GPTsのAPI接続はちょっとハードルが高そうですが、やる価値はありそう。
そういうわけでいまは創作設定のマスタとするべくNotionのDBを作成中です。


ChatGPTとキャラについてやりとりしていると、
20年間自分の頭の中にしか存在しなかったはずの概念であるオリキャラがより具体的な概念になった気がします。
誰にも話せないはずのオリキャラについて自然な形で話せるのはものすごく新鮮。
DELL-Eの恩恵は計り知れませんが、
それとは関係なくChatGPTと一次創作についての話ができるだけでも十分すぎるメリットがあると感じます。
これのおかげでずっと止まっていた歯車が急に回り出した感じ。


Evernote時代からの膨大な創作設定を統合するにはまだかなり時間がかかりそうですが、
この作業はさすがに変なところで脱落せずに最後までやりきりたいですね……。
趣味の過渡期みたいな状況の昨今でしたが、もしかしたらしばらくは一次創作に集中することになるかもしれません。


#7283

生成AI習得の現状

今日の出来事stable-diffusion

予想外に実家帰省中に計画したタスクの進みが良いので、
今日は余った時間でStable Diffusionをいじり倒していました。
以前、なんやかんやで放置気味だったもののiPhone用アプリをきっかけに少し意欲が出てきた、
プロンプトの吟味ならiPhone単独でも結構いけるかも……みたいなことを書きましたが、
いまとなっては撤回せざるを得ません。
Macbookで改めて生成AIの環境を整えたらめちゃくちゃ捗りやすかったからです。
まあ言うまでもないことなんですけどね。


いろいろと試行錯誤してみると新たな課題がどんどん出てきて深みに入りかけています。
まだ分からないことも多い中、いくつかの発見もあるのでここまでの進捗を書き残しておきます。
まず、大前提として多くの生成AIユーザーと同じく
自分も二次元キャラクター(の女の子)の生成を目論んでいることはご承知おきください。
これは絵師の反発や法規制が追いついていないこともあってややイメージの悪い界隈になりましたが、
再三書いている通り自分は頭の中でしか描けていないオリキャラの創出が目的であって、
よく叩かれる「AI絵の販売」だとか「絵師の活動を否定する」等の予定は一切ありません。
結果的にAIクリエイターとして活動する可能性はまだ残っていますが。


とりあえずいまは良さげなモデルを探す段階です。
ここでいうモデルとは、大元の「Stable Diffusion」をユーザーが追加学習させて改良したものです。
とりあえずここではチェックポイントと呼びます。
AIモデル配布サイトの最大手は「Hugging Face」ですが、
二次元の女の子を目的とする場合は「Civitai」というサイトを使うのが慣例となっています。
ここで探してきたモデルをダウンロードして読み込ませ、
各モデルでさまざまなプロンプトを入力して出力結果の傾向を見極めるという作業。
物によってはかなり強いウェイトがかかっていて、
決まった画風以外のスタイルでは全然出てこないというケースもあります。
でも、それが好みなら変に浅く広くカバーしているよりも高クオリティなイラストを生成できます。
とはいえあまりに生成範囲が狭いモデルを採用すると後々困りそうなので、
ある程度汎用性があり、かつ高クオリティのイラストを出せるモデルを探しています。
モデル紹介ページではどれもかなり高クオリティのイラストを生成しているのですが、
いざやってみると結構難しいんですよね。得意不得意があるみたいです。


個人的に重要かつ厄介だと思ったのが、
何も設定していなくても前回の絵をある程度ベースにした絵が生成されやすいという問題。
これのおかげで生成を繰り返すほどクオリティがどんどん上がっていく良さもあるのですが、
たまたま最初の生成で着ていた衣服の傾向がどこまでも継承されてしまったり、
同じような構図でしか出力されなくなったりと小回りが効きにくくなっていくようにも思います。
とはいえ、Stable Diffusion Web UIにはそれをクリアするコマンドがいまのところ見当たらない。
この辺はプロンプトを増減させて適宜修正するのがいいのか、
継承する強さを設定しているとされる設定値をいじるのが妥当なのか……。
まだまだたくさんいじらないと分からないことも多いです。
あくまで体感ベースですが、この辺はChatGPTくんと似ていると思いました。
彼(彼女?)も結構前のプロンプトに思考が引っ張られる傾向を見せることが多い。


あと立ち絵を生成しようとしているのに見切れることが多いというのも厄介ですね。
これは解像度やアスペクト比の問題でしょうか。
プロンプトに「full body」「look at viewer」等を入れても効かないことが間々ある。
いまのところ512x784(px)で出力することで対策しているものの、これでもまだ完璧ではなさそう。
見切れた部分はアウトペインティングによる二次生成で補完できるとのことですが、
最初から全身が写っているに越したことはないので、もう少し試行錯誤していきたいところ。


とにかく本番は自分でチェックポイントないしLoRAを作るところだと思っているので、
どんどん調べて次のステップに進んでいきたいところです。


#7266

生成AIと著作権

今日の出来事stable-diffusion

しばらく停滞していたものの、
ようやく『Draw Things』での生成方法が確立したことにより進み始めたAIイラスト活動。
個人的にこの活動の目的はかつて2005年以降の創作活動によって生み出したものの、
当時イラストを描く技術が無いので断念したキャラクターの「二次元化」を実現することです。
しかし、いろいろな面から言って現状の環境ではこれの実現は難しいと思っています。


Stable Diffuionなどによるイラスト生成はキーワードからイラストを生成する技術なので、
キーワードを細かくいじればなんでも生み出せるというイメージがありました。
しかし実際に試行錯誤してみると細かい指示は無視されることの方が多く、
いわゆる「キャラクターデザイン」をプロンプトエンジニアリングで完結するには無理がありそう。
おそらくWeb UIプラグインなども駆使すれば若干マシになるかもしれませんが、
いずれにしろ結局特定の画像(他人の著作物)をベースにするのが現状もっとも手っ取り早いです。
Text to ImageだけではなくImage to Imageの手法も使うということですね。
世に出回っているAIイラストもほとんどその手法によって作られているのではないでしょうか。


言うまでもなく、単独の著作物を使ってImage to Imageでイラストを作るのは独創性が皆無であり、
それを自分のものとして公開すると著作権法やその他諸々の法律に触れる可能性が大いにあります。
基本的にネットに流さなければセーフですが、
そうやって作ったものを「自分で生成した」と言い切れるのかという気分の問題もあります。
オリジナルキャラクターを作ることを目的としていたのに、それだと模写に近いような……。


ただ、これは「単独の著作物」を参考にするから問題になるわけで、
その数が10、100、1000……と積み上がって十分増えればほぼほぼ無視できる問題になります。
これは商業作品も含めてあらゆる著作物にも言えることで、
人力にしろAIにしろ、参考にすることそのものは問題の本質ではありません。
ただその対象が少なすぎるとあまりにも似ていることになるのでパクりだ何だと言われるわけです。


そうなると、結局元絵をたくさん増やして専用のモデルを作るLoRAは必須になりそうです。
そしてそのためには相当数の元絵を探すか、ないし人力で描くか生成する必要がある。
たくさんの絵を合成してLoRAにして、
それで生成した絵から理想に近い絵を厳選してまたLoRAにして……という感じになるかも。
そう考えるとかなり途方もない作業になりそうです。


薄々そんな予感もしていましたが、ここまでくると
AIを使うよりも、絵の勉強をして自分で描く方が理想への到達は早いようなしなくもないです。
少なくとも、LoRAを作りまくる過程でそれができるのとできないのでは大きな差が出るでしょう。
そう言う意味では現役絵師でAIも使える人は向かうところ敵なしなんじゃないかな。


#7250

スマホで生成AI

今日の出来事stable-diffusion

萌え絵専用のイラスト生成AI「にじジャーニー(niji・Journey)」がスマホアプリを配信開始。
さっそくいじってみたのですが、
ごくシンプルなプロンプトでもめちゃんこキューティーな萌え絵が生成されて驚きました。
ただ、このアプリは最初の20回が無料でその後はサブスク制となっています。
生成しまくることを念頭に置くとなかなか常用は難しそう。
とはいえGoogle ColaboratoryやVPSに環境構築するよりは安上がりかも?


イラスト生成AIといえば、OpenAIが開発した「DALL-E」も話題になっていますね。
Microsoft Bingではさっそく無料で使うことができるようになっています。
こちらはChatGPTとの連携で動くので当初から日本語のプロンプトが使えるのが強み。
この汎用性の高さなら普通に今後のスタンダードになっていきそう。
いよいよStable Diffusion一強の時代も終わりつつあるのでしょうか。


ただ、これらはローカルで実行できないという欠点があり、
オープンソースであるStable Diffusionもそれはそれで需要があるのは言うまでもありません。
特にユーザーの好きなようにモデルをいじりたい場合などは依然としてStable Diffusion一択です。
それをスマホで実現する「Draw Things」も応援しているのですが、
個人開発ということもあってまだまだ発展途上という感じが否めないのは仕方ないですね。
Stable Diffusionは登場当初こそ驚かれましたが、
素の状態でのクオリティは次々に登場した後発サービスにかなり劣っているのが実情であり、
高品質イラストのみを出力するように特化したLoRAやEasyPromptなどのツール、
あるいは日本語プロンプトを使えるようにするプラグインなどが必須になってきます。
そこまで求めるとやはり必然的にハイスペックPCは必須という話になってくるため、
Stable Diffusionに手軽さを求めるのはまだまだ難しい段階だと思います。
にじジャーニーやDALL-Eなど後発の商用サービスがその穴を埋めているのが現状かと。


ただ、これを機に再びDraw Thingsをいじってみたところ、
前回匙を投げたLoRAの導入については自分が根本的に勘違いしていたみたいで、
Civitaiなどで配布している学習済みモデルはLoRAではなく
あくまでモデルとして読み込ませることで難なく生成させることができるようになりました。
iPhone 12でもステップ数30程度ならそれなりのスピード感で生成できるため、
連続生成こそ難しいものの隙間時間にプロンプトを吟味するのには使えそうです。
プロンプトなどが確定した上での一括生成はやはりPCにお任せするのが一番ですが、
それはそれで手軽にいつどこでも出力できる環境は確立しておきたかったんですよね。
まあ面倒なことはさておきにじジャーニーに課金してしまうのもひとつの手ではあるか。
にじジャーニーは他ユーザーの作品が絶え間なく流れてきて簡単にプロンプトをコピペできるので、
「どういうプロンプトが適切なのか分からない」という段階ではむしろこっちの方がいいかも。


個人的に生成AI周りは今年不本意に停滞してしまった感があるので、
2024年に入ってこれに打ち込めるだけの余裕を取り戻したらぜひ本格的に動きたいところです。


#7213

表現規制と生成AI

今日の出来事stable-diffusion

以前萌え絵についての話を解禁しましたが、その方面で今後何を頑張るべきかについて考えると、
やはりStable Diffusionがカギになるんじゃないかと思っています。
最高の萌え絵を追求するために、
今年初めて特定の推し絵師のサブスク(PixivFanbox)に登録するという手段を開拓しました。
そのおかげでこの方面の活動がこの歳にして再加熱したという事実はあるのですが、
一方で「特定絵師の新作のみ」という範囲だと供給が少なすぎるという問題が出てきます。
かといってさすがに片っ端からサブスク登録するわけにもいかない。
一度すごいクオリティの萌え絵に出会うと、ロークオリティではなかなか満足できなくなります。
それくらい06月に出会ったとある絵師さんのクオリティは群を抜いていました。
その衝撃があったからこそブログでもこの話題を解禁したという経緯があります。


そんなわけでハードルが上がったことによる著しい供給不足に陥ったいま、どうするべきか。
当然他にも推せる絵師を探すことは怠っていませんが、そうそう見つかるものでもありません。
かといってPixiv等のキュレーションではなかなか限界がある。
旧Twitterに至っては表現規制が強すぎるのでせっかく萌え絵専用アカウントを作ったのに
そういう用途ではほとんど機能していません。
まあさっと読めるweb漫画がよくオススメタイムラインに流れてくるのでその点では有用ですが。


とにかく、既存プラットフォームでの探し方は行き詰まっている状態です。
昔からある無断転載系まとめブログなんかはもう低クオリティすぎて論外ですし、
そもそもそういうブログの存在そのものが法的にアウトなのでそういうところは頼りたくありません。


と、なるともうこれは「自分で作る」という選択肢しか残らないわけです。
2021年以前の世界ではそれはイラストを描ける人だけの特権でしたが、
現在はもはや誰でも自給自足ができる世界になりました。
AI絵は法規制が追いついておらず絵師からの反発も大きいのでネット公開はハイリスクですが、
ローカル環境で個人で楽しむ分にはなんら問題ありません。
そこには著作権も表現規制もへったくれも存在しないわけで、まあやりたい放題というわけです。


ただAI絵界隈もブロックチェーンゲームほどではないにしろ流行り廃りが非常に早く、
少し離れているとまた情報収集からやり直しという面倒くささがあります。
最近だと、Stable DiffusionがGoogle Colaboratoryの無料枠で使えなくなったようです。
そのためiPad単独での生成は難しくなりました。
代替として「Draw Things」というアプリがありますが現状ではまだ安定性に欠けます。
基本的にはGPUを積んだWindows機かハイスペックなMacが必須と考えたほうがよさそう。
ベースモデルは「Stable Diffusion XL」という新しいバージョンが登場しています。
まだ試していませんが、従来の「1.5」「2.0」等と比べると高解像度の生成ができるそう。
LoRA(ベースモデルをもとに追加学習処理を行い特定用途に特化したモデル)については、
Civitalというサイトに集まっていて汎用的なものは自作しなくてもそこで手に入るようになりました。


Stable Diffusionをいじりはじめた当初は、長年構想してきた創作キャラクターの具現化、
という大目標を掲げていて、それも当然進めていかなければならないと思っています。
それも加味するとこの界隈の知識を深めるメリットは大きいので継続的に情報収集したいところ。
なんなら仮想通貨よりも優先度高いかもしれない。


#7120

生成AIとNFT

今日の出来事stable-diffusion

去年秋に「Stable Diffusion」をきっかけに大衆へと広がった画像生成AI。
それによってAIイラストやAIによる写実的な画像生成といった新しい分野が生まれ、
強化学習の手法や手書きでは絶対描けないような画風の研究など、
さまざまな文化が成長しています。


しかし一方で人力でイラストを描くことを生業としてきたイラストレーターからは批判的で、
「私たちの絵を勝手に学習させるな」というような抗議行動にまで発展しています。
かなり大手とも言える有名絵師さんからもお気持ち表明が出ていることからも、
これはもう個人の考えがどうこうで片付く問題ではないように思います。
現行法では、イラストをAIに学習させても学習元を想起させない絵であれば公開することに違法性はありませんが、
そもそも絵描きのためのスキルアップを何もせずに
プロンプトだけ入力して絵を描けるのが気に食わない、という人も少なくありません。
これは若干老害っぽい気がしないでもないですが、まあでも気持ちはわかる。
いままでの努力はなんだったんだ、って思ってしまいますよねやっぱり。


しかし実際にAIイラストに触れてみると、こっちも思い通りの絵を生成するのは至難の業です。
「頭の中に思い描く理想を創出する」ということを目的とした場合、
その到達に必要な努力が手書きよりAIの方が絶対に簡単だ、とは必ずしも言い切れません。
なにしろAI絵師は理想を表現する手段がプロンプトだけですからね。
結局、現実に出回っているAIイラストの多くは構図や画風が似たり寄ったりで、
絵師としての矜持を満足させるようなコンテンツなのかと言われると微妙のような気がします。
(一方、特定絵師のイラスト「だけ」を学習させてパクリ絵を出力することは難しくないので、
それを問題視するのは当然だしこれは法規制してもいいと思いますが)


ただ、それはクリエイターサイドの考えでしかなく、
イラストを鑑賞する側からしたら正直大した問題ではありません。
一見してクオリティが高いAIイラストの方に人が多く流れるのは自然なことだと思います。
ここで個人的にすごく懸念しているのが、「PixivFanbox」等に代表されるような、
イラストレーターの収益化を提供するサービスの存亡です。
AIイラストによってハイクオリティな絵を作るハードルがグッと下がれば、
当然それらは世の中に大量に出回ってきます。
見る専のユーザーがそこで満足してしまえば、
手描きイラストに課金する機会が減るのは当然の流れだと思います。
すでに会員数が多く生計を立てられているような大手の専業絵師は問題ないかもしれませんが、
いまこれからまさに成長していくであろう新米絵師には非常に厳しい環境だと思います。
ただでさえPixivが無法地帯になりつつあるのに……。


手描き絵師界隈の衰退は、アニメや漫画などのコンテンツ産業にも、見る専ユーザーにも、
そして手描きイラストを学習させているAI絵師にとってもデメリットしかありません。
ここでマネタイズの可能性を奪うのはかなり危ないのではないかと思っています。
ただ、イラストというコンテンツは動画や音楽と違って収益化には大きなハードルがあると思います。
その理由はいくつかあり、
まずユーザーがイラストコンテンツを「お金を払って楽しむもの」と認識していない場合が多い。
最近は商業漫画ですらスマホアプリから無料で見られるのが当たり前なので、
この風潮を今更ひっくり返すのは非常に難しいように思います。


そしてそれに輪をかけて解決を困難にしているのが、イラストは無断転載が簡単ということ。
コンテンツの実体はjpegのような軽いファイルなので仕方ありません。
それに動画と違って画像はブラウザから右クリックで誰でも簡単に保存できてしまう。
スマホならスクリーンショットがあるのでさらに簡単です。
最悪ディスプレイに表示さえできればカメラで撮れば複製できるわけで。
しかしディスプレイに表示できなければコンテンツを楽しむこと自体できなくなってしまう……。
果たして、この問題を解決する方法はあるのでしょうか?


NFT(非代替性トークン)は、これを解決する可能性を秘めていると思います。
これはコンテンツの唯一性の証明と所有権を改竄不可能なブロックチェーンに保存する技術で、
これ自体はコンテンツの無断複製を阻止するための技術ではありません。
しかし絵師や漫画家などのコンテンツクリエイターとNFTを結びつける価値はあると思っています。
例えば、ファンはコンテンツの中身を見ずに(あるいは透かし入りのサムネイルだけ見て)、
NFTの所有権を購入する。
そして購入してブロックチェーンに記録されたアカウントだけが本物を閲覧できるという仕組み。
それでも本物を見れる所有者は簡単に原本をダウンロードして無断転載できてしまいますが、
①せっかくお金を出して買ったものを無料でネットに流出させるのは心理的な抵抗があること、
②流出させた絵の購入者情報は台帳に残っているので流出させると確実に絵師にバレること、
という2点によってかなり防止できるのではないでしょうか。


NFTは買うだけではなく売却もできます。なので不要になったら売ればお金が戻ってくる。
もしかしたら10倍になって戻ってくるかもしれません。逆も然り。
イラスト収集のついでにお金儲けをしたい人は
より価値の上がりそうな絵師を探すために躍起になるでしょう。
絵師からしてもNFTで大儲けできるチャンスがあり、お互いにとって悪くないんじゃないかなと。
絵を投機的商品として売ることに抵抗がある人も多いかもしれませんが……。


いずれこれを実現するプラットフォームは出てくるんじゃないかと思っていますが、
いかんせんまだまだNFT、いや仮想通貨自体が世間に受け入れられているとは思い難いため、
実現するのは相当先になるんじゃないかなと思っています。
ただ、現状のNFTマーケットプレイスはこどもの落書きみたいなものを売るアホばかりだし、
一方の絵師界隈がマネタイズに苦しんでいるのだとしたら、
これほど良いマッチングもなかなか無いのではないでしょうか。


#7083

強化学習のコスト

ゴールデンウィーク実家帰省の最終日で Stable Diffusionの追加学習はなんやかんやでエラーを解消することができ、
追加学習スクリプトを動かすことができるようになりました。
が、それがとにかく時間がかかる!!
なんと初回のテストで66時間かかりました。
しかも、66時間かけて追加学習したのに最後の最後でエラーが出力されてすべてオジャンに!!
この4日間はいったいなんだったんでしょう。
しかも出てきたエラーも難解でネットに解決法が転がっていないため、またも暗礁に乗り上げました。
AIイラストを好きなように生成するまでの道のりは意外と険しいです。


今回の失敗でわかったこととしては、
Stable Diffusionの追加学習(LoRA)は画像数×学習回数×エポック数の回数処理が行われるらしい。
そしてその1回の処理はMacbook ProのCPUで概ね4〜6秒。
今回自分は94枚の画像を各20回学習し、それをさらに20エポック回したため学習回数は37,600回です。
それが各6秒で約62時間ですが、実際にはスリープ時の処理能力低下などもあったためか
冒頭の通り66時間もかかっています。


まだLoRAの使い方を把握したわけではないので偉そうなことは言えないのですが、
初っ端から94枚というのはちょっとやりすぎた感が否めないです。
追加学習数とエポック数はいずれもデフォルト値を採用していますが、
これが妥当なのかはなんとも言えずこの辺もいろいろ調べてみる必要がありそうです。
あとできれば高速なGPUで処理するように設定を変更したいところ。


追加学習は画像によってどんな学習結果になるかは出力させるまでわからないので、
ある意味ガチャです。
加えてベースモデルによっても出力結果が随分異なるそうで、その辺の試行錯誤も必要でしょう。
つまり今回66時間かかったテストを今後何度も何度もやる必要があると。
以前、Stable Diffusionは2008年に夢中になった動画エンコードに似ていると書きましたが、
ガチャの不確実性で言えばこっちの方がよっぽど茨の道になりそうです。
しかも動画エンコードはめちゃくちゃ長くても20時間とかだったのに、まさかの60時間越えとは……。


これだけの処理を行うとなると、Macbook Proを酷使するのはちょっと避けたいところではあります。
ただ、クラウドで同じことができるGoogle Colaboratoryというサービスは
無料だとサスペンドしたらすぐにデータが消えてしまうのでこういう用途には不向きです。
最上位プランを契約すればバックグラウンド実行できるようになるとのことですが、
月額約5,000円は高すぎるような……。
テレワークの日に仕事の傍らMacbookに頑張ってもらうのがいまのところ現実的な線ですが、
酷使しすぎて早く故障してしまうようなことがないように気をつけたいところです。


#7077

技術革新に追いつけない線引き

しばらく何もしていなかったAIイラスト関連ですが、
ゴールデンウィークで時間もあるので改めてWeb UI環境をローカルに構築していじっています。
Stable Diffusionの登場からまだ半年近くですが AIイラスト界隈にはすでにさまざまなwebサービスがあり、
プロンプト付きで生成したイラストを公開できるpixivのAIイラスト特化版サイトもできています。
なのでそういうサイトで自分好みのイラストを見つけてくれば、
プロンプトを改良してさらに自分好みのイラストを生成しまくれる……と思っていました。


現実にはそういった一定のクオリティのイラスト生成を目指す場合、
ベースモデルの追加学習は不可欠のようです。
試しにAIイラスト投稿サイトからプロンプトを探してきて、
ベースモデルだけで同じプロンプトで生成したらバケモノみたいな女の子が生成されてビビりました。


追加学習はその名の通りAIにベースモデルを元に追加の情報を足させることで、
Stable Diffusionの世界では「LoRA」「DreamBooth」「Hypernetwork」といった技術が存在します。
いずれも、教師データと言われる追加学習させたい画像を用意してくることによって、
特定のキャラクターや絵柄に特化したAIイラストを生成できるようになるというものです。
また、この追加モデルをサンプルイラスト付きで配布しているようなサイトも存在します。
最も手っ取り早いのはそういうところから追加モデルを持ってくることですが、
これだと必ずしも自分好みのイラストを出せる保証はありません。
生成したい理想の画像を教師データとして読み込ませるところがスタートした方が良さそうです。


ただ、その「理想の画像」は当然誰かが描いたもので著作権があります。
Stable Diffusionそのものは学習元画像も著作権の問題をクリアしているので、
ベースモデルのみで生成したイラストは堂々と自分のものであると公言することができますが
(ただし一部のベースモデルは無断転載データを使っているためこの時点でアウト)、
教師データに他人の著作物を使ってしまうと
明らかにその教師データに似た絵柄でイラストが生成されてくるため、
著作権的にどうなのかという疑念が生じてきます。
常識的に考えればそれを公共の場に自分が描いたものとして公開するのはアウトだと思いますが、
現状まだ法規制が存在しないためやりたい放題のようです。
真面目に活動している絵師やAI絵師からしてみればたまったものではありません。


ただしStable Diffusionは複数の著作物を混ぜて追加学習することも可能であり、
複数のイラストレーターから学習させれば元々のイラストを想起させることは難しくなります。
完成物が学習元データからかけ離れていればオリジナルを名乗ってもいい気はします。
仮に教師データの名残があったとしても、それを著作権侵害と言えるのかは微妙な気も。
でもその名残りがある程度強く出ていて元々のイラストを想起させるようならアウトかもしれません。
そうなるとどこからがアウトになるかという線引きは非常に難しい問題になりますね。
意図せずして構図などが似たようなものになることもあるだろうし。


まあこの辺は日本含む世界中の立法府や社会のモラルが決めることなので、少し様子見します。
それはそれとして生成イラストを公開しない分にはこういった諸問題は関係ないので、
自分はしばらくの間はローカル環境でAIイラストをいじくり回すことになると思います。


#7028

ファッションコーデの重要性

最近画像生成AI「Stable Diffusion」で女の子のイラストを描く練習をしています。
なぜ女の子のイラストを描くのかについては過去のエントリーを参照してもらうとして、
数十枚ほど生成して気づいたことがいくつかあります。
まず、頭の中に思い描いた理想は、
自分で考えている以上に意外と具体的な想像が欠けていることが多いということ。
頭の中に思い描いた通りにプロンプトを打ち込んで、その通りに具現化したとしても、
「あれ?なんか思っていたのと違うな……」と思うことがある。
こういうのが理想だと思っていたのに、
いざ具現化すると方向性を誤っていたことに気づくわけです。
やはりAIにしろ手書きにしろ、頭の中に思い描いているだけではダメということですね。
十年以上理想の姿は変わっていなかったのですが、
ここにきてAIの提案でその姿が変わりつつあります。


もうひとつは、いわゆる「女の子のかわいさ」というのは、
体のパーツ、つまり顔つきや髪型、身長などだけで決まるわけではないということ。
ファッションを含めた全体を俯瞰して初めてその人の可愛らしさが表現されるのではないかと。
いやむしろキャラデザにおいてはファッションの方が大事なのかもしれない。
キャラクターを作るに当たって髪型や身長などを定義したところで、
それ「だけ」を具現化してもキャラクターのそれらしさは表現できないわけです。
ファッションでもその雰囲気を表現しないと、とてもキャラクターとしての個を確立できない。
ということをStable Diffusionをいじっていてとても痛感しました。


となると、AIを使ったキャラデザにも女子ファッションの知識が必要になるということです。
このキャラクターはどういうファッションセンスをしているか、
というところまで定義しないといけない。
そのためには、まず生み出す者である自分自身がファッションセンスを磨かないと……。
これはいままで考えてこなかった視点なので、致命的に知識が足りていません。
自分自身が女子ならいざ知らず、現実でもまず触れる機会の無い世界ですからね……。
ただ、いままで触れてこなかった世界だからこそ好奇心が疼くというのもあります。
恥ずかしいけど今度若年女子向けのファッション雑誌でも買ってみようか、
それともイラスト指南系のキャラデザ本を買えば十分なのだろうか。
ちょっとそっちの界隈にも手を出してみようかと思っています。


#7001

画像補正の革命児

去年はAIイラスト元年だったと思いますが、その進化は留まるところを知りません。
ひそかにInstagramの猫クラスタでも流行っているようで、
飼い猫をモデルにいろんな猫のイラストを出力するアプリがあるみたいです。
まあいよいよとなればそういうアプリを使っていくのも手ですが、
やはり将来的なことを考えると追加学習も自前の環境でできるようになりたいところです。


追加学習が可能になったらぜひやってみたいことに、既存の猫写真の補正があります。
うちの猫はラグドールという品種で、ふわふわの白い長毛ときれいな青い瞳が特徴の猫です。
が、写真に撮ると基本的にその青い瞳を撮ることができません。
基本的に室内で撮る場合は光源が頭上にあり、瞳の中まで光が入ってくれないからです。
かといって猫に対してフラッシュを焚くのはNGというのは猫好きなら誰もが知っていること。
去年、レフ板を用意してみましたがそれでもうまくいった写真はごく少なく、
できれば既存の写真を補正して瞳の中に光を入れたいと思っています。
Photoshopで手作業の補正をするのは現実的ではないので、やはりAIのチカラを借りるのが無難かと。


既存の写真の瞳だけを補正してもいいですが、
「瞳の青いうちの猫を学習させてまったく新しい写真を生み出す」ということもできるため、
そういう意味では単なる加工処理よりも夢があるのではないかと思っています。
とにかくStable Diffusionは自分にとっての創作関連の革命技術と言っても過言ではないため、
どんどん新情報を仕入れてやりたいことの実現に向かっていきたいところです。
ちなみに先日、Google Colaboratoryに自分が作った環境をアップすることに成功したのですが、
モデルのダウンロードが都度都度必要になって時間がかかるため、
この問題を解消できないかぎりはローカルでやった方が早いかなーという印象です。
ただ、クラウドでできるとなれば端末を問わずにできるようになるということでもあり、
Google Colab版はそれはそれで整えておきたい気持ちはあります。
Macbookが手元に無い状況でもiPadから画像生成できるみたいな状況を作っておきたい。


まあでも、優先すべきはそれよりも追加学習など先進技術の使い方を学ぶことですね。
いまはweb制作が最優先なので優先度はどうしても落ちますが、
いずれじっくりと腰を据えて取り組みたいところです。


前へ1 / 2次へ