Chrononglyph

イラスト生成AI

#8137

AI業界の選択と淘汰

おととい、OpenAIが動画生成プラットフォーム「Sora」をサービス終了することを発表 し、話題になっていました。
画像生成のDALL-Eに続いて動画をAI生成できるサービス、
しかもスマホ完結で誰でも使えるということでリリース当初は招待コードの争奪戦が起きるほど人気でしたが、
著作物の無断使用、有名人のディープフェイクなどで方々から叩かれるようになり、
リリースしてからすぐに機能を大幅に制限することに。
その後ずっと音沙汰がありませんでしたが、このたび製品研究の「選択と集中」のために切り捨てることを決めたと。
また、これによりxAIのイーロン・マスクは「Grokの動画生成を強化する」との声明を発表しており、
動画生成のニーズを囲い込もうとしているように見えます。
ただ、そのGrokも最近画像編集・動画生成機能である「Grok Imagine」の使用制限を大幅に強化しており、
現状はSuperGrokという月5,000円のサブスク課金をしないとほぼ使えない状況です。
動画生成については無料で使える時代は早くも終わったと見てよさそう。


個人的なイメージでは、Grokは生成コンテンツの権利があいまいで不安定なため、
オリキャラの生成には適していないと考えています。なんというか、AIポルノのためのAIという不健全なイメージが強い。
実際、Grokではスパイシーモードを有効にするとある程度までのポルノの生成が許容され、
これは他のクラウドベースのAIとは大きく異なる点です。
そういうプラットフォームに大切なオリキャラを預けるのはちょっと勇気が要ります。


Soraは基本的に不健全さを徹底排除する方針だったのである意味Grokの対抗馬として有望だったのですが、
個人的にSoraが失敗したと思うのはSNSという体裁を採ったことです。
つまり、生成した動画は公開するという前提でUIが設計されていたわけです。
基本的にAI生成コンテンツは自分が個人的に楽しむために作るもので、それ以上の目的はありません。
また他人のAI生成コンテンツを見たいともまったく思わない。
「自分が作った」という部分が大事なわけで、SNSにしてしまったのはそういうニーズへの無理解があったと思います。
まぁ、自分みたいなスタンスの人はマイノリティなのかもしれませんが……。
正直、普通にDALL-Eと同じようにChatGPTに組み込んでほしかったですね。


AIのコンテンツ生成サービスは世界的にコンプラとの兼ね合いで試行錯誤の状況が続いています。
Grokの動画生成も最初期は「なんでもあり」でしたがTwitterのディープフェイク問題を経て現在は大幅に制限されています。
GoogleのNanobananaも年末年始ごろはかなり制限が緩和されていましたが、
おそらくGrokに追従したのか現在はめちゃくちゃ厳しくなっています。
ChatGPTは相変わらず保守的な運用が続いており、
第1四半期以内に文字ベースでアダルトな会話ができるモードをリリースすると言われていましたが、
結局周囲や社内からの反対を受けてリリースを断念したと報道 されました。
一連の流れは、やはりGrokがTwitterで調子に乗って大批判を浴びたことで決定的に風向きが変わった気がします。


報道だけ見ていると、最近はOpenAIがとにかく逆風を浴びているような気がします。
まもなく課金継続して丸1年になる自分としてはChatGPTがやはりしっくり来るので頑張ってほしいところですが、
メモリの問題、コンプラや倫理の問題、果ては政治的な問題までChatGPTを取り巻く「敵」はあまりにも多く、
いまのところこのAI過渡期がどこに向かっているのかはまったく分かりません。


#7797

AIアシスト絵師を目指す

ここ数日、自分の中でアツいChatGPTのイラスト生成機能を使ったオリキャラの具現化。
やっていること自体は長年やりたかったがスキル不足のためできなかったことで、
そういう意味では本当に技術革新には感謝しかありません。
しかし一方で、現行の生成モデル(DALL-E 3)でもまだまだ限界があると感じることはあります。


DALL-Eは、無策でアニメ風少女を生成しようとするとジブリ風の女の子になりがち。
なので「前提プロンプト」を試行錯誤した上でChatGPTに覚えてもらい、
画像生成をする際には常にそれを最初に噛ませるように指定することによって「脱ジブリ化」は実現できます。
これにより無難な絵柄で無難にかわいいイラストを無限に生成できるようになります。


DALL-Eが内部的にどういう風に作られているのかは分かりませんが、
キャラデザにあたっては現実のファッション用語がそのまま適用できるのがDALL-Eの強みだと思います。
たとえば「黒髪のセミロングで、前髪はラウンドバングにして」と指定するとちゃんとその通りの髪型を出力してくれる。
また画風についても「ビビッドな色彩表現を心がけつつ、線を明確にしたアニメ調イラスト」
のように指定するとちゃんとそれを再現しようとしてくれます。
この辺は非常に奥が深いのでまだまだ試行錯誤の余地はありそう。
ChatGPTの便利なところは、こちらの語彙不足で行き詰まっても「髪型を指定するプロンプトは何がある?」
と直接聞いて提案してもらえるところですね。なのでファッション用語を全然知らなくても進行自体はできる。


一方で、やはり構図などに一定の限界があるということは薄々感じています。
たとえば、女の子イラストにおいて非常に重要な要素であるスカート。
スカート丈はそのキャラの性格を外見に反映させる重要な要素だと自分は考えているので細部までこだわりたいのですが、
ここ数日やってみた感じだと膝上丈のスカート(=ミニスカート)は丈を調整できません。
膝上であればみんなミニ丈として認識され、ミニ丈として認識されたら一律膝上20cmくらいの丈で出力されてしまいます。
これをプロンプトでどうにか調整しようとすると
なぜかスカートを長くしようとしているのにセンシティブ判定されて弾かれてしまうことも多々あり、
いまのところ抜け穴は見つかっていません。こういう融通の効かなさはどうしてもありますね。


こういう細かな調整はさすがに自分でも手描きの方が早いだろうと思います。
となれば、「AIイラストでざっくり構図を出力→手描きで模写して細部を調整する」というプロセスが最強なのでは?
という考えに必然的に行き着くわけで。
有意義であるとは思いつつも目的を見出せずモチベが低かったイラスト制作方面は、
ChatGPTによるアシストを武器にして再出発するのが妥当のように思っています。
頑張れば大キリ番記事として予定している短編小説のためにオリジナルの挿絵を描くことも夢ではないかも……?
やっていることは模写なのでこれで同人活動などへ手を広げていくのはやや抵抗がありますが、
著作権的には何ら問題ないのでPixivなどの投稿サイトへ活動の幅を広げるくらいはできそうではある。


とりあえず、元日以来放置していたイラスト練習はChatGPTありきの方向に転換して再検討ですかね。
イチからの練習は絶対にモチベが上がらない自分にとっては渡りに船だと思っています。


#7790

対話式イラスト生成

満を持してと言うべきか、生成AIでいわゆるオリキャラの生成を本格的にスタートしました。
もちろんこれまでにもStable Diffusionで似たようなことはやったことがありますが、うまくいきませんでした。
しかし、初期SDがキャラの特徴をプロンプトに込めてランダム出力するのがせいぜいだったのに対して、
今度契約したChatGPT Plusは生成した画像を踏まえた上で対話形式でのイラスト修正ができるため、
今回は一歩ずつ着実に頭の中に描いているキャラを描き込んでいけます。本当に革新的だと思います。
しかもCivitaiに落ちているようなモデルよりも格段にクオリティが高い。


巷で言われているようにどこかジブリを想起させるような没個性的な絵柄になりやすいというのはありますが、
それでも日本語の自然文を使って対話式でできるのは非常に強力です。
ただ、注意点としてちょっとでもアレな絵を出力しようとするとAIが即停止します。
ChatGPT本人に聞いたところ、直接的な指示でなくてもアレなイラストを出力するような誘導が見られた場合、
アカウントに対してBANなどのペナルティを課す可能性はないわけではないとのこと。
ここでいう「アレ」とは、性的なイラストは当然水着さえも許されないのですが、
その他倫理的に問題のある構図や「戦争」「薬物」を想起させるものはOpenAI基準で全部アウト。
そして著作物として判定されるもの全般もアウトなので結構厳しいです。
たとえば「ドラえもんを描いて」と指示すると速攻で停止するでしょう。
「青くて耳が無い、猫型のロボット」でもダメだと思います。
AIが停止されたら即ペナルティというわけではないものの、内容が直接的であれ間接的であれ、
意図的に何度も停止されるようなプロンプトを書くとヤバそうな気配です。


ただしその規制を掻い潜って無事に出力されたイラストの著作権は、原則としてユーザーに帰属します。
なので頑張れば作成したイラストをそのままサイトに掲載、なんていうこともできるわけです。
ただ、対話式とはいえなかなか地道な作業なのでそう簡単には行かないと思いますが……。


ためしに1人オリキャラを生成しようとしてみましたが、それで強く痛感したことがあります。
それは、自分は20年以上頭の中にオリキャラを住まわせていたと自負していたけれど、
実際にはちゃんと細部まで想像していたわけでは全然なかったんだなということ。
モデルになった女の子の断片的な記憶をオリキャラと称していたに過ぎないとさえ言えるかもしれません。
自分の中で確立していたはずのイメージが、実はちゃんと近づいて見たらモザイクだったというわけです。
なのでChatGPTが「それっぽい」イラストを出力しても絶妙にこれじゃない感を感じてしまう。
確実に特徴は押さえているのでそれっぽいはずなんだけど、
自分の中のイメージがあまりにも曖昧なので納得できるだけの材料が無いという……。


いちおう最初の1人はある程度それっぽさを感じるところまで行き着きましたが、
これはもはやモデルに基づいて二次元の見た目を初めて定義していると言ってもいいかもしれません。
ただ、「それっぽい」段階でも、複数人のキャラを組み合わせた構図にしてみたりすると、
自分が長年描きたかった風景そのものがポンと出てくるので結構衝撃的だったりします。
これをうまく活用すれば頭の中の世界観の解像度もかなり上がるんじゃないかと期待しています。


2018年当時はクラウドソーシングでやろうとしていた全キャラの具現化については、
ChatGPT Plusによってめちゃくちゃハードルが下がったという印象です。
もはや実費を払って文章ベースの案を元にイラストレーターに描いてもらう必要性は皆無。
プロトタイプで良ければ7年前の夢を叶えられる日はもう目前と言っていいでしょう。
ただ、このままだと具現化したとしても個性を出せないのは必至なので、それはこれからの課題になりそう。
個性的な「うちの子」をちゃんと作っている同人作家さんは羨ましいと改めて思います。