強化学習のコスト
ゴールデンウィーク実家帰省の最終日で Stable Diffusionの追加学習はなんやかんやでエラーを解消することができ、
追加学習スクリプトを動かすことができるようになりました。
が、それがとにかく時間がかかる!!
なんと初回のテストで66時間かかりました。
しかも、66時間かけて追加学習したのに最後の最後でエラーが出力されてすべてオジャンに!!
この4日間はいったいなんだったんでしょう。
しかも出てきたエラーも難解でネットに解決法が転がっていないため、またも暗礁に乗り上げました。
AIイラストを好きなように生成するまでの道のりは意外と険しいです。
今回の失敗でわかったこととしては、
Stable Diffusionの追加学習(LoRA)は画像数×学習回数×エポック数の回数処理が行われるらしい。
そしてその1回の処理はMacbook ProのCPUで概ね4〜6秒。
今回自分は94枚の画像を各20回学習し、それをさらに20エポック回したため学習回数は37,600回です。
それが各6秒で約62時間ですが、実際にはスリープ時の処理能力低下などもあったためか
冒頭の通り66時間もかかっています。
まだLoRAの使い方を把握したわけではないので偉そうなことは言えないのですが、
初っ端から94枚というのはちょっとやりすぎた感が否めないです。
追加学習数とエポック数はいずれもデフォルト値を採用していますが、
これが妥当なのかはなんとも言えずこの辺もいろいろ調べてみる必要がありそうです。
あとできれば高速なGPUで処理するように設定を変更したいところ。
追加学習は画像によってどんな学習結果になるかは出力させるまでわからないので、
ある意味ガチャです。
加えてベースモデルによっても出力結果が随分異なるそうで、その辺の試行錯誤も必要でしょう。
つまり今回66時間かかったテストを今後何度も何度もやる必要があると。
以前、Stable Diffusionは2008年に夢中になった動画エンコードに似ていると書きましたが、
ガチャの不確実性で言えばこっちの方がよっぽど茨の道になりそうです。
しかも動画エンコードはめちゃくちゃ長くても20時間とかだったのに、まさかの60時間越えとは……。
これだけの処理を行うとなると、Macbook Proを酷使するのはちょっと避けたいところではあります。
ただ、クラウドで同じことができるGoogle Colaboratoryというサービスは
無料だとサスペンドしたらすぐにデータが消えてしまうのでこういう用途には不向きです。
最上位プランを契約すればバックグラウンド実行できるようになるとのことですが、
月額約5,000円は高すぎるような……。
テレワークの日に仕事の傍らMacbookに頑張ってもらうのがいまのところ現実的な線ですが、
酷使しすぎて早く故障してしまうようなことがないように気をつけたいところです。