Stable Diffusionがオープンソースで公開されてちょうど1ヶ月が立ちました。OpenAIがDall-E2をリリースしたのが4月。こういう異次元なリソースを使ってモデルを作れるのはごく限られたプレーヤーだけと思い込んでいたものが、若干十数人のチームがMidjourneyをリリースしたのが7月。一連の騒ぎがここ半年程度の出来事で、1ヶ月前に深津さんも予見していた「世界変革」が目の前で怒涛の勢いで進行しています。
このブログも書いた瞬間に古くなるだと思うけど、この文化的特異点とも言える1ヶ月に起こったことを振り返ってみたいと思います。それにしても手書き文字の生成に感動していた2015年から比べるとずいぶん遠いところまで来ましたね。DataRobotでも「AIの民主化」を掲げて様々な企業のAI活用を推進していたけれど、今起こっている変化を見ているとそのスピード感に愕然とします。
少し宣伝ですが、9月28日と10月5日に「生成AIはビジネス・デザイン・アートをどう変えるのか?」をテーマに、深津貴之氏、水野祐弁護士、徳井直生、シバタアキラ、が生成型AI技術の活用について企画から法律まで様々な角度から検証するセミナーを緊急開催します。定員50名につき登録はお早めに https://buff.ly/3eyUTXH
プロンプトエンジニアリング、あるいは呪文詠唱
これまでにあったStyleGANなどの技術と比べて、非常に幅広い領域の画像を生成できる学習済みのモデルが、テキストプロンプト(普通に言葉で入力できる)という誰でも使えるインターフェースで公開されたとあって、考えられなかったような画像がTwitterにどんどんあがってきたので、自分も試してみたんですが、案外面白い画像を生成するのが難しいんですよね。うまく行った例を少し変えてみると全然イケてない絵が出てきたりもして。例えばAstronaut on a horse (馬に乗った宇宙飛行士)は毎回必ず良い結果が出てくるものの、Software programmer on a horse(馬に乗ったプログラマー)は何度やっても全然面白い結果になりません(この問題がなぜ起こるのかは深津さんの記事を見ると納得できます)。
なので、PromptBaseというサイトで、うまくいくプロントの売買がされているのを目にしたときは、なるほどそうなるよなと思いました。いいプロンプトを書くための苦労は「プロンプトエンジニアリング」と呼ばれるようになり、OpenAIの公開したプロンプトブックには画像を説明するための様々な言葉が解説されていて目からうろこが落ちると同時に、これは思ったよりもスキルが必要だと認識しました。逆に今度はいいプロンプトを探しに行くアルゴリズムとかは作れないのかなとぼんやり考えていたらまさにそれをやっている人のツイートが出てきて・・・
例えばこのプロンプトとかは、すべての単語を由緒正しい英語の辞書から引っ張ってきたらしいですが、もはや全く知ってる言語には見えないですね。日本ではプロンプトのことを「呪文」とか呼んでいる人がいますが、まさにそういう感じです。
その後Lexicaが出てきて、PromptBaseでお金を出さなくてもありとあらゆる過去事例が呪文付きで公開されているので、ますますプロンプトエンジニアリングは進化して、人間の言葉としての進化というより独自の裏技の世界を形成しています。下の絵の場合、書かれている内容は絵文字⛲️ 🍔 🚋 🐆で表現されているし、epic, stunning, gorgeous, much wowとか、「とにかくすごいやつよろしく!」みたいな感じ。

ちなみにプロンプトエンジニアは今や日本でも職業になったみたいです。Rinna社が出しているこの求人の場合、時給2000円スタートらしい。
実行環境の多様化
そもそもこういう生成モデルは高性能なGPUマシンがないと動かないものだったし、つい1週間ほど前に清水亮さんもStable Diffusionの日本語対応版サービスMemeplexを提供しようとしてGPUマシンの調達に大変苦労した経験を綴ってらっしゃいました。Stable Diffusionの場合、本家のDream Studioが驚異的な速度で動作する上に、数百回は無料で使えるという太っ腹具合なので、英語で呪文を書く(とは言っても上述の通り英語力とは別スキル)ことに抵抗がなければこれでいいのではと思います。
ローカル環境で動かす方法も速攻で出現していて、WindowsならNMKDやら、MacならDiffusionBeeとかCharl-eとかがインストーラーもGUIも提供してくれています。ローカルで使えるのは便利な点もありますし、動いているだけでも感動が絶えないですが、生成中はマシンがテンパって他の作業が全然できなくなる上、マシンスペックにも依るでしょうが1枚の生成に数分はかかります。
その他にも、PhotoshopやFigmaなどのプロのデザイナーが使うツールに導入できるプラグインも登場し、活用の幅は広がり続けています。特にこのようなプロのクリエーターにとってはAIの画像生成は職を奪う脅威になることも容易に想像ができますが、うまく使いこなせるクリエーターにとっては、仕事の大幅な省力化や、表現の可能性を大幅に広げる可能性を提供してくれるのではないでしょうか?
新しい生成テクニックの開発
上記のビデオでも画像の間を埋める「インペイント」の手法が使われていますが、このような新しい画像生成方法が続々と出現しています。逆に与えられた画像の外側を生成するアウトペイントの手法も驚くほどうまく機能してくれます。例えばモネとムンクとゴッホと北斎をかなりなめらかにつなげてしまう例などに驚きました。
この手法の面白い応用として、未来の株価を折れ線グラフのアウトペイントとして予測してしまうという発想には妙な説得力を感じてしまいました。しかも結構精度が悪くないと。実際にはうまく行ったやつを見せているだけかもしれないけれど、こういう発想の広げ方から以外な応用事例が生まれて来るのかもしれません。

(Varun Kumethi, @Varunufi)
その他にも入力のイメージをもとに出力を生成するimg2img、ビデオを入力してビデオを生成するvideo2video、生成された画像からカラーパレットを生成する手法、タイルのように並べるとつながって永遠に繰り返すパターンを生成する手法、などなどなど、新しいイノベーションの出現に日々驚かされています。

(Matt DesLauriers, @mattdesl)
特化モデル
オープンソース化されたStable Diffusionが汎用的なインフラのような存在になる一方で、様々な領域に特化した追加学習を行うことで、部分的に機能を強化する動きも出ていますます。Stable Diffusionが23億枚の写真から学習したとはいえ、実用性を上げるための「のびしろ」はまだまだ沢山ありそうです。アニメ画像の生成能力を強化したWaifu Diffusionなどは、特定の用途のための追加学習の好例だと思いますし、商用化の道筋を見つける上で、追加学習は重用な手法です。
日本語のプロンプトに特化した追加学習を行ったモデルはRinna社が9月上旬に発表しています。個人的には試したことがないので品質などに関してはコメントできないですが、AIの文化的なバイアスの問題を解消するために日本語でプロンプトをかけるだけではなく、日本人の作った学習データを増やすことも意義があるでしょう。Stable.AI(Stable Diffusionを作った会社)も国際的なパートナーシップを進めていて、今後モデルのローカライズの推進に力を入れようとしているようです。
また、ベースの生成モデルが学習しなかったコンセプトを数枚のイメージを与えることで教え込む、Textual Inversionの手法も非常に強力です。数枚の追加画像を与えることで、新たなスタイルや特定の物体、コンセプトなどを学習させることができます。例えば下の例では座禅を組んでいる写真を数枚学習させたあとに、座禅を組むエルモを生成したりしています。エルモの場合、瞑想中でも目はぱっちり開いているようです。

https://textual-inversion.github.io/
日本ではこの手法を応用して、簡単に書き手のスタイルを真似したキャラクターの生成ができることなどを売りにしたmimicというサービスが登場しましたが、話題を通り越して炎上し、短時間でサービス休止に追い込まれてしまいました(10月に再開するらしい)。mimic自体が適法だったかどうかの判断は私にはできないですが、いずれにしても見せ方や用途によってはこれらの技術が激しいネガティブリアクションにつながる可能性あることは想像に固くなく、企業活動においてすぐにこれらの技術を導入するのに慎重にならざるを得ない状況があります。
すごいけど、世の中や産業への影響は?
では、これらの技術は私達の社会や経済にどのような影響があるのか。今度のセミナーのわたしのパートでもこの辺のテーマを深堀りしていきたいと思っていますが、正確性を期すならば「まだ良くわからない」というのが実際のところではあります。
アメリカのアートコンペでMidjourneyを使って書かれた作品が受賞してしまったという事件が8月末にあり、物議を醸しました。作者は所謂作画をしてはいないとしても、オリジナリティーと質の高いアウトプットを得るために試行錯誤を繰り返す必要があったのは間違いなくて、そこには相応の努力と独創性があったと思います。一方で自ら絵を作るという行為自体の価値が下がったという考え方は成立するし、実際機械が人間の能力のコモディティー化を加速しているのは事実です。同時にそれは私達の進歩の証でもあります。
早くも生成AIツールを使って生成したものをストック素材販売のサイトで販売し始めた、という人も出てきていますが、Getty Imagesなどアメリカの大手ストック素材販売サービスは著作権に関連する深刻な懸念を理由に、AIが生成した画像の販売を禁止し、この技術と著作権の関係を整理する新たな法整備の必要を訴え始めました。
一方で、生成された画像を販売はせず、個人的にないし社内で使うならば敷居は低いでしょう。また、生成AIから出てくる結果がそこまでハイクオリティーでなかったとしても、使える用途を見出すことができます。製品や作品の企画段階においてはラフなスケッチを使ったストーリーボードを作るステップは文章で表現するよりも活発な議論を生み出すことに有効です。

(Sarah Drummond, https://sarahdrummond.medium.com/the-future-is-what-you-think-it-is-d7a54369ea32)
プロ向けデザインツールでの生成AIについては上で触れましたが、プロのクリエイターにとっては仕事の省力化やアウトプットの効率化のために役に立つだろうと指摘されています(既に私の職場でも実際に起っています)。例えばゲーム制作の現場でもラフなスケッチからコンセプト画像を起こす作業があるそうですが、Stable DiffusionなどのImg2Imgの技術を使えば、非常にラフな入力から質の高いコンセプトアートを生成することができます。

https://www.reddit.com/r/StableDiffusion/comments/wy7oa5/img2img_is_just_unreal_im_stunned/
このような活用方法は広くデザイン業務に活用できる可能性があります。工業製品のデザインのコンセプト開発等においても強力なツールとなるでしょう。また、上述の領域特化型の追加学習を行うことで、例えば医療いおける診断画像の生成などにも活用の可能性が指摘されています。私は腰が悪いのでよく病院でレントゲンを撮ってもらいます。当然MRIのほうが診断の質としては圧倒的に高くなるわけですが、MRIは時間もコストもかかるためあまり頻繁にとってもらうことはありません。そのようなケースに置いて、レントゲン画像を入力にし、MRI画像を出力にするような応用事例が考えられますし、またMRI画像からCTスキャンの画像を生成するようなImg2Img変換も実際に研究されています。
また、生成AI技術は別のAIモデルの精度を上げることにも応用することができます。例えば異常検知などの機械学習モデルを作るためには異常を含むデータを収集することが求められますが、「異常」という状況の性質上沢山のデータを集めることは根本的に困難です。そのようなときに異常を含む画像をプロンプトで指定して生成することによって、例えば外観検査モデルの精度を上げることにも役立てることができます。このような手法はデータオーグメンテーションと呼ばれています。
様々な議論
日本においては、外部データの利用において、著作権のある画像のAI開発における利用は平成31年に施行された著作権法の改定よって、権利制限規定(著作権者の権利を制限し,著作権者の許諾なく著作物を利用することができる例外的な場面を定めた規定)に明示的に盛り込まれ、機械学習モデルの学習に利用することは適法とされています。また米国においても「フェアユース」の考え方を適用し、AIの学習における著作物の利用を適法と判断することが慣習化しています。当然Stable Diffusionの学習には大量の著作権あり画像が使われていて、そのデータセットも公開されています。
一方でこれらの法律は当然現在のような広範囲で高性能な画像生成AI技術の出現を十分に見越して作られていたものではないとも考えられ、改めて法的検討を求める声もあがっています。また、法律に限らず倫理的観点からの解釈などにおいては広大なグレーゾーンが広がっており、社会的通念がが成立するにはまだまだ時間がかかります。
このような議論はパワフルな新技術が出てきたときには避けて通れない状況ですが、ここ1ヶ月の技術的発展の爆発的なスピードを見るに、まだまだこれからも私達の既存概念が様々な角度から試される状況は続きそうです。