特化型モデルが日本の生成AI開発の勝ち筋

シバタアキラ

2年前

こんにちは、シバタアキラです。5月は皆様にとってもイベントの多い月間だと思いますが、私も日韓のAI Expoに出展、各所での講演、そして今週は日本人工知能学会の大会にて論文の発表も控えております。イベント参加は時間も取られますが、生の情報に触れるいい機会でもあり、今回は直近のAI業界の状況について私が学んだことを中心にご共有します。

出口の見えない日本のLLM開発に光？

昨年末MetaとIBMが手を組んでアナウンスされたThe AI Alliance は、「オープンAI開発を推進する」と大義を謳ってLinux Foundationとも手を組み、今月日本でカンファレンス及びディナーがありました。これまであまり話題になってこなかった団体という印象を持っていましたが、ビッグネームなメンバー企業・団体が着実に増えており、かなりモメンタムが増している印象を受けました。

私も東工大の岡崎先生と、NIIの黒橋先生の間の枠をいただき、Nejumi.ai で運用しているリーダーボードからの学びを共有させていただきました。先日出版させていただいたLLM評価のホワイトペーパーに向けて作成したこれまでの日本のLLM開発の系譜を見ると、日本におけるLLM開発の活動量はなかなかのものです。

ただし、これをみてわかるように、ほとんど全てのモデルは海外の基盤モデルをベースに、継続事前学習ないしファインチューニングされたモデルとなっており、国内の生成AI開発における海外のオープンソース・オープンウェイツモデルへの依存度は非常に高いと言えます。GPT-NeoX以外の選択肢が少なかった2022-2023年初頭から状況を大きく変えたMeta社のLlamaに加え、フランスのMistral社のMistral/Mixtral、そしてAlibaba CloudのQwenも高い日本語性能が注目され、日本での開発のベースにも幅が出てきました。

私たちはこれらのモデルの性能評価を昨年から続けているわけですが、この結果を時系列で見ていくことで新たな示唆を得ることができました（下図）

Nejumiリーダーボードの言語理解・生成指標の総合点で見ると、GPT4やClaudeなどのコマーシャルモデルの日本語性能はそこまで大きくは変化していないことがわかります。この間、OpenAIからもモデルのバージョンアップは度々行われてきていますが、その労力の多くは推論効率の向上によるスピードアップとコスト減に当てられているようです。

オープンなモデルに目を向けると、100億パラメーター以上の大規模なモデルでは著しい性能の向上が起こっていることがわかります。鳴物入りでリリースされたLlama3は実は素の日本語性能はそこまで高くないのですが、ここ数ヶ月の間にCohereがリリースしたCommandRや、Alibaba CloudのQwen1.5は突出した日本語性能を示しています。一方で日本におけるモデル開発の多くは70億パラメーター周辺の比較的小型なモデルに集中しています。ほとんどの企業がGPU計算リソースに制約があることが大きな要因ですが、この領域の汎用モデルの性能向上は比較的なだらかで、モデルのサイズに性能向上が制約を受けやすいという課題が見て取れます。

NTTのtsuzumiやNECのcotomiなど、一部の非公開モデルに関してはその性能は評価できておらず、またビジネス創出状況も未発表ですが、日本で開発されている汎用LLMモデルのほとんどは十分な競争力を示すことができておらず、ビジネス的な着地点が見えていないのが現状です。

日本国内の基盤モデル開発力を底上げし、このような状況を打開するために、経産省が本年初頭より主催しているGENIACプロジェクトでは、選定された10社のAI企業にGPUリソースを支援しています。その最新の結果が5月22日に発表されたPreferred ElementsのPlaMo-100Bです。このモデルは海外の基盤モデルに依存せず、独自のモデルアーキテクチャーに基づいて開発が進められ、GENIACでWeights & Biases社（W&B社）が提供している評価指標の一部においてGPT-３.5を超える結果を出しています。

生成AI活用の勘所？バーティカル（特化型）AIの開発手法

生成AIをどのように活用したらいいのか？今月参加したイベントではこの質問を聞かないことがありませんでした。現在生成AIの活用方法として最も注目されているのは情報検索でしょう。代表的にはRAGという手法を使って、自社に固有の大量のデータを生成AIとベクトルインデックスを使って効果的に検索し、自然言語で返答するシステムです。この分野で最も注目されているスタートアップがPerplexity.aiでしょう。オンライン上の最新情報に対して自然言語で質問することで適切にまとめて返してくれます。

こうなってくると、もはや人間がウェブサイトに行く必要がなくなってしまうということが、メディアからは大きく問題視されています。Perplexity自体もすでにかなり注目されていますが、5/15に行われたGoogleの開発者向けイベントGoogle I/Oでも、極めて近しい機能が発表されました。AI Overviewsと言われるこの機能はすでにGoogleサーチに統合されており、Google検索した際にGeminiモデルが情報を集約し、検索結果の上に表示します。これによってユーザーは検索結果のリンク先に飛ばなくてもすぐに求めている情報に到達することができます。

この機能の発表で使われた、”Google will do the googling for you”という言葉はメディア業界に大きな影を落としました。もし今後Googleユーザーがリンクをクリックしなくなってしまうのならば、今後メディアはどうなってしまうのか？インターネットの出現以来、激しい変化の波にさらされてきたメディア業界は、今度こそ本当に生き残れなくなってしまうのでは？と大きく揺れています。

前述のW&Bの年次イベントFully Connectedでは日本からMercariさんがご登壇されました。Mercariさんでは昨年春より専門チームを立ち上げて生成 AIの活用に力を入れてらっしゃり、メルカリービスにおけるユーザーエクスペリエンスの向上と、社内効率化の両側面から開発に取り組んできました。この発表では実に様々なユースケースに触れています：

カスタマーサービスチームの情報検索の高速化
違反取引の検出
社内ドキュメントを統合した開発者支援botの開発
アプリ上での出品プロセスをアシストする「メルカリAIアシスト」が出品内容の変更点を提案
表記揺れ（ルイビトン、ビトン、louis vuitton、ヴィトン、など）の生成による検索精度の向上
クリックを増やす商品イメージの並べ替えのためのスコアリング

生成AIに基づく機能の実運用における重要なポイントとして、特にB2Cサービスに展開する機能においてはGPT-4などのコマーシャルAPIは想定するコール数が膨大になると非常にコスト高になることです。メルカリのチームはNejumiリーダーボードで高く評価されているオープンソースのモデルをベースに社内データでファインチューニングを行うことで、GPT-3.5を超える性能のモデルを10分の1以下のコストで運用することに成功しています。

このように、用途が明確になったときに、用途特化型のファインチューニングを自社で開発する手法がこれからますます増えていくと考えられます。超高精度な汎用型APIをプロトタイピングで利用したのちに、プロダクション向けには効率とコストを重視し、独自にモデルを開発するアプローチです。今月モデルファインチューニングを提供しているPredibase社が発表した結果では、特定のタスクのために特化したオープンソースモデルは、モデルサイズが大幅に小さくても、GPT-4oの性能を大きく上回るという実験結果を公開しました。

前述のモデル性能の比較においては、汎用型モデルの性能はパラメーターサイズによる制約を受けやすいことをお話ししましたが、計算リソースが限られている環境においては特化型モデルの開発こそが「勝ち筋」と考えられます。汎用モデルの開発に必要なゼロからの事前学習や、ベースモデルの継続事前学習とは異なり、少量でもより高いクオリティーのデータを必要とするファインチューニングの獲得が企業においてはますます求められるようになるでしょう。

また、産業応用における言語以外の生成モデルの開発にも注目が集まっています。つい先日発表されたAlfaFold3は創薬における候補化合物・タンパク質の生成への応用が期待されていますが、ここでも特定の薬の開発のために各社が独自のデータを使ったファインチューニングを行なっていくことが想定されます。また、先述のThe AI Allianceでの議論では、新物質を見つけるためのマテリアルインフォマティクスへの応用のための化合物基盤モデルをオープンドメインで協力して構築したうえで、各社が自社データを使ったファインチューニングを行う利用方法が活発に議論されていました。

実用化を目指す上で避けて通れない安全性評価

4月にLlama3が発表された日に行われたW&B社の年次イベントFully Connectedでは、開発者のJoseph Spisakが開発の経緯やモデル評価の結果を発表しています。特に私が着目したのは、プレゼンテーションの後半の安全性に関する内容です。オープンソースモデルでありながら、安全性の評価のための指標を開発したり、入出力をモニタリングして、有害な出力を避けるための仕組みを同時に発表するなど、生成モデルの実用化のための障壁を取り除くための努力に余念がありません。

生成AIの安全性評価は黎明期にあり、その手法は確立されていないという以前に多くのの開発企業においてほぼ不在と考えてもいい状況です。この点においてOpen AIやAnthropicなどのコマーシャルモデル開発企業は大きく先を行っている現状があり、今回のLlama3の発表はオープンドメインの開発手法の前進においてインパクトが大きかったと考えています。

W&B社では、Nejumi.ai リーダーボードの次期バージョンにて安全性評価を複数盛り込むために目下開発を進めています。先日発表したLLM評価のホワイトペーパーはその事前調査の目的も兼ねていたのですが、制御性、倫理・道徳、毒性、バイアス、真実性、堅牢性などの側面において、自動評価の手法も次々に考案されていることがわかりました。ただし、日本語評価に必要なデータセットに関してはまだまだ十分とは言えず、W&B社ではそのようなデータセットを開発している研究機関や企業との協業を進めています。

4月には経産省と総務省から「AI事業者ガイドライン（第1.0版）」が発表されています。私自身も本ガイドラインの検討委員として参加させていただきましたが、「ソフトロー」や「アジャイルガバナンス」などのキーワードを重視し、黎明期にあるAI開発の芽を摘まないように気をつけながら、開発者が重視するべきプリンシプルをまとめ上げた点は高く評価できると考えています。5月13日に行われた本ガイドラインのセミナーにおいても、規制を強くすることが「先を行っている」かのような論調が出始めていることに対して懸念するコメントが多く出ていました。

出口の見えない日本のLLM開発に光？

生成AI活用の勘所？バーティカル（特化型）AIの開発手法

実用化を目指す上で避けて通れない安全性評価

共有: