サイトアイコン Data

生成AIの現実解 – 期待と実測のギャップはどこから?

Key visual for the article

こんにちは、シバタアキラです。本年もAI業界は激動の一年。私が日本法人を始めたWeights & BiasesもAIハイパースケーラーを標榜するCoreWeave社に買収されるなど、変化を肌で感じています。2025年も残すところ2週間を切り一年を振り返るとともに、来年のビッグトレンドがどこに起こるのか思いを巡らせています。本稿では、特にAIのインパクトが大きいとされるソフトウェア開発において、AI開発支援の賛否両論と、労働市場で既に起きている変化から、それでもAIが強烈な価値を生む条件について考察したいと思います。

期待外れだったAIエージェント

「AIエージェントの年」になると言われた2025年は、多くのエンジニア・企業がその実現に取り組んできましたが、残念ながら今年はAIエージェントの導入によるインパクトは総じて言うと期待外れで、Andrej Karpathyも 「AIエージェントが期待値に答えるための問題をすべて解決していくには、10年はかかる」と発言していました

一方で、エージェントかどうかはともかく、生成AIが大きなインパクトを出した専門領域はいくつかあります。今年のState of AI Report の第5章の調査(回答者はスタートアップ勤務者が多め)では、生成AIが頻繁に使われた業務領域について下記のような結果が得られていて、インパクトの高い利用ユースケースを考えていく上で参考になりそうです

中でもコーディング支援(Coding assistance)は最も多く、多くのソフトウェアエンジニアにとって必須のツールになりつつある様子が伺えます。

US労働市場では既にインパクトが顕在化

今年私が見た中でも特に衝撃を受けたのが、AIの労働市場へのインパクトを研究した米スタンフォード大学の研究 “Canaries in the Coal Mine? Six Facts about the Recent Employment Effects of Artificial Intelligence” です。ChatGPTの出現前と後で、さまざまな職種における人員数の変化を、年齢グループごとに追いかけています。介護補助などのAIにさらされている度合いが小さいとされる職種ではどの年齢グループでも人員数が増え続けているのに対し、ソフトウェア開発者に関しては未経験者と経験者の雇用傾向にドラスティックな変化が出ています(下図)

30歳以上のエンジニアにおいては大きな影響が見られないのに対して、20代のアーリーキャリアのエンジニアに関しては明確に採用傾向が厳しくなっています。ChatGPTがリリースされたポイントを起点にあまりにも急激に変化しているので、結果に疑問を感じる部分もありましたが、論文ではAI以外にもこの結果に影響を与えうるさまざまな要因についても分析し、AIが影響を及ぼしていることを示しています。

今年話題になっていた本で冨山 和彦さんの「ホワイトカラー消滅 私たちは働き方をどう変えるべきか」を拝読しましたが、まさに今後ホワイトカラーが人余り状態になり、エッセンシャルワーカーの価値がますます上がっていくと言う指摘ともアラインしています。特にソフトウェアエンジニアは非常にこの影響を受けやすいところにいて、論文のタイトルにもあるように「炭鉱のカナリア」状態。これからもっと多くの職種が影響を受けていくことの前触れと捉えることができます。

現場レベルではAIは業務をスローダウンしている?

上記の結果と真反対に見える結果も報告されています。AIのモデル評価やリスク評価を専門にする研究組織であるMETRが7月に発表したレポートでは、ソフトウェア開発におけるAI利用のインパクトを評価し、下記の結果を報告しています

開発者が AI ツールの使用を許可された場合、課題の完了には 19%多くの時間 がかかることが分かった。これは、開発者自身の認識や専門家の予測に反する 顕著な減速 である。認識と現実の乖離は際立っており、開発者は AI によって作業速度が 24%向上する と期待していたうえ、実際に減速を経験した後でさえ、AI によって 20%スピードアップした と信じ続けていた。

この「作業したエンジニア自身も20%のスピードアップを体感していたのに、実際には平均20%のスローダウンを「計測」したと言うギャップは重要です。どのように計測したのかというと、約250個のイシューチケットを3年以上の経験のある16人のエンジニアに作業させる上で、ランダムにAIツール(ほとんどの場合Cursor Pro + Claude 3.5/3.7)の使用を許可・禁止し、使われた場合と使われなかった場合にかかった時間の平均を比較しています。こうすることで、作業の種類によらず幅広くAIのインパクトを公平に測ることを目指しています。

AIの業務・事業へのインパクトに高い関心が集まる中、このようなバイアスの少ない研究結果は貴重です。AIのおかげでこんなに業務が早くなったと言う報告も、多くの場合は主観的な報告に基づいているのが現状です。

実際のところは、適AI適所

先日AIエンジニアでXでの発言がよく注目される@kennさんのツイートが目にとまりました。

これを見ても生成AIのコーディング支援の性能は今年一年だけを見ても著しく向上したことがわかります。上記のギャップを理解するための一つのヒントは、AIモデルの性能、またそれを開発フローの中で使うためのインターフェース、また場合によってはエージェンティックな自律的開発性能などが、ここ一年で進歩してきたため、どのタイミングで検証するかによっても、効果検証の結果は影響を受けていそうです。

もう一つ重要なポイントとしては、誰が、どのようなタスクに対して、どのようにAIを使うか。例えば全く新しいプロジェクトをスクラッチで全生成するような場合と、既存のプロジェクトのバグフィックスとでは同じソフトウェア開発でも仕事の性質が異なります。先日DevinのファウンダーのScott Wuとお話しする機会があったのですが、その時にこのことを聞いてみたところ、イシュー化されたバグからプルリクエストを作るようなタスクにおいては何%どころか何倍の生産性が得られるとし、企業導入においては、よりAIが得意とする領域から進めていくことが重要だと話してくれました。

また、短期的に開発工数を少なくしてくれたとしても大量に生成され、十分に検証されないままデプロイされたコードは、その後のメンテナンスにおいて負の遺産となり、経験のあるエンジニアの手を煩わす可能性も指摘されています

ソフトウェア開発に限らず、来年のキーワードは「適AI適所」で、インパクトの出る場所で、インパクトを享受できる方法でAIを活用していくことが求められると考えています。

AIコーディングアシスタントのソリューション

この分野で初期に話題になったのがGitHub CopilotやAnthropicのClaude Codeですが、他にも様々な強みを持ったコーディングアシスタントソリューションが提供されています。

SWエンジニアが開発をするプロセスを手伝うIDE型のソリューションとしてはCursorはプロダクトの強みから既に多くのエンジニアに支持されています。セルフサービス型の課金体系を軸に既に1000億円以上のARRに成長し、11月には3000億円規模の資金調達をしています。

また、自立性の高いエージェント型の開発ソリューションとして知られるDevinは今年300億円以上のARRに成長し、9月には600億円規模の資金調達を実施。エンタープライズ営業を軸としたビジネス展開で、日本でもULCコンサルティングSHIFTなどが戦略的パートナーシップを結んでいます。

Connpass上で展開しているAI駆動開発(AI-Driven Development)コミュニティーは、2024年に発足し、既にメンバー数が1万5千人を超えています。毎月複数のイベントが開催され、ソフトウェアエンジニアが現場でどのようにAIを駆使しているのかを垣間見ることができます。現時点では「使ってみた」系の発表が多く、「高い期待値で使い始めたが実際にはうまくいかなかった」などの内容の報告も多くみられていますが、このような場で共有されるノウハウが、今後どのようなシーンでどのようなAIソリューションがが適しているのかに理解が深まっていくことが期待されます。

また、LINEヤフーでは独自の開発環境、Ark Developerを社内向けに開発しています。「開発現場に蓄積された技術や知見といった膨大な社内ナレッジがあり、汎用ツールだけで対応しきれなかった」と言う背景から独自基盤を築く必要があった、としていますが、数多くの開発支援AIソリューションが登場している中で、今後も独自基盤が必要とされるのかは注目していきたいところです。

その他多数の企業では、複数の汎用ツールを比較検討し始めている段階で、その状況をまとめた一覧表を作るプロジェクトも参考までに共有します。

最後に

久しぶりのブログエントリーとなりましたが、生成AIは使わずに書き上げました。仕事関係の発信だと、生成AIにドラフトをしてもらうことがよくあるのですが、生成したものから始めるとどんなに編集しても自分の文章にならないんですよね。今年に限らずですが、「AIは魔法の杖ではなく使い所を誤ると期待を裏切り、使い所を見極めると圧倒的な力を発揮する技術」だということが見えてきた時に役に立つ知見を、現場・経営・プロダクト、それぞれの観点から今後も共有していけたらと思います。

モバイルバージョンを終了