AIがすべてを飲み込んだ後、何が訓練不可能なまま残るのか？

導入：AIの能力が継続的に飛躍する中、投資界では新たな悲観的見方が広がっている。モデルがますます強力になるにつれ、すべてのアプリケーション企業はAnthropic、OpenAI、Nvidiaのようなモデルおよび計算力層に吸収され、最終的には最先端のモデル、計算力、そしてごく限られたインフラだけが残るとされている。しかし、Sarah Guoは、この見方は半分しか正しくないと考えている。「薄包装」（モデルを単にラッピングしたアプリケーション）は確かに吸収されるが、ベンチマークで測定可能で、公開データで訓練され、低コストで検証可能なタスクも徐々に商品化されていく。

本当の問題は：AIが訓練可能なすべてを飲み込んだ後、何が依然として訓練不可能なのか？

本文の答えは、実際の組織内部に存在し、外部から簡単に複製できない価値である：企業の機密データ、複雑なワークフロー、ユーザーの信頼、システム権限、業界の判断、コンプライアンス責任、そして長年にわたり蓄積された経験である。モデルはより賢くなることはできるが、銀行の本番システムに自動的にアクセスすることはできない。医療に関する回答を生成することはできるが、医師の信頼や病院の意思決定プロセスを直接得ることはできない。法律文書を書き上げることはできるが、経験豊富な弁護士の責任を代行することはできず、何が適切な法律業務であるかを空想で定義することもできない。

したがって、将来真正の競争優位を築くAI企業とは、汎用モデルよりも単に賢いだけではなく、特定の業界の内部に深く入り込み、困難だが重要な「翻訳」作業を遂行する企業である。つまり、顧客の独自の現実、ツール、プロセス、判断基準を、AIモデルが行動できるシステムに整理し、長期的なサービスを通じて「良い結果とは何か」の定義を徐々に書き下していくことである。AIが強大になればなるほど、測定可能で再現可能なタスクの価値は下がり、歴史、関係性、権限、専門的判断を伴う「訓練不可能な要素」がより際立つ。これが、モデルがすべてを飲み込んだ後もなお残り続ける真の価値である。

以下が原文です：

2026年までに、投資家版の「AIの狂気」とは、もはや投資する価値のあるものが何もないという絶望感である：すべての資金をAnthropicとNvidiaに投じて、家に帰って寝るべきだと思えるような感覚だ。しかし、私はこれまで一度もそのような感覚を抱いたことはない。過去数回の小さなバージョンアップ以来、私はモデルが自分よりも賢いと確信してきた。市場価格でAnthropicとNvidiaを購入することにもまったく問題はない。周りで最も賢い友人たちも、モデルの自己改善がまもなく本格的に実現すると強く信じている。しかし、私には依然としてそのような絶望感は生まれない。

この絶望は馬鹿げたものではない。その論理は次の通りだ：モデルがすべての分野で着実に強化され続けるならば、モデルの上に構築されたすべての企業は、モデルに吸収されるのを待つだけの薄い殻にすぎず、最終的に残る価値は計算能力と最先端のモデル重みだけになる。

ソフトウェアを例に挙げると、これはこの絶望感が最も強く表れるケースである。Devinは2024年にリリースされた際、標準的なソフトウェアベンチマークのタスクの13％しか解決できず、市場全体に軽視された。それから1年半後、最強のエージェントは80％以上の高得点を達成し、ゴールドマン・サックスや米国陸軍内部で実際の業務を処理し始めた。ほぼすべての人が同じ誤った結論に達した：モデルがソフトウェア工学を飲み込んだのだ。

しかし、モデルがソフトウェアエンジニアリングの中で最も測定しやすい部分を吸収したことで、多くのチームがすでに知っていた点を再認識することになった。つまり、エンジニアリング自体は常に測定を拒んできたし、最も測定しやすい部分が唯一重要な部分であるとは限らないということだ。

MITのMert Demirerとその共同研究者たちは、ようやくこれを定量的に評価しました。10万人以上の開発者の中で、最新世代のコーディングエージェントはコード作成量を約180％増加させましたが、実際に本番環境にリリースされたコード量は約30％しか増加しませんでした。コードを書くことは安くなりました。しかし、残りのプロセスは依然として人間の手を必要とし、それらのプロセスは重要です。もちろん、全体的な净効果は依然として驚異的です。

ベンチマークとは、測定可能な何かである。そして、測定可能なものはすべて訓練に使える。そのため、コーディングエージェントが最初に成熟する：コンパイラは無料の検証ツールであり、テストスイートも無料の検証ツールである。答えがほぼゼロコストで自己検証できるとき、その検証シグナルを中心に繰り返し洗練を重ね、それを突き抜けるまで打磨できる。

しかし、テストを通したからといって、その変更が十年間稼働し続けてきたコードベースにとって正しいとは限らない。そのモジュールが存在するには、文書化されていない三つの理由があるかもしれない。デプロイパイプラインは、誰も自分の仕事だと認めたくないcronジョブによって、かろうじて維持されている可能性がある。

この正確性はランキングから読み取ることはできず、他の何ものからも直接読み取ることはできません。本当に効果があるかどうかを知るには、このような複雑なシステムを現実世界で十分な期間動作させ続ける必要があります。より賢いモデルは、現実世界の動作を速くすることはありません。Googleのような大規模なシステムに対して、ユニットテストを実行して緑のチェックマークが表示されただけで完全に信頼することは誰もしません。あなたがそれを信頼するのは、長年にわたり実際の負荷に耐えてきたからです。

この正確性は単なる私的なものではなく、資本が直接時間を圧縮できない、ゆっくりと築かれたバリアである。楽観派でさえ、この時計を飛び越えることはできないと認めている。OpenAIの推論モデルの先駆者であるノーム・ブラウンは最近、エージェントの1年間のパフォーマンスを評価するための唯一の信頼できる方法は、実際に1年間実行させることであると書いている。

ガブ・ペレイラが述べたように、真の自動化とはモデルがより強力になるだけではありません。それは製品、モデル、ワークフロー、そして会社の組織がすべて変化することです。そして、この4つのうち3つは組織の速度に従って進みます。

誰かを動かすことは、どのベンチマークにも到達できない部分である：疑念を持つパートナーに、彼女が物事を処理する方法を変えるよう説得し、チームが再構築の過程で結束を保つようにすること。そのため、私たちはCEOを採用する際、分析能力と同程度、あるいはそれ以上に、人を扱う能力を重視している。モデルがより賢くなることでも、この重みは変わらない。

このフィードバックは曖昧であり、時間のスパンは年単位だが、信頼は特定の個人に属する。私が知るすべての企業は、すべてのエンジニアに最先端のコーディングモデルを使用させているが、どの企業のエンジニア組織も、モデルの進歩に近いスピードで変化していない。ツールの導入には四半期しかかからなかったが、あの四半期はトークン成長期としてどれほど素晴らしいものだったことか！しかし、真の再構築には数年を要する。

見える仕事は去りつつある。真に価値のある仕事は、構造的に読み取れないものである：ランキングに載せられるものはすべて、トレーニングに利用できる。したがって、測定可能なものはすべて商品化の道を歩んでいる。このプロセスには時間がかかり、決して完全に完了することはないが、その方向性は決して逆転することはない。

リプリングのマット・マキニスの言葉を金銭的な言葉に置き換えると、トークンが一般的な質問に答えるためだけに使われる場合、誰のモデルでも答えられるため、ほとんど価値がない。しかし、トークンが自社のデータに基づいて推論を行う場合、単に妥当に見える答えを生成するのではなく、本当に必要なことを実行するため、はるかに価値がある。

読みやすい作業は両方向から取り込まれます。

下から見ると、タスクは飽和する：ある作業が低コストで検証可能になると、購入者はどのモデルがそれを完了したかではなく、いくらかかるかを問うようになる。その結果、その作業はその週で最も安価なオープンソースモデルまたは蒸留モデルに移る。利益率が機能する限り、最終的には必ず機能するだろう。

上から見ると、ラボはモデルが自らの足場を飲み込むよう試みています。検索、安価な呼び出しと高価な呼び出し間のルーティング、ツールの使用、さらには推論戦略——かつてモデルの外側を包んでいたすべての装置が、モデルの重みの中に取り込まれ、やがて「外殻」そのものがモデルになります。これが吸収境界です。

利益圧力は別の方向からも作用する：汎用エージェントは常にあらゆるタスクに対応できるよう準備しなければならず、コストが高くなる一方、専門型アプリケーションはワークフローを極限まで最適化し、ごくわずかなトークンしか消費しない。また、これらのトークンを販売するラボとは異なり、アプリケーション企業はその中間差額をそのまま保持できる。

したがって、あらゆる仕事に対して次の2つの質問を投げかけられます：その正しさは私的なもので、高価であり、ある企業のデータ内部にのみ存在する真実なのでしょうか？それとも、外部の人間がアクセスできないシステムに隔離されているのでしょうか？これらの質問を、タスクの飽和度と組み合わせることで、2×2のマトリックスが得られます。

既に飽和し、答えが公開されている仕事は、商品化されたトークンの領域であり、オープンソースモデルがそれを占める。前線にありながら答えが公開されている仕事、たとえばコーディングベンチマークは、評価が無料であるため、それを所有すること自体が価値を失うため、研究室が勝つ場所となる。

真の報酬は、最後の隅、すなわち「トレーニング不可能」な隅である：最先端の作業だが、その正しさはプライベート環境でのみ存在する。AIナティブな先駆者にサービスを提供する推論クラウド上でこれを見ることができる：大多数のトークンは、汎用オープンソースモデルではなく、カスタムモデルによって生成されている。

この最後の角への壁は、高さがまちまちである。開発者の玩具コードベースは移行可能で標準化されているため、侵入するのは難しくない。しかし、銀行の本番システムは移行可能でもなく、標準化されていない。SWE-Bench Verifiedで2%賢くなったからといって、そのシステムのroot権限を得られることはない。

能力は多くのものを取り込むが、より優れたモデルは、プライベートな真実の基準を公開の基準に変えない。ライセンスを保有せず、責任を負うことに署名せず、企業の文書を所有しない。答えが間違った場合、訴えられる側にもなれない。ここでのボトルネックは知性ではなく、権限であり、責任である。誰よりもはるかに賢いモデルを想像できるが、それでもそのモデルが入場を許可されなければならないし、誰かがそのモデルの行動に自らの名前を署名しなければならない。

そのドアには鍵と戸締まりがついている。

そのロックは環境です：システム内で信頼を得た後、セキュリティレビューを完了し、結果責任を伴う契約に署名した上で、AIが実際に役立つことをしたかどうかを検証できます。

その鍵はユーザーである。現在、ほとんどのアメリカの医師は毎日OpenEvidenceを開いているが、これはどの計算能力でも購入できるものではない。ある実験室が明日完璧な医療モデルを訓練することは可能だが、それでも医師の使用習慣やUCSFの意思決定プロセスには入り込むことができない。なぜなら、信頼は徐々に築かれるものであり、関係性やユーザーの許可によって成り立つものであり、勾配降下法でそれらを消し去れるものではないからである。

これがアプリ会社の仕事です。アプリが「訓練不可能」な領域で存在できるのは、華やかではない作業、つまり企業のプライベートな現実を整理してモデルがそれに基づいて行動できるようにし、モデルに行動ツールを提供し、顧客とともにその労働力の実際の運用方法を変えることによってです。

このような「翻訳」を実現できる企業は再現が難しく、この翻訳は決して終わることはない。統合と保守は顧客関係とともに継続される。この課題を制するのは、ドメイン専門のエンジニアとツールを顧客のそばに置くチームである。

例えば、トップクラスの老舗法律事務所では、M&A業務だけで毎年約1,000件の取引があります。何百人もの法律事務補助者が、それぞれクライアントのファイルをデスクトップにダウンロードして、汎用エージェントに読み込ませることはできません。機密性の理由だけでこの方法は許されず、さらに他の十数の問題もあります。たとえ可能だったとしても、得られるのは断片的な情報にすぎません。ある補助者が一度に少し修正するだけで、誰も1件の取引全体がどのように流れているかを把握できません。

真正重要なシグナルは、取引というレベルに存在する。一連の取引には独自の形状がある：M&Aの場合、NDA、条項リスト、デューデリジェンス、買収契約、付属文書、クロージングチェックリスト；知的財産訴訟の場合、動議、証拠開示、既存技術、さらに動議。各ビジネス分野には独自の構造があり、弁護士やツールは随意に交換できない。

一方で、この法律事務所が真に解決すべき問題は、さらに上位に存在する：トップパートナーが数百の案件を並行して管理しながら、新規案件を獲得し、アシスタント弁護士を育成するように、すべてのビジネス領域を同時に運営することである。このような会社を変革することは、単一の評価タスクとして書き表せるような問題ではない。それは、データ・ベースボールのように操縦する必要がある：中間目標は極めて曖昧で、フィードバックは不完全であり、サイクルは極めて長く、環境自体も静止することはない。

残念ながら、読み取れない価値は商品化が難しいのと同様に、販売も難しいです。なぜなら、外部から見ても、AIがベンチマークで示されたように企業の運用を変革できるかどうかを判断できないからです。そのため、最も優れた企業は外部で自らを証明しようとするのをやめ、まず顧客の内部に入り込み、その結果に価格をつけるのです。

Sierraは、エージェントが顧客の問題を解決した場合にのみ料金を徴収し、問題が人間に転送された場合は料金を徴収しない。したがって、価格そのものが評価メカニズムとなる。これは、Sierraが「解決済み」の定義権を有しているからこそ成り立つ。CognitionのDevinはソフトウェア分野で同様のことを実現し、「パフォーマンス保証」を導入した。結果に対してこのような保証を提供できるのは、システムの内部に信頼されてのみアクセスできる場合に限られる。

トークンサービスという層、つまり誰もが純粋な商品と呼ぶ層においてさえ、その振る舞いは商品のようにはなっていません。最高のAIネイティブ企業は、BasetenやFireworksのような1〜2社のベンダーにサービスを集中させます。1トークンあたりのコストは時間とともに商品化されていきますが、実際のトラフィックにおける信頼性や希少な計算リソースへの安定したアクセスは商品化されません。どこで推論サービスを提供するかと、どのモデルを使用するかは、異なる選択です。推論において本当に商品のように見えるのは、価格だけです。

よくある反論は：ラボがあなたのサプライヤーであるなら、なぜ自社の第一方製品を原価以下で販売してあなたを潰さないのか？あるいは、直接あなたのAPIアクセス権を停止して、この市場を奪わないのか？这才是绝望感的真实版本。但它只有在模型层是单人游戏时才成立。

明らかに、事実はそうではない。モデル層は、3社半のプレイヤーによる死の競争であり、その横には約6ヶ月遅れたトレーニング進捗の国際プレイヤーたちと、昨年の5倍の規模を誇る開発アライアンスがいる。顧客は自らのサプライヤー間で競争を望んでおり、ラボは特定のアプリケーションを殺すよりも、市場シェアを獲得することを重視している。

実験室の正面競争の市場では、この点が見られます。消費者チャットのシナリオでは、最良のモデルが常に市場全体を制覇したことはありません。ChatGPTは長年にわたり実際の競争でリードを維持してきました。現在失っているシェアは、モデルの優劣ではなく、Androidや検索の配信力によってGeminiに移っています。Anthropicは現在、予測市場やインターネットの雰囲気において最良のモデルを持つと評価されていますが、消費者チャットでは主要なプレイヤーではなく、企業やコーディングのシナリオで自らのビジネスを築いています。

もし、より優れたモデルが最もコアなアプリケーションで競合のユーザーを奪えないなら、病院の電子カルテシステムや銀行の責任体制を統合して取り込むことも容易ではない。今日、一般ユーザーが製品を選択する基準は、コーディング能力だけではない。フロントランナーのモデル層が依然として混雑しているなら、その上位のアプリケーション層に価値が生まれる。

外部から評価できない仕事については、内部で誰かが「良い答え」とは何かを決定しなければならない。その決定こそが、このゲームそのものである。このような決定が十分に多く書き留められれば、それはベンチマークとなる。Harveyは法律分野のベンチマークを発表し、Sierraは音声エージェントのベンチマークを発表した。あなたがその分野における「良い」とは何を意味するかを定義する権利を持つのは、その分野がすでにあなたを利用しているからである。そして、これらの企業は、実際の採用プロセスにおける厳しい闘いを通じて、この権利を勝ち取った。

資金の流れを真正に決定する評価は、私的で、企業ごとに形成されるものである：この企業は、このような事項において、何を良い仕事と受け入れるか。そして、このことはまだ完了していない。なぜなら、法律の深さはどの公開テストよりもはるかに深いからである。OpenEvidence は、安全な臨床的答えとは何かを蓄積している。

これらは実際の「測定」ではなく、何が真実で何が良いかという判断である。これらの判断は書き留められ、やがて他のすべての人が受け入れる基準となる。基礎モデルラボがどれほど賢くなったとしても、このような基準を空から書き出すことはできない。なぜなら、そのような地位はその分野内でのみ存在するからである。

このような権威は、元々存在していた場所に必ずしも帰属する。経験豊富な弁護士が法的基準を策定する。安全な臨床的解答を定義するのは医師である。「解決済み」とは何を意味するかは、すでに顧客関係を有する企業が決定する。

吸収境界は、より多くの作業を測定する方法を学び続ける限り、さらに上昇し続ける。測定可能なものは次々と吸収される。訓練可能な地面は、その上に立つ人々の足元で次第に狭まり続けるため、一度守りやすい場所を見つけたとしてもそこで立ち止まってはいけない。あなたはまだ評価できない領域へと常に進み続け、リスクを繰り返し再保険し、再評価し続けなければならない。

狭いタスクにおいて、独自のデータと評価体系を活用すれば、最先端のレベルまで訓練でき、重要なシナリオで汎用モデルを凌駕できる。その専用モデルは、競争優位の一部となる。一方で、汎用モデルの能力で競争する場合、それは資本戦争となり、最も多くの計算リソースを保有する者に敗れる。これは、浅層的なアクセスしか持たず、タスクが高度に可読な企業が陥りやすい罠である。

ある企業が生存のために、広範な汎用タスクにおいて最先端モデルを超える能力を訓練することを決定した場合、勝敗は通常、データセンターの規模によって決まる。最終的な結末は、独立した優勝者が現れるのではなく、十分な計算リソースを持つプレイヤーに売却されることである。

以上はすべて防御である。より難しいのは攻撃だ：一体何を構築すべきかを決める必要がある。これが私が今年ずっと探していたものであり、おそらくこれまでにたった三回しか見つけていない。モデルはこの問題には役立たない。どこを指し示すかによって、それはその通りに動くが、何が指し示す価値があるかを教えてくれることはない。これに対してベンチマークを設定することはできず、したがって訓練することもできない。

だから、既存の巨大企業がすべてを奪うことはないのです。それらはすでに手にしている領域を守り、次なるものは他の誰かよりも先にその用途を見出した人物から生まれます。おそらく、意図は計算能力よりもさらに希少な投入要素です。

この絶望感の半分は正しい。薄い殻は確かに吸収されつつあり、今日見られる多くの企業のように見えるものは、実際には薄い殻にすぎない。しかし、「吸収の後には何が残るのか」という判断は間違っている。メカニズムは明確だが、最終的な結論はそうでない。

私が賭けるのは、この方向性だ：知能はさらに安くなり続け、価値は少数のモデルでは到達できない場所へと移り続ける。訓練不可能なものは、歴史を持つ価値である。

したがって、こうした分野の一つに入り、地味な翻訳作業を行い、そこで「良い」とは何かを定義し始める。誰かが必ずそうするからだ。今年最も引用されたベンチマークスコアは、価値を失いつつある領地の地図であり、同時に通知でもある：ある人々が、「良い」を定義する権利を失うことを告げる通知だ。

[元のリンク]

律動 BlockBeats