Anthropicは、Marlinプロジェクトを通じてClaude Codeを訓練し、同プロジェクトはデータ企業Snorkel AIを通じて約1000人の外部ソフトウェアエンジニアを募集し、各タスクにつき280ドルの報酬でモデルが生成したコードのA/Bテストを実施した。
記事執筆者、出典:新智元
最近、ある報道がClaude Codeの「進歩の秘訣」を明らかにした。
Business Insiderは、AnthropicがClaude Codeの改善に専念するプロジェクトを進めており、約1000人のソフトウェアエンジニアからのフィードバックをもとにそれを磨いていると報告している。
このプロジェクトは、データ企業Snorkel AI内で「Marlin」というコードネームで進められています。

今年1月には、Claude Codeの責任者であるボリス・チェルニーが、すでに2か月以上自らコードを1行も手書きしていないことを明かし、1日でClaudeが22件のプルリクエストを提出したと述べた。前日には27件のプルリクエストが提出され、すべてモデルが作成したものだった。
また、Anthropicの内部コードの大部分もAIによって生成されたとの報告がある。
面白いところがここにあります。
一方で、Anthropicの自社核心エンジニアは大量のコーディング作業をモデルに任せている。他方で、同社は約1000人の外部エンジニアを雇い、Claude Codeに「良いコード」とは何かを丁寧に教えている。
1時間で280ドル、何を買ったのでしょうか?
Business Insiderによると、Marlinプロジェクトが雇った外部エンジニアはすべてソフトウェア工学の背景を持っている。彼らの仕事は、実際のコードレビューに似ている。
プロセスは大体以下の通りです。まず、数千のリポジトリを含むリストからGitHubのコードリポジトリを一つ選びます。次に、開発者がコードの変更を提出するステップであるPRを作成します。その後、タスクを明確に説明するためのプロンプトを記述します。
モデルは2つのコードセットを生成し、外部エンジニアはその後、これらの出力をA/Bテストして、より優れた方を選択します。
各タスクの報酬は280ドルで、約1時間かかります。一部はSnorkelの審査層と複数回やり取りが必要です。
評価基準は、プロダクションレベルのコードの正確性、セキュリティ、信頼性、保守性を評価することです。
二つの実際の例を挙げます。
タスクの中で、外部エンジニアはモデルが実行メタデータの処理方法を再構築し、機能を変更せずにコードをより明確で保守しやすくすることを目的としています。
別のタスクでは、外部エンジニアがMLflowというオープンソースの機械学習プラットフォームに対して、モデルを読み込む際にPythonパッケージをダウンロードする際に発生するコマンドインジェクション脆弱性に対するセキュリティパッチを適用しました。要件は明確で、コマンドインジェクションを防ぎつつ、合法的なpip(Pythonパッケージマネージャー)オプションを誤ってブロックしないようにすることです。
これらのタスクの要件は、データアノテーションの範囲を超え、熟練したエンジニアが頭の中に持つ「このように書くほうが良い」という判断を、そのままモデルにコピーするようなものである。
明らかに、Anthropicが購入したのはコードではなく、熟練したプログラマーがコードをより安全で洗練されたものにするための判断力である。
なぜ必ずエンジニアでなければならないのですか
Anthropicがなぜこれほどまでに手間をかけるのか?なぜならClaude Codeはもはやコードを書くためのチャットボックスではないからだ。
AnthropicはそれをプロジェクトレベルのAIエージェントと定義しています。これはコードベース全体を読み取り、ファイル間で計画を立て、直接変更を実行し、テストを実行して、失敗結果に基づいて自ら繰り返し改善できます。

Anthropic公式サイトによるClaude Codeの定義:コードリポジトリを読み、ファイル間で変更を加え、テストを実行し、コミット済みコードを提供するエージェント。
これは実際にファイルを変更し、タスクを実行し、全体のコードベースにアクセスすることを意味します。
Anthropic自身もこの問題の重みを理解しており、エンジニアリングブログでClaude Codeの権限、サンドボックス、承認疲労(approval fatigue)の問題を繰り返し取り上げている。
デフォルトで、高リスクなファイルの変更またはコマンドの実行にはユーザーの承認が必要です。繰り返しの承認による承認疲労を軽減するため、Anthropicはサンドボックス機能を導入し、Claude Codeが事前に設定されたファイルシステムおよびネットワークの境界内でのみ安全に実行されるようにしています。
AIがコマンドを実行でき、オンラインコードを操作できるようになると、ミスの代償はまったく異なります。訓練目標も「正しく書く」から「安全で、信頼でき、保守可能なコードを書く」へと進化します。
これらのものは、通常のコードコーパスでは学習できない。かつては熟練エンジニアのコードレビューの中に隠れ、人から人へと伝わる経験だった。今、Anthropicは人間のプログラミング専門家を採用することで、これらを購入可能なデータに変換しようとしている。
Snorkel は見過ごされている「データ軍需品業者」
この出来事の本当の主役はSnorkelである。
この会社は2019年にスタンフォードAIラボから誕生し、注力した方向は一つだけだった:機械学習の成功を左右するのはモデルや計算力ではなく、データである。
Snorkelの二人の重要な創設者は、アレックス・ラトナーと彼のスタンフォード大学の指導教員であるクリス・レであり、彼らはSnorkelの核心的な学術的起源を語っている。

Snorkel AI共同創設者兼CEOのアレックス・ラトナー
2015年、SnorkelはRatnerが博士課程中に取り組んだ「午後のプロジェクト」に過ぎなかった:データを一つ一つ手動でラベル付けするために高額な費用をかけるのではなく、プログラムとルールを使って「弱監督」(weak supervision)を実現し、モデルが人間による個々のラベル付けなしでも学習できるようにしようというアイデアだった。
この考え方を基に、Snorkelは60篇以上の論文を蓄積し、そのオープンソースツールはGoogleやIntelにも採用され、2019年になってようやく独立した会社として分離されました。

スノーケルAI共同設立者、スタンフォード大学教授のChris Ré
ラトナーの指導者であるクリス・レも並外れた人物だ。
彼はスタンフォード大学の教授で、マッカーサー天才賞受賞者でもあり、複数の起業を経験。その参加したプロジェクトはアップルに買収され、SambaNovaを創業し、その時価総額は50億ドルに達した。
最も興味深いのは、この会社の転身である。
スノーケルが当時解決しようとしたのは、「手動アノテーションは遅く、高価で、不安定である」という長年の課題だった。当時のAI開発の約80%が手動データアノテーションに費やされていたため、スノーケルの最初の目標は、アノテーション作業から人間をできるだけ解放することだった。
最先端のモデル時代に突入し、最も希少で最も価値のあるものが再び人間に戻ってきた。ただし、それは博士、医師、弁護士、ベテランエンジニアなどの専門家の嗜好と判断力に変わった。この「人を少なく使う」ことでスタートした会社は、今や最先端のAIを訓練するために高額な専門家チームを編成することが最も利益を生むビジネスとなっており、Marlinはその一例に過ぎない。
そのワークフローは、Marlinプロジェクトの要件と正好一致しています。
Snorkelの公式サイトでは、このワークフローを次のように説明しています:まずタスク、評価基準、バリデータを定義し、「良いとは何か」を明確に定め、その後、エキスパートレビューのパイプラインを実行します。著者、複数のレビュアー、最終決定者が段階的にチェックし、全プロセスが記録されます。

Snorkel公式サイトの説明:審査スコアに意見の相違が生じた場合、裁定により解決し、スコアリング基準の変更履歴に記録されます。すべての変更は、誰が、いつ、何を根拠にしたかを追跡可能です。
また、評価環境とデータも同時に整備し、同じタスクを異なるモデルバージョンで繰り返し実行できるようにすることで、再現性があり、比較可能なスコアを導出します。スコアを清潔で比較可能にするためには、評価者がバージョンの情報を知らずに評価する必要があります。このため、外部エンジニアは自分が評価しているのがどのバージョンかを知りません。
価格もよく物語っています。
Snorkelの公開法務契約ポジションでは、高品質なタスクごとに10〜100ドルが支払われる一方、Marlinのソフトウェアエンジニアリングタスクは1タスク280ドル、約1時間で完了し、時給に換算すると業界平均の約2.5倍に相当する(Scale AIやMercorはエンジニアに時給110ドルを支払っている)。トップエキスパートは週に3000ドル以上を稼ぐことも可能だ。
スノーケルが採用したこれらの外部エンジニアのフィードバックは、本当に高価です。
クライアントリストにはGoogle、Mistral、Anthropicが含まれています。2025年5月、SnorkelはDラウンドの資金調達を完了し、評価額は13億ドルとなりました。
Anthropicの収益責任者であるKate Jensenは、Claudeの可能性を完全に引き出すには、分野の専門家と人間のフィードバックを活用した新しい評価手法が必要であり、AnthropicはSnorkelのような企業と継続的に協力していくと述べた。
Snorkel、Scale、Mercorといった企業は、かつて「アノテーションプラットフォーム」として扱われていた。現在では、最先端のモデル企業の背後にある隠れたサプライチェーンとなっている。
最も賢いAIに餌を与えるのは、世界中に広がる見えない専門家軍団です。

いくつかの巨大企業
同じデータを奪っている
Anthropicだけが実際のエンジニアリング能力を購入しているわけではない。この競争には、複数の大型プレイヤーが参加しており、それぞれの戦略が異なるだけだ。
カーソルは製品データの道を進んでいます。
公式には、ユーザーがプライバシーモードを有効にした場合、コードは当社または第三者によって訓練に使用されないことが明記されています。プライバシーモードを無効にした場合にのみ、コードベースのデータ、プロンプト、編集アクション、コードスニペットがAI機能の改善やモデルの訓練に使用される可能性があります。
CursorのTabモデルは、1日あたり10億以上の編集文字を生成し、リクエスト量は初期版と比較して約100倍に増加しました。さらに、Composerは強化学習(RL)によって訓練され、多数のコードタスク環境で編集や検索などのツールを呼び出す方法を学習し、より長期にわたるエンジニアリングタスクを処理します。
最新のComposer 2.5は、数百ステップを要する長周期タスクに特化しています。
マスクは資本バインディング/買収オプションの方式を採用しています。
今年2月、xAIはSpaceXに統合されました。4月下旬、SpaceXは、年内にCursorの親会社Anysphereを600億ドルで取得する権利、またはまず100億ドルを支払って深度協力を行う権利を獲得しました。マスクが注目したのは、Cursorが保有する世界で最も活発なリアルな開発者行動データです。
5月25日、マスクはX上で、新世代の基礎モデルGrok V9-Mediumのトレーニングが完了し、パラメータ数は1.5兆で、現在の本番モデルの3倍であると発表しました。彼は、Cursorデータによる追加トレーニングを施す前の成績であることを明確にし、追加後には「プログラミング能力が大幅に向上する」と述べました。このモデルは6月中旬にリリースされる予定です。

これにより、V9は実際の開発者行動データを体系的に「経験」する最初のGrokとなる。
その後、OpenAIのCodexもこの道を歩んだ。2025年にリリースされたCodexはcodex-1によって駆動され、OpenAIはこれが実際のコーディングタスクにおいて強化学習で訓練され、人間のスタイルに近いかつPRの習慣に沿ったコードを書き、テストを繰り返し実行してパスするまで継続することを目的としていると述べている。各タスクは、あなたのコードベースが事前にインストールされた隔離されたサンドボックス内で実行される。
現在、CodexはOpenAIのエージェント型コーディングプラットフォームにアップグレードされ、その最先端のコーディングモデルによって駆動されており、週間ユーザー数は500万人を超えています。
彼らが競い合っているのは、実は同じもの、つまりプロセスデータであり、ただその道筋が異なるだけである。
Anthropicは、先行モデルを持ちながら、実際の開発現場のフィードバックが不足していたため、約1000人のエンジニアを雇い、ソフトウェアエンジニアリングのプロセスを学習可能なデータに分解した。
Cursorには既存の製品と実際のユーザー行動があり、独自開発のTabやComposerなどのプログラミングモデルも備えている。しかし、OpenAIやAnthropicと比較すると、汎用基礎モデルの基盤と大規模なトレーニング計算リソースが不足している。
マスクが欠いているのもデータであり、開発者の行動データを継続的に生成する製品のエントリーポイントを数百億ドルで購入しようとしている;
OpenAIはモデルも製品も欠けておらず、自らサンドボックスを構築し、モデルがリアルなコーディングタスクの中で強化学習を通じて繰り返し試行錯誤し、テストし、修正し、イテレーションを重ねる。
いくつかのアプローチは異なるが、最終的には、ますます現実の工事現場に近いデータを使って、自社のAIプログラミングモデルを訓練している。


本物のモニュメント
人の嗜みと判断
SWE-chatという論文は、実際のエージェントコーディング会話として、6,000セッション、63,000件以上のユーザーのプロンプト、355,000回のツール呼び出しを初めて大規模に収集しました。
驚きの数字が導き出された:エージェントが生成したコードのうち、44%しかユーザーのコミットには含まれていない。半分以上は削除され、変更され、却下された運命にある。

SWE-chatの実証:vibe codingが会話の41%を占めているが、エージェントが作成したコードの44%のみが最終的にコミットされている。ユーザーは44%のインタラクションラウンドで、修正、エラー報告、または中断を通じてモデルの出力を逆に推論している。
これは、HumanEvalのような古いベンチマークはすでに飽和状態に達しており、スコアだけを見ても意味が薄いことを示している。真の戦場は、反復、試行錯誤、やり直しを繰り返す実際の開発プロセスのデータである。
モデルが強くなるほど、人類にまだ置き換えられていない部分、つまりエンジニアリングの直感を購入するためにお金を使う必要がある。
Anthropicは1つのタスクに280ドルを支払い、約1000人のエンジニアにA/B投票を依頼しています。この一見重々しい作業こそが、彼らが購入している点です。
現場の工事をモデルが処理できるデータに変換できる者が、AIプログラミングの次段階への入場券を手にする。
