元OpenAIの従業員2人が、実験的な問いに答えようとするウェブサイト「In the Weights」をリリースした。その問いとは:ウェブ検索を呼び出さずに、大規模モデル自体がどれほど多くの情報を「記憶」しているかという点である。ますます多くのユーザーが情報取得のためにチャットボットに移行する中、このようなテストは現実的な意義を帯びてきている。
複数のモデルを使用して人名認識をテストする
ウェブサイト名の「weights」はモデルのパラメータを指します。開発者であるThomas DimsonとJoey Flynnは、従来の検索における「自分を検索する」ことが、個人のネット上の存在感を測る唯一の方法ではなくなったと考えており、モデルが直接その人を言及できるかどうかが、新たな可視性の指標になりつつあります。
Weightsは、さまざまなモデルに「某某は誰ですか?」という質問を送信し、最大10個の結果、簡潔な説明、および信頼度を要求します。その後、サイトは類似する説明を分類し、モデルがその名前を「記憶」している程度を示す強度スコアを生成します。
ランキングは変動し、幻覚が発生することもあります
現在のテスト対象モデルには、Grok、Gemini、複数バージョンのGPT、Claude、Llama、およびいくつかのマイナーなモデルが含まれます。結果ページには、どのモデルが回答を提供したか、およびどの回答に幻覚や混乱が含まれる可能性があるかが表示されます。
TechCrunchの記者であるAnthony Haを例に挙げると、サイトでのスコアは641で、全名前の中で上位6%に位置しています。ただし、ランキングは継続的に変動します。記事掲載当時、俳優のMacaulay Culkinが暫定1位、歌手のLuciano Pavarottiがその次でした。
報道によると、GPT-5.4 MiniはAnthony Haを具体的な人物として直接識別するのではなく、複数の人物に対応する可能性のあるあいまいな名前形式と解釈しました。このような状況は、サイト上で潜在的な幻覚としてマークされています。
開発者がモデル時代の新たな可視性に賭ける

ディムソンはインタビューで、Flynn とともに OpenAI を退職した後、創造性を再び刺激するようなプロジェクトを立ち上げたいと語った。二人は、デザイン会社 Global Illumination が買収されたことがきっかけで OpenAI に加わった。
彼は、2026年までにトラフィックが大規模モデルに移行するにつれ、Google型のバニティサーチが最も重要な目標ではなくなっていると考えている。ウェブページの検索順位よりも、モデルのパラメータに「あなたの情報」が含まれているかどうかが、新たなネット上の存在感の形になりつつある。
開発者は、同じモデル系列がなぜ異なる結果を出すのか、どのモデルがどのような人物をより「記憶」しやすいのか、そして理論的にはウィキペディアの記事を持つべきだがまだ作成されていない人物は誰なのかについて、今後も研究を継続すると述べました。
