OpenRouterが11個のAIモデルを2Dバトルロイヤルに投入し、30試合の結果を公開した。「走るロボットを操作させるならどのAIが強いか」を実測した実験だ。
OpenRouter(複数のAIモデルをまとめて使えるAPI基盤)の結果では、勝率トップはGrok 4.1 Fast(xAI系の高速モデル)。Claude Sonnet 4.6(Anthropicの主力モデル)は協調的に動きすぎてゲームでは勝ちにくく、3モデルは1勝もできなかった。最安クラスのモデルが「勝利1回あたりのコスト」で最高価格帯のモデルより27倍良かった、という数字も出ている。
普通のベンチマークでは見えないAIの「性格」を、ゲームという状況で露出させる実験だ。個人でAIツールや小さなプロダクトを作る側には、モデル選びの雑な思い込みを壊す材料になる。
- 一次ソース: https://openrouter.ai/blog/insights/royale-last-agent-standing/
この記事をわかりやすく
この記事をわかりやすく
OpenRouter(複数AIモデルをまとめて使えるAPI基盤)が、Claude(AnthropicのAIモデル群)やGrok(xAIのAIモデル群)など11モデルをゲーム内エージェントとして動かし、30試合の2Dバトルロイヤル(最後の1体になるまで戦う形式)をさせた実験だ。
「AIをエージェントに載せる時、テスト点数だけで選んでいいのか」という問いを立て、11個のLLM(文章や判断を返すAIモデル)に同じゲーム環境を与えて、勝率・異常な行動・費用対効果の差を比べている。
1モデルが30試合中43%を制し、3モデルは1勝もできなかった。最安クラスのモデルが最高価格帯のモデルより「勝利1回あたりのコスト」で27倍良かった。高いモデルが常に正解ではなく、用途次第では安いモデルのほうが回る。
ゲームで勝つモデルと仕事で使えるモデルは別物だ。Claude Sonnet 4.6はゲームで協調しすぎたが、開発補助や文章整理ではその協調性が強みになる。用途ごとにモデルを選び直す必要がある。
個人にとっての意味: 自分の動きにどう効くか
個人にとっての意味: 自分の動きにどう効くか
これはモデル性能ランキングではなく「AIの使い分けメモ」として読むべき内容だ。個人でAIを使って収益を作ろうとすると、有名モデルに寄せがちだが、作業の種類によっては安いモデルや速いモデルを混ぜたほうが現実的になる。
Claude Code Maxユーザー目線では、Claudeを全作業に使う発想を疑ったほうがいい。Claude Code(Claudeを使った開発支援ツール)は設計相談やコード理解で頼れる。ただ、単純な大量処理やゲーム的な意思決定まで全部投げると、コストと速度で詰まる。ここは自分にも直撃した。
個人builder目線では、OpenRouter経由で複数モデルを試す価値が上がった。community_reactionsでは「Kimiを使うとClaude Opus比で5〜6倍安く高ボリュームのagent作業を回せる」という反応があった。agent(目標を渡すと複数手順を自律的に進めるAI処理)を商品に組み込むなら、品質だけでなく原価がそのまま利益率に直結する。
ノーコード系AI副業狙い目線では可能性がある。別の反応では、ClaudeとOpenRouter、Higgsfield(生成AI系の制作ツール)を組み合わせてマルチプレイヤー風ゲームを1プロンプトで作れる可能性を挙げていた。一撃で完成するとは思わないが、「作る前に諦める理由」はかなり減っている。
罠は、ランキング勝者をそのまま自分の仕事に採用することだ。Grokがゲームで強くても、契約書風の文章・長い仕様書・顧客対応・コードレビューで同じ強さとは限らない。まず小さい実験で使い分け表を作るほうがいい。
明日からのアクション: これを糧にするには
明日からのアクション: これを糧にするには
- すぐやる 24時間以内にOpenRouterで無料アカウントを作り、上限を$5に設定してClaude系・Grok系・Kimi系を同じプロンプトで3回ずつ試す。商品説明文・コード修正・調査要約の3種類で比べれば十分だ。
- すぐやる 今週末までにCursor(AI補助付きコードエディタ)またはClaude Codeで、自分の小さなLPかミニアプリを1つ作る。既存契約がなければ$0枠か短時間利用に抑え、モデル差だけを見る。
- 検討 7日以内にOpenRouterのログを確認し、Claude Sonnet系と安いモデルを同じ作業で比較する。合計$10以内を目安に。品質が8割で足りる作業は安いモデルへ逃がす候補にする。
- 検討 2週間以内にLovable(テキストからWebアプリを作るノーコード寄りAIツール)かBolt(ブラウザ上でアプリを作るAI開発ツール)で、月$0〜$25の範囲で試作品を1つ作る。完成度ではなく、どこでAIが詰まるかの記録が目的だ。
- 保留判断 今月中はGrok 4.1 Fastを本番の顧客対応や課金処理に入れない。$5〜$20の検証予算で、暴走しにくさ・長文理解・出力の安定性を確認してから判断する。
- 罠の回避 48時間以内に、自分のVPSやサーバーで動かすopen-source agent(公開コードで使える自律型AIツール)を棚卸しする。費用$0でいいが、prompt injection(悪意ある指示でAIの挙動を乗っ取る攻撃)対策が曖昧なものは公開環境に置かない。
- 検討 逆張りの機会として、来月までに「高性能AIを使えない人向け」の安価な代行メニューを1つ設計する。月$10以内のモデルで回す商品説明リライト・問い合わせ分類・SNS下書き作成など、高級モデル競争から外れた小規模需要を拾う。
今回の記事で使えるのは、GrokとClaudeの勝敗ではない。個人がAIで何かを作るなら、モデルを信仰せず、用途ごとに原価と失敗の癖を見ること。派手な実験だが、学びは実務寄りだ。