九条です。FIRE後の自由な生活をベースに、投資・税制・制度・クリプト・法人運営を考えるブログです。 利回りや還元率の表面ではなく、税引き後の手取り、制度の前提、リスクと不確実性を見ながら、自由を増やす方法を書いています。

生成AIの現在地:Codex躍進、Claude Code一強は崩れるか【2026年5月版】

このところの僕の最大の関心事はAIの進化です。1990年代のインターネットの進化も、心躍るものがありましたが、現在の生成AIの進歩の速さはその上をいきます。数カ月でトップが入れ替わる今、各AIに対してどう考えているのかを記録しておくのはいいだろうなと思いました。

 

ChatGPT、Claude、Gemini、Grok、Codex、Claude Codeをどう使い分けるか、現時点での見方をまとめておきます。

これまでの生成AI

生成AIのこれまでの流れを簡単にまとめておきましょう。

  • 2022年11月 ChatGPT公開(GPT-3.5)生成AIがブレイク
  • 2023年3月 GPT-4公開 マルチモーダル ★当時の最強モデル
  • 2024年3月 Claude 3公開
  • 2024年3月 始めて仕事で利用開始
  • 2024年5月 仕事で本格的に利用開始
  • 2024年9月 o1-preview公開 初の推論モデル ★当時の最強モデル
  • 2025年2月 Claude 3.7 Sonnet(推論モデル)公開、GPT-4.5(大規模モデル)公開
  • 2025年3月 Gemini2.5(推論モデル)公開
  • 2025年5月 ClaudeCode公開
  • 2025年8月 GPT-5公開 失敗モデル? と言われる
  • 2025年9月 Claude Sonnet 4.5公開 エージェントエンジンとして一線を超える
  • 2025年11月 Germini3公開 推論モデル ★当時の最強モデル
  • 2026年1月 ClaudeCode利用開始
  • 2026年2月 Claude Cowork公開 Anthropicショック
  • 2026年2月 Germini3.1公開
  • 2026年2月 CodexApp公開
  • 2026年4月 Mythos発表(非公開モデル) ★当時の最強モデル
  • 2026年4月 GPT-5.5公開 ★当時の最強モデル

2022年末にChatGPTが誕生し生成AIが世界的にブレイク、23年のマルチモーダル、24年のo1(ストロベリーと呼ばれた)など、OpenAIモデルが先端を走り続けます。しかし25年に通常モデルと推論モデルの統合を目指したGPT-5.5は評判が悪く、「4oを返せ!運動」も広がるなど混迷が広がりました。

 

競合はそのタイミングで頭角を現します。GoogleのGeminiは、画像編集にも使える生成AIであるNanobananaとともにGemini3が圧倒的評価を受け、一気にシェアを拡大します。一方のAnthropicは当初から自然言語の強さが評判でしたが25年のClaude CodeとSonnet4.5の登場で一線に上がり、コーディングエージェントとして確固たる地位を確率。26年にはCoworkの投入、各領域に対するプラグインの投入はSaaSの死を予感させ、Anthropicショックと呼ばれるSaaS企業の株価大幅下落につながりました。

 

Googleが大規模アップデートをしていない中、AnthropicはMythos Previewを発表。サイバーセキュリティ面でのあまりの強力さに一般公開を控えます。OpenAIはエンタープライズ市場に方向転換し、CodexAPP+GPT-5.5の組み合わせは、Claude Code超えの評判も高い状況です。ここが直近5月の状況です。

現時点での評価 チャット系

ここまで、ざっくりファクトを中心とした状況をまとめておきました。ここから、主観によるAIの状況です。

 

まず現時点での最強モデルはGPT-5.5 ProかClaude Opsu4.7ですが、評価はバラけます。Webを検索して情報を探り当てる力はGPT-5.5が上。特にProは秀逸です。一方で、着想点、概念をうまくまとめる力はOpus4.7のほうが高いように感じています。ただ、半年前のような大きな差はなく、どちらもチャットベースでのやりとりでは違いが感じられないレベルになってきました。

 

一方で、Gemini系は進化が止まっている感じです。とにかくハルシネーションがひどく、1年前のLLMのような大嘘をついてくることがあります。Grokは着実に進歩しており、検索利用ではGPTに比肩するほどのレベルになってきました。しかも高速です。Metaが4月に発表したMuse Sparkは、体感ではGrokに及んでいません。ただLlama時代からは大きな進歩を感じます。

現時点での評価 マルチモーダル系

画像生成は、25年春のGPT-4oの「ジブリ風」画像から、25年秋の「Nanobananaショック」、そして26年4月のGPT-Image2.0へとトップが移り変わっています。GrokやMuse Sparkも画像生成を提供していますが、プロンプトの忠実度などの先端比較では及んでいません。

 

音声認識は、ぼくが使っている限り、Gemini系モデルがまだ一日の長を感じます。ただチャットUIではなく、AI Studioでパラメータを調整しないと求める出力にならないので、そろそろ他のモデルも追いついてきているかもしれません。

現時点での評価 AIエージェント系

現在、最も熱い戦いが繰り広げられているのがAIエージェント系です。ここはClaudeCodeとCodexの一騎打ち状態です。ClaudeCodeは、企業での利用浸透具合が最も多くデファクトスタンダードとなってきています。コーディングに限定しないCoworkも着々とUIをアップデートし、敷居を下げています。

 

ただ、Opus4.6とOpus4.7の挙動が少々違い、そこの評価が割れているようです。Opus4.7が完全な上位互換ではなく、トークン消費を節約したモデルではないか? という懸念です。また、これまで「すべてを言わなくてもいいようにやってくれる」のがOpus系だったのが、「細かく指示したら指示どおりにこなす」方向にチューニングが変わったという反応が各所から出ています。これは性格の違いですね。

 

Codexは急速に利用者を増やしています。まず完遂力が強い。ClaudeCodeだと試行錯誤して結局あきらめてしまうような作業を、Codexは粘り強く実行します。同じタスクを与えても、Codexしか完了しなかったという経験がけっこうあります。

 

またAnthropicが演算リソース不足で、どんどん利用制約がきつくなる一方、Codexは全然リミットがこない大盤振る舞いです。Claudeはいつの間にか5時間リミットのほかに週間リミットも登場して、proプランで使っているぼくは5時間も1週間もいつも大体使い切ってしまっている状況です。Codexのほうは、Proプランということもあり、いくらう使ってもまったくリミットに達する見通しがありません。最近はトークン消費が1.5倍になる「高速モード」でもっぱら使っています。

現在の利用実績

最近の使い分けは、仕事はスキルもワークフローも固まっているClaude.aiをもっぱら使い、調査はChatGPTのDeepResearch。あとGPT-5.5 Proを併用という感じ。日常のちょっとした検索にはChatGPT Thinkingをメインで使い、あとたまにGrokです。

 

画像生成は、GeminiのnanobananaとGPT-Image2.0がメイン。ただ、Notebook LMのスライド作成やインフォグラフィックスがけっこう使えるので、用途によってはそちらを使っています。

 

積極的にテストしているのはCodexとClaudeCode。一部の作業はCodexメインで行っているし(ClaudeCodeはトークンがもったいなくて使えていない)、Claude.aiの代わりに使えないか、並行テスト中です。

www.kuzyofire.com

www.kuzyofire.com

www.kuzyofire.com

www.kuzyofire.com