FIRE: 投資でセミリタイアする九条日記

九条です。資産からの不労所得で経済的独立を手に入れ、自由な生き方を実現するセミリタイア、FIREを実現しました。米国株、優待クロス、クリプト、太陽光、オプションなどなどを行うインデックス投資家で自由主義者、リバタリアン。ロジックとエビデンスを大事に、確率と不確実性を愛しています。

Claude3.7 Sonnetがやってきた!ヤーヤー!

本日2月25日、Anthropicの最新LLM「Claude 3.7 Sonnet」が登場しました。3.5の登場が2024年の6月。そこから半年以上かけて、バージョンは0.2アップと刻んできました。それでもClaude初の推論モデルであり、ベンチマークではo1やo3-miniを超えたとしています。

3.7がやってきた!

実はこのClaude3.7は予告されていました。2月19日前後に行われたイベントで、Anthropicのダリオ・アモデイCEOはこう話したといいます。

「私たちは一般的に、より差別化された推論モデルを作ることに注力しています。 十分な容量を確保すること、モデルがより賢くなること、そして安全性について心配しています」

「通常のモデルと推論モデルがあり、それらは互いに異なるという考え方に、私たちは少し困惑していました」

「私たちは、これらがひとつの連続した存在の一部として存在するべきだと考えています。 そして、我々はまだそこに到達していないかもしれないが、Anthropicは本当にその方向に物事を進めたいと考えている」

Anthropic CEO Dario Amodei warns of ‘race’ to understand AI as it becomes more powerful | TechCrunch

このモデルは数週間以内に登場するとされていて、噂ではClaude4ではないかと呼ばれていました。ところが、いざ蓋を開けてみると、3.7。すごい刻み方です。

 

0.2しかバージョンは上がっていませんが、性能は折り紙付きです。ソフトウェア問題を解決するAIモデルの能力を評価するSWEベンチマークでo1やo3-mini、DeepSeek R1を上回ったとしています。

インタビューでは通常モデルと推論モデルを分けるのではなく一つにしたいと言っていました。確かにClaude3.7は一つのモデルですが、その動作は「Normal」モデルと「Extended」=推論モデルをユーザーが選択する形です。APIのほうでも提供され、そちらは思考時間をユーザーが指定できるということです。また従来のClaude3.5 Sonnetも選択できますが、こちらでは推論は使えません。

 

私たちは、市場に出回っている他の推論モデルとは異なる哲学を持って、Claude 3.7 Sonnetを開発しました。 人間が素早い反応と深い考察の両方に一つの脳を使うように、推論は完全に独立したモデルではなく、フロンティアモデルの統合された機能であるべきだと考えています。 この統一されたアプローチは、ユーザーにとってもよりシームレスな体験を生み出す。

Claude 3.7 Sonnetは、いくつかの点でこの哲学を体現している。 まず、Claude 3.7 Sonnetは、普通のLLMと推論モデルがひとつになったものである。普通に答えてほしいときと、長く考えてから答えてほしいときを選ぶことができる。 標準モードでは、クロード3.7ソネットはクロード3.5ソネットのアップグレード版です。 拡張思考モードでは、回答の前に自己反省を行い、数学、物理、命令追従、コーディング、その他多くのタスクのパフォーマンスを向上させます。 一般的に、モデルに対するプロンプトはどちらのモードでも同様に機能することがわかります。

Claude 3.7 Sonnet and Claude Code \ Anthropic

 

実際にExtentedモデルで推論させてみると、Thinkingの中身も含めて、だいたいo1その他と同じような動作のようです。ただ体感的にはo1よりも高速に感じました。

最高の相棒、Claude

ぼくは複数のLLMを活用していますが、実は一番愛用しているのがClaude。仕事関係で使うときは基本的にClaudeを使うくらい、信頼しています。4oとかo1でたまに試すことはあっても、やっぱり仕事ではClaudeです。もちろん有料版なのですが、それでもリミットを超えて制限がかかることもしばしば。もはや相棒という状況です。

 

ChatGPTは月額200ドルのProを契約しているし、Grok3も最近はよく使います。DeepSeekこそあまりにサーバが不安定なためにアクセスすることはなくなりましたが、GeminiもPerplexityも使います。なんならPerplexityはPro版です。ローカルでLlamaとかを動かしてみたこともありました。

 

それでもClaudeがいいのはなぜかというと、こちらが期待した返答をちゃんと返してくるところです。そして日本語の理解が最も優れています。

会話のコンテキストをちゃんと覚えている

LLMに数学の問題を解かせたりするのであれば、o1やGemini2.0はかなり強力でしょう。その点ではClaudeは一歩劣るという印象でした。ただ、パズルをとくような強力な論理推論が常に必要なわけではありません。正直、何をやらせるかでモデルを使い分けるのが現状です。

 

ChatGPTでも、例えばスプレッドシートの関数を調べるとか、そういうときには4oで十分です。入り組んだ問題の解放を考えさせるならo1ですが、そんなニーズは本当にたまにしかありません。

 

ではClaudeの何がいいかというと「こういう返答が帰ってきてほしい」というときに、期待に近いものが返ってくるのがClaudeなんですね。例えば、4oは勝手に箇条書きにしてしまい、文章で返すようにいってもすぐ忘れます。o1は無駄に長い返答を返してきます。長い返答がほしいときには便利なのですが、無駄に長いのはかえって厄介です。

 

話の流れをすぐに忘れてしまうのがGemini系です。一度指示しても、何回か会話を続けると最初の話を忘れてしまうんですね。コンテキストウィンドウが大きいのがウリだったはずなのに、前の話を忘れてしまっては困ります。Claudeはその点、本当によく以前の指示を覚えているのです。

RAG的なUIとArtifact

もう一つは、Project機能とArtifactです。Project機能は、複数のファイルをあらかじめ渡しておいてRAG的に使える機能。前提となる資料が多い場合、それを添付してプロンプトを書くのはけっこう面倒です。さらに、添付内容を差し替える、修正する場合、最初からやりなおしになります。Projectならそんな悩みはおさらば。慣れると手放せない機能です。

 

ChatGPTにもほぼ同じのプロジェクト機能がありますが、その際使えるモデルは4oとo1だけ。o1-Proは使えません。また検索もできなくなります。ほぼClaudeと同じ機能になってしまうわけです。

 

そしてもう一つの機能がArtifact。これは、テキストやソースコードのようなアウトプットを、通常のLLMの出力とは分けて出力するものです。簡単な版管理もされていて、1版、2版と改訂していくことも可能。これが革命的に使いやすいんですね。ChatGPTにもソースコードを出力するCanvas機能はあるのですが、微妙にUIが使いにくい。

 

というわけで、尖ったベンチ性能はなくても筋のいいモデル、本当に使っているユーザーのことを考えたUI。それを兼ね備えているのがClaudeです。OpenAIのようには世界で注目されていなくて、AnthropicとかClaudeという名前を知っているだけでもけっこうAIを使い込んでいる人だと思います。一見地味だけど優秀。それがClaudeです。

 

www.kuzyofire.com

www.kuzyofire.com

www.kuzyofire.com