本日早朝、OpenAIは、GPT-4oに次ぐモデル「OpenAI o1」のpreview版をリリースしました。論理的な推論が大幅に強化されていて、特に数学などの問題において博士課程の学生に匹敵するとしています。
数学オリンピックの予選問題を83%正答
数学などの難問、論理的な思考を必要とする問題について、大きく性能が向上したのがo1の特徴です。これまでの最新モデルであるGPT-4oは、数学オリンピックの予選問題について13%しか正答できませんでしたが、o1は83%を解き、上位11%に相当したといいます。
思考の連鎖
o1は一体何が違うのでしょうか。o1を使ってみるとすぐに分かるのが、プロンプトを入力したあと「思考している」ということです。
まるで人間のような表現ですが、これは内部的にo1が思考の連鎖、「Chain of Thought(チェーン・オブ・ソート)」を使っていることを表しています。CoTはこれまでもプロンプトエンジニアリングでは一般的な手法で、LLMと対話を重ねながら、思考を進め段階を追って判断をしていくことで、論理的な問題に対応するときに使われていました。
o1は、それを自ら内在的に行うということのようです。そのため、凝ったプロンプトを渡すよりも、シンプルなプロンプトを渡して、o1に内部的に考えてもらったほうがいい結果になると言われています。
人間が難しい質問に答える前に長い時間考えるのと同じように、o1は問題を解決しようとするときに思考の連鎖を使う。 強化学習を通じて、o1は思考の連鎖を磨き、使用する戦略を洗練させることを学ぶ。 間違いを認識し、修正することを学ぶ。 難しいステップをより単純なステップに分解することを学ぶ。 現在のアプローチがうまくいかないときには、別のアプローチを試すことを学習する。
凄まじい利用制限
o1はChatGPTとAPIで提供されます。ChatGPTでは、o1-previewとo1-miniの2つが提供されますが、利用回数に制限があります。
- o1-preview 30メッセージ/週
- o1-mini 50メッセージ/週
えと。これ1時間でも1日でもないですよ。一週間に実行できるものです。有料版でこれですから、ほんとpreview版ですね。OpenAIは、新モデルの提供にあたり、月額30万円にすることも検討していたと伝えられていますが、ほんのちょっとだけ追加コストなしで提供しようということでしょう。
ちなみに、まだブラウジングもファイルのアップロードもコード実行機能もo1は備えていません。今後ということでしょう。
使ってみると
では実際に使ってみるとどうでしょうか。うーん。難しい数学の問題が解けるという触れ込みでしたが、テスト問題はともかく、僕が解きたいような問題はどうもだめな感じです。
例えば、特定口座を売却してNISAに移したほうがいいかという問題。
売却時に含み益に20%課税される特定口座と、非課税のNISA口座があります。特定口座に商品を保有していて、含み益があるとき、特定口座を売却してNISA口座に乗り換えたほうがいいでしょうか? それはどんなパラメータがどんな数字のときでしょうか。数式で表してください
これを投げると、o1は次のように回答します。
一見、ちゃんと考えて式を立てて考えているようなのですが、
あれ? 含み益の大小によって乗り換えたほうがいいか変わるって? いろいろ論理がおかしいので、数式を見直させたり具体例を挙げさせて論理のおかしさを指摘したり、やりとりすること数回。最終的には次のようになりました。
んー。分かってくれればいいんですが、一見いろいろ考えているようで、ちょっとおかしいことをやっています。例えば、NISAの年間投資上限枠が120万円だと(これは旧一般NISAですね)して、300万円の特定口座の資産を全部売約し、120万をNISAで買い、180万円を特定口座で買い直すという試算をやってしまったりします。そりゃNISAに移行したほうがパフォーマンスが悪化するはずです。この場合、180万円分は売却せずに持ち続ければいいだけなんですから。
けっこう騒がれたo1なので、どのくらい論理的になったのか、AGIに近づいたのか期待したのですが、これだけみるとちょっと期待外れ感がありました。
ただシンプルな数学の問題とかは得意な感じ。ただ、これは論理的に考えているのか、知識として知っているのかアヤシイところですけど。
正規分布の確率密度関数において、なぜそこにπが現れるのか、解説して
推論の演算能力競争に入るか
別の観点でo1が面白いのは、これがモデルの大規模化ではなく、推論部分での演算量を増やしたことで性能をアップさせたということです。
GPT-3以降、LLMの性能向上はモデル学習のスケーリング則に従ってきました。つまり、よりパラメータを増やした大規模なモデルを学習させれば、それだけ賢いものができあがるという法則です。実際GPT-4が登場したときの衝撃はすごかったですね。この学習のためには大量のデータと多くの演算資源が必要で、そのためにNVIDIAのGPU需要が爆発したわけです。
ところが今回のo1では、学習量を増やすだけでなく、推論時のテスト時間を増やすことでも性能が増加することを明らかにしました。というか、これまでもCoTに関する論文ではそれが示されていましたが、それを内在させたわけです。下記のチャートは、train-time=学習時間(左)とtest-time=推論時間(右)を増やすとAIME(数学オリンピック)の問題正答率がアップすることを示しています。学習同様に、推論時間も演算を増やせば性能が上がるのです。
Learning to Reason with LLMs | OpenAI
投資家の観点でいうと、NVIDIAが得意とする学習用のGPUだけでなく、多くのスタートアップが参入している推論専用チップの価値が増大したともいえるのではないでしょうか。ま、いずれにせよ、演算量を増やせば性能が上がるわけで、まだまだAI開発とそれをサポートする半導体、特にGPUのニーズは衰えることがなさそうです。