Appleが沈黙を破ってAI戦略を公開しました。Apple Intelligenceと名付けたAI戦略は、iPhoneを軸としながらなかなかによく練られたものです。ポイントは、(1)ローカル(2)プライバシー(3)エージェント化 にあると思っています。
AppleのAI戦略
Appleが公開したAI戦略はApple Intelligenceと名付けられ、Appleらしく垂直統合されたとてもまとまった戦略でした。各部門がそれぞれ別々にAIを使おうとしているかのように見えるGoogleとは、一味違います。
詳細はWWDC2024の下記の動画から確認できますが、ぼくはポイントが3つあると思っています。
- ローカル
- プライバシー
- エージェント
です。
ローカル
1つ目はローカルです。現在のLLMのほとんどはサーバ上で動作しており、それがNVIDIAのGPU H100の膨大なニーズにつながっています。ところが今回のAppleのAI戦略は、それをローカルチップで動かそうというものです。
モデルサイズは3B(約30億)。A17PROチップを載せたiPhone 15 Proでは、レイテンシが0.6ミリ秒、生成速度は30トークン/secだそうです。そしてオンデバイス=ローカルで処理しきれない場合は、Appleのサーバでより大規模なモデルを動かします。
ちなみにオープンソースで有名なLlama3は8B〜70Bのパラメータを持ちます。GPT-4やGeminiなどのメジャー系のパラメータは非公開ですが、Mistral AIの先進モデルMixtral 8x22Bは141Bと巨大なのが特徴です。これらに比べると3Bはかなりコンパクトなのがわかります。
ただしAppleは、オンデバイス=ローカルでも、サーバでも、他の有力な競合に比べて自社モデルが優れていると主張しています。ちなみに評価手法は人間による評価です。
Introducing Apple’s On-Device and Server Foundation Models - Apple Machine Learning Research
このローカルは、2つの意味で重要です。1つはサーバに依存しないこと。サーバ向けGPUも必要としなければ電力も消費しません。逆にAI性能を増してきた自社製のAppleSiliconの優位性を活用できます。通信が不要なため、レスポンスも高速になります。
2つ目はプライバシーです。AIについては、ユーザーのデータが勝手に学習に使われたり、検閲されているではないかという懸念がついて回ります。特にパーソナルなデバイスであるスマートフォンにおいては、この懸念は重要です。
プライバシー
ローカルでAIを動かすことでプライバシーに配慮しつつも、ローカルで処理しきれないものについてはサーバのAIも利用します。AppleはOpenAIと提携し、必要に応じてChatGPTを利用できるようにしました。アカウント作成も不要です。
このAppleとOpenAIの提携条件は、報道によると無料のようです。つまりAppleはOpenAIに1円も払わずにChatGPTを組み込みますが、代わりにOpenAIは「iPhoneに搭載されたAI」としてのブランドと、販売チャネルを手にしたというわけです。
そして、サーバでAIを動かす際も、Appleはユーザーのデータのプライバシーが守られるという点を強調しています。これは、スマホ内に含まれた数々のプライベートなデータにアクセスする上では、非常に重要な点だといえるでしょう。
エージェント
そして3つ目のポイントがエージェントです。エージェントとは、自律的に目的やタスクを達成するために動くプログラムのことです。下記の例は分かりやすいかもしれません。フォームに免許証番号を入力するというタスクがあるとき、AppleのAIはデバイス内の写真を検索し、免許証の写真から番号を取得、それを入力してくれます。
こうしたAIを使ったエージェントは、単なる対話の相手としてのAIの次の一歩として期待されていました。汎用エージェントとしては、AutoGPT、BabyAGI、AgentGPTなどが有名ですね。
チャットUIは、意識的にAIを利用したい人にとっては革命的に便利なUIでしたが、使いこなすにはプロンプトを入力する必要があり、これはほとんどの人にとってハードルが高いものでした。実際、ChatGPTのユーザー数も頭打ちになっているようで、一部の知的生産に携わる人は積極的に活用しているものの、多くの人にとっては役に立つ道具にはまだなっていないということです。
その点、エージェントAIは誰でもその恩恵を受けられるものになるでしょう。「明日の予定、どこに何時にいくんだっけ?」と思った時、予定がカレンダーに登録されていればいいのですが、されていないことも多いですよね。そんなとき、メッセンジャーやメールを横断的にチェックして、「Aさんと13時に新宿の◯◯で会う約束です。ここからだと12時に電車に乗れば間に合います」なんて調べてくれるAIがいたら、便利でしょう。まさにこれがエージェントです。
どうした?Goolge
本来、こうしたAIとスマホの統合は、PixelとGeminiを擁するGoogleのほうが先に行うと期待していました。ところが、PixelはやっとローカルLLMのGemni Nanoの展開を始めたところのようです。
音声エージェントのGoogleアシスタントはGeminiに切り替えが可能になっていて、サーバベースですが、すでにメールやスケジュールを参照しながら、返答が可能になっていて、例えば
- 昨日もらったメールの内容を要約して
- ◯◯からもらったメールの内容を要約して
なんてことはすでに可能になっています。とはいえアピール下手なのか、あんまり知られていないですね。Googleの骨太の展開にも期待したいところです。