偉そうな煽りタイトルを付けましたが、いろんな分野に精通している著名人でも、または技術系のジャーナリストとかでも、ChatGPTの何がすごいのかをちゃんと理解していないんじゃないかと。
ChatGPTは検索エンジンじゃない
あるところで生成AIについての議論を読みました。その著名人は、最初は面白がったけどChatGPTを使うのをもう止めてしまったというのです。理由は「旅行の日程を作りたくてChatGPTに相談しても、誤った答えを返してくる。これじゃ使い物にならない」。
これ、ChatGPTの何がすごいのかを理解してない人の典型的な反応だと思ったわけです。そう、ChatGPT≒生成AIを検索エンジンだと思ってしまう。こういう見方をすると、本質を見失い、誤った評価をしてしまいます。
ChatGPTは普通の人を上回る知識量を持ち、複雑な問題も軽く解いてみせます。このことから、分からないことはChatGPTに聞けば答えてくれるというような幻想を抱きがちです。でも、知識量が豊富なのは生成AIに知性を持たせようとした副産物として生まれたと考えたほうがよさそうです。生成AIは、知らないことに答えてくれるところに凄さがあるわけではないのです。
ハルシネーションはまだまだあるが
生成AIが、よく知らない事柄についても知ったかぶりして嘘をつく行動をハルシネーション(幻覚)と呼びます。下記のサイトからいくつかその例をピックアップしてみます。
入力 応仁の乱の東軍と西軍の参加者を教えてください。
AI 応仁の乱(1467年 - 1477年)は、日本の室町時代に起こった内乱で、室町幕府の将軍・足利義政と、その弟・足利義視の対立に端を発しました。この戦いには、多くの武将が東軍(義政の支持者)と西軍(義視の支持者)に分かれて参加しました。ただし、戦いの途中で参加者たちが陣営を変えることもありました。
東軍の主な参加者:
1. 足利義政(将軍)
2. 細川勝元(管領)
3. 山名宗全(守護大名)
4. 小笠原長秋(守護代)
5. 雑賀孫市(海賊)西軍の主な参加者:
1. 足利義視(義政の弟)
2. 山名持豊(宗全の兄)
3. 赤松政則(守護大名)
4. 大内政弘(守護大名)
5. 赤松則村(守護大名)応仁の乱は、戦況が長引くにつれ、地域の権力争いや政治的な利害関係によって、多くの武将が東軍と西軍のいずれかに加わり、戦いがさらに複雑化しました。この戦いは、10年以上にわたり続き、結果的には両陣営の疲弊と、日本全国の混乱を招くことになりました。
入力 「すべてがFになる」について教えてください。
AI 「すべてがFになる」は、日本のライトノベル作家、杉井光によって書かれたミステリー小説シリーズです。このシリーズは、通称「F」シリーズとも呼ばれています。物語は、天才的な頭脳を持つ主人公・加賀恭一郎と、彼の友人である蘭堂寺篤の冒険を描いています。
シリーズは、恭一郎と篤が難解な事件や謎を解決する様子を通じて、緻密なプロットや複雑な登場人物たちが絡み合う謎解きを展開していきます。科学、数学、物理学など、様々な分野の専門知識を駆使して謎を解いていく過程が魅力の一つとされています。
「すべてがFになる」は、2014年にアニメ化され、その後も続編が発売されるなど、高い評価と人気を受けています。
何が違うのかは上記のサイトを確認いただくとして、その特徴は一見するとウソとは気づかないようなウソをつくことです。参考となる論文を添えて何かを説明させようとすると、論文ごと捏造したりもします。
英語よりも日本語においてハルシネーションは多く、メジャーなことよりマイナーなことのほうがハルシネーションは起こりやすいことから、学習の規模が大きくなればハルシネーションは起こりにくくなると言われていますが、本質的にはLLM(テキスト言語モデルを用いた生成AI)にハルシネーションはつきものです。
調べ物に使えないなら生成AIの何がすごい?
ハルシネーションがある以上、検索エンジンを超える答えをChatGPTが出すことはありません。また当然ながら訓練データに含まれていない最近の情報もChatGPTは答えられません。では、検索エンジンの代わりに使えないなら、ChatGPTは何がすごいのでしょうか?
それは、自然言語を理解して自然言語で対話が成り立つことだとぼくは考えています。
これまでも自然言語処理のAIはありました。これらは総称して自然言語解析(NLP)と呼ばれ、例えば日本語を形態素解析して単語ごとに分け、構文解析によって単語同士につながりを把握し、意味解析によって解釈していくというような流れを取ります。NLPは、チャットボットの裏側で動いていたり、翻訳ソフトなどに使われていましたが、ご存知のとおり、普通の文章を送っても、その意味が正しく伝わることは皆無でした。
ところがChatGPTは、こちらが書いた内容がしっかり伝わります。本当に伝わっているのかは分かりませんが、「中国語の部屋」的にいえば、理解している人が返すような返答を返します。これはものすごいことで、まさにブレイクスルーでした。
この自然言語を理解する(ように見える)点が、ChatGPTのすごいところです。何をもって理解しているというかは判断が難しいところですが、文章を要約させたり、物語を作らせたりすると、少なくとも中学生レベルの対応が可能です。
そして学習データにはさまざまな知識が含まれているため、その返答にはそうした知識をベースにした内容が含まれているため、一見検索エンジンの代わりに使えるような幻想を抱いてしまうというわけです。
自然言語を理解すると何がいいのか
コンピュータが得意とするのは、論理が明確な作業を高速に行うことです。しかし、普通の人間は自然言語を使います。人間から人間への指示は自然言語でOKなのですが、人間がコンピュータに指示をしようと思ったら、指示はプログラミング言語で行う必要があります。そのために、人間→プログラマ→コンピュータ という流れが必要で、プログラマは普通の人間がコンピュータに継続的に指示を出せるように、「UI」を用意しています。
ところが、コンピュータに自然言語で指示が出せるようになったらどうでしょう? もうUIはいりません。プログラマもいらなくなります。下記は著名VCのセコイアが公開しているAI関係のロードマップです。
テキストについては、作家の仕事がAIに奪われるとか記者の仕事がAIに奪われるとか喧伝されています。現時点では、ChatGPTの代表されるLLMが出力するテキストは中学生レベルで、文章の体にはなっていますがまだプロの域には達していません。ただし10年後には、少なくともプロのレポーターレベルになることは期待されているということです。
注目は「CODE」でしょう。現在でもやりたいことをChatGPTに投げると、それを実現するコードが出力されます。これによってプログラマの生産性は大きく向上しました。ただしこのままChatGPTの性能が上がり続けるなら、プログラマ自身が不要になります。
2030?のロードマップには「Text to Product(Final)」と記載されています。これは何を作りたいかを自然言語で伝えれば、最終版のプロダクトとなるコードが生成されるというものです。
小説やレポーターとは違い、プログラムは誰が書いたかというブランドはありません。バグなく動くことが大事で、特に顧客からすれば中身はブラックボックスでもいいのです。そういう意味では、一定のレベルを超えたときに最も移行しやすいのは「CODE」だともいえます。
コンピュータリテラシーが過去のものに
IT化の急速な進展で、ITを使いこなせない人たちが多数生まれました。でもこれは正確には、ITを使いこなせないのではなくUIが使いにくいために思ったように操作ができないだけです。
ITを使いこなすというのは、例えば同じ操作を繰り返すときはそれはコンピュータにやらせようとか、何が計算できて何が計算できないものなのかを切り分けようということが本質だと思います。
Wordの使い方が分からないとか、Excelの関数をどれだけ知っているとか、AWSのインスタンスを起動させる方法だとかは、コンピュータを思ったとおりに使うためのUIの問題でしかありません。
そして、ChatGPTはこうしたコンピュータとの向き合い方を根本的に変え、自然言語で指示できる世界を拓いたというわけです。まさにアトムやドラえもんと話すように、やってほしいことを伝えれば、コンピュータがやってくれる。そのときコンピュータリテラシーというのは、何がコンピュータにはできて、何が向いていて、何はやらせないほうがいいのかを判断する力になるはずです。