おがわの音♪ バックナンバー · 2024/05/17

おがわの音♪　第1579版の配信

人間に近づいた｢GPT-4o｣3つの進化のポイント

GPT-4oを紹介するOpenAIのミラ・ムラティCTO（写真：OpenAIのストリーミングより）

あえて人間っぽくした？広がる｢擬人化トレンド｣

～生成AI第2幕の行方

小林雅一 : KDDI総合研究所リサーチフェロー

2024年05月15日

「私にとって魔法のようだ」ーー。サム・アルトマンCEOがそう予告していた新たなサービスがベールを脱いだ。

アメリカのOpenAIは5月13日、ChatGPTから使える新たな生成AIモデル「GPT-4o（フォー・オー）」を発表した。

このAIの「知能」はこれまでのGPT-4と基本的に同じだが、応答時間を大幅に短縮するなど「使い易さ」で進化したという。

有料のGPT-4とは対照的にGPT-4oは無料ユーザーでも利用できるが、時間当たりの利用回数などが有料ユーザーに比べて制限される。無料化によってなるべく多数の利用者に使ってもらうことでChatGPTのユーザーベースを拡大し、飛躍的な進化が期待される次世代モデル「GPT-5」（まず間違いなく有料化される）のリリースに向けて足場を固めようとしている意図がうかがえる。本稿では3つの「進化のポイント」に解説したい。

従来より「自然な会話」ができるように

その1：応答速度と使い勝手（UI：User Interface）の向上

今回の改良（GPT-4o）では特にスマホやタブレットからの利用を想定し、ChatGPTのようなAIと音声でチャットする際の応答時間を大幅に短縮した。

OpenAIの発表によれば平均で0.3秒程度とされる。

またAIが話している最中にユーザーが割って入り、突如話題を変えたり新しいリクエストを出したりすることもできる。

こうした工夫により、従来よりも自然で自由な会話ができるようになったという。

さらに2人のユーザーの間でAIが英語とイタリア語などの異なる言語を同時通訳するデモ動画が公開されるなど、より多彩な利用シーンを想定している。

現時点で日本語を含む50種類の言語に対応しているという。

その2：ネイティブなマルチモーダル（多メディア対応）機能

テキストや画像、音声など多彩なコンテンツ（メディア）を理解して処理することができる。

例えばスマホで撮影された映像に何が映っているかをAIが認識し、それによって視覚障害者に適切なアドバイスをするデモ動画が公開されている。

また自撮り写真をアップロードすると、それを基にしてAIが似顔絵（イラスト）を描いてくれたりもする。

ちなみに「GPT-4o」のoは、本来ラテン語で「全て」を意味する「omni（オムニ）」に由来するという。

特に今回の場合はテキスト、動画、音声など「すべてのコンテンツ」という意味であろう。

このようにさまざまなコンテンツを処理するマルチモーダル機能は、従来のGPT-4にも用意されていたが、それは各々のコンテンツに対応する複数のソフトウエアモジュールを後からつぎはぎする形で提供されていた。

これに対しGPT-4oは最初からシングルモジュールとして開発されたので、異なる種類のコンテンツをより高速かつスムーズに処理できるようになったという。

AI側でも感情表現ができるように

その3：感情を理解し表現することで人間に近づく

GPT-4oでは、人と自然な会話ができるだけでなく、ユーザー（人間）の感情を読み取り、その気持ちや心理状態に配慮した返答や対応ができるようになった。その一環でもあるが、当然AIの側でもある程度の感情表現が可能になったという。

例えば以下のデモ動画では、自信なさそうに数学の宿題を解こうとする子供をAIが親切にアシストする様子が紹介されている。

直角三角形の正弦関数（sinθ）を計算する問題で、子供が「斜辺」と「底辺」を混同したときに、AIは「それは間違い」などと無神経に指摘するのではなく、「うーん、近い」という表現で子供のやる気を促し、最終的に正解へと導く様子が撮影されている。

このようにAIが人間の感情を理解すると同時に自分でも感情を表現できるようになることは、専門家の間で（AIの）「擬人化（anthropomorphization）」と呼ばれている。

こうした傾向には実は一長一短がある。

擬人化の長所は前出のデモ動画で紹介したような、ユーザーの心理状態に寄り添ったきめ細かいAIサービスが可能になること。

逆に短所は、ユーザーがAIを本物の人間と錯覚して気を遣ったり、気味の悪い思いをしたり、最悪の場合はAIに騙されたり悪事を唆（そそのか）されたりすることだ。

実際、ベルギーやイギリスでは擬人化されたAIと恋に落ちたユーザー（いずれも男性）がAIにそそのかされて自殺したり、（生前の）エリザベス女王の暗殺を企てて（女王の週末の住居）ウィンザー城の敷地に侵入したりするなど、嘘のような本当の事件がすでに起きている。

このためグーグルやマイクロソフトなどの巨大IT企業は、これまで「AIは（どれほど巧妙に作られていても）所詮ツールに過ぎず、決して人間ではない」と強調するなど擬人化には意図的に距離を置いてきた。

AIの擬人化は危険だが避けて通れない課題

しかしOpenAIは今回そうした前例に反して、あえてAIを人間に近づける方向に舵を切ったと見ることができる。

またメタも最近、フェイスブックやインスタグラムなど傘下のソーシャルメディア上で人気タレントやスポーツ選手などに似せたAIキャラクターを提供するなど、擬人化のトレンドは徐々に広がりつつある。

オープンAIのサム・アルトマンCEO

こうした擬人化は、OpenAIが最終目標とする「AGI（Artificial General Intelligence：人工汎用知能）」を実現する上で避けて通れない道かもしれない。

AGIの厳密な定義は存在しないが、一般には「人類を凌ぐ高度な知能を備えたAI」と捉えられている。

「人類をしのぐ」とは、つまり「神に近づく」ということになるが、そんなスーパーAIが「単なるツール」という位置付けでは済まないだろう。やはり相応の人格形成は必要となるであろうが、それは（前掲のいくつかの事件などを防止するため）拙速にではなく徐々に慎重に成し遂げられる必要がある。今回の「GPT-4o」に見られる擬人化はそこに向けた第一歩ということになりそうだ。