手書きの数式の問題を映像としてChatGPTに見せている
音声と視覚を備えて“自然な対話”可能に
2024年05月14日 更新
[ITmedia]
米OpenAIは5月13日(米国時間)、生成AI「GPT」の新たなモデル「GPT-4o」を発表した。
テキストはもちろん、音声や画像、映像での入力、音声での応答に対応し、アプリ版の「ChatGPT」ではユーザーと自然に対話できるようになった。
開発者向けにAPIとして提供する他、同日からChatGPT内で利用できるように展開を始める。
GPT-4oは無料ユーザーでも利用可能になる。ChatGPTでは従来、無料ユーザーが使えるモデルは「GPT-3.5」までで、「GPT-4」を利用するには課金する必要があった。ただし、有料のChatGPT Plusユーザーは時間当たりのメッセージやり取り可能回数が無料ユーザーに比べて5倍に緩和される。企業向けのTeamやEnterpriseユーザーはさらに制限が緩和されるとしている。
同社は発表会のライブデモで、GPT-4oを搭載したiOS版ChatGPTと対話する様子を配信。
音声での質問や投げかけに対し自然なテンポで流暢に応答する様子や、その場で人間が紙に書いた簡単な数式の問題を映像としてChatGPTに見せて、ChatGPTが問題を正しく解く様子などをプレゼンした。こうした音声モードは、これから数週間以内にアルファ版でリリースした後にPlusユーザー向けに早期アクセスを提供する予定としている。
Mac向けのデスクトップアプリも今回発表。デスクトップ上に表示したプログラミングのコードやグラフをChatGPTが受け取り、その内容を解釈する様子も示した。
ChatGPTのMac向けデスクトップアプリ。プログラミングコードを渡して内容を解説させている
画面自体をChatGPTに見せることでグラフを解釈させることもできる
各生成AIのレーティング表(サム・アルトマン氏の投稿より引用)。GPT-4o(gpt2-chatbot)が他の生成AIに大きな差をつけて1位を記録している
コーディングではさらに大きな差をつけている
OpenAIのメンバーであるウィリアム・フェダスさんはこれらの結果から「これ(GPT-4o)は世界最高のモデルであるだけでなく、ChatGPTで無料で利用可能になる。これは最先端のモデルとしては前例のないことだ」とXに投稿した。
APIの価格は100万トークン(トークンは概ね単語数の意味)の入力当たり5ドルで、100万トークンの出力当たり15ドル。
これらは従来の「GPT-4 Turbo」に比べ半額となる。また、GPT-4oはGPTに比べ応答速度も2倍早いとしている。APIはすでに利用可能だ。
Copyright © ITmedia, Inc. All Rights Reserved.
※ メール・BLOG の転送厳禁です!! よろしくお願いします。
コメントをお書きください