OpenAIがマルチモーダルAIデジタルアシスタントを発表へ

The Informationの最近の報道によると、OpenAIは新しいマルチモーダルAIモデルを一部の顧客に披露しており、これは月曜日に予定されている同社の発表の一部である可能性があります。

画像・音声解釈の強化

新モデルを見た無名の情報筋によると、OpenAIの既存の個別の文字起こしモデルや音声合成モデルと比較して、画像や音声の解釈をより速く正確に行うことができるそうです。

このモデルは、イントネーションや皮肉など、通話相手の声のニュアンスをエージェントがよりよく理解するのに役立つ可能性があります。

さらに、このモデルは、数学の問題を解く学生を支援したり、実世界の標識を翻訳したりできる可能性があり、さまざまな領域での汎用性が実証されています。

このモデルはGPT-4ターボよりも特定のタイプの質問に答えることができると言われていますが、時には自信を持って間違った情報を提供する傾向があります。

チャットGPT電話機能の可能性

マルチモーダルAIモデルに加えて、OpenAIは電話をかけるための新しい組み込みChatGPT機能を導入する準備をしている可能性があります。

開発者のAnanay Aroraは、通話機能に関連するコードと、OpenAIがリアルタイムの音声とビデオ通信用のサーバーをプロビジョニングしている証拠を発見しました。この開発により、AIを搭載したバーチャルアシスタントやカスタマーサポートの新たな可能性が開けるかもしれません。

GPT-5ではありませんが、それでも重要です。

今度の発表がGPT-4の後継として期待されているGPT-5に関連する可能性が低いことに注意することが重要です。

OpenAIのCEOであるSam Altman氏は、GPT-4より “大幅に良くなる “と期待されているモデルとは関係ないと明言しています。本情報によると、GPT-5は年内に公開される可能性があります。

AI業界への影響

Altman氏は、同社がAIを搭載した新しい検索エンジンを発表することも否定していますが、マルチモーダルAIデジタル・アシスタントの発表の可能性は、AIの状況に大きな影響を与える可能性があります。

例えば、GoogleはAIを搭載した電話をテストしており、”Pixie “と呼ばれるマルチモーダルなGoogleアシスタントの代替に取り組んでいると噂されています。Pixieは、デバイスのカメラを通して物を見て、それを購入するための道順を示したり、使い方の説明を提供したりすることができると言われています。

OpenAIの発表が、もし本当にマルチモーダルAIモデルや電話機能を含むものであれば、Googleのような競合他社が自社のAI開発を加速させるプレッシャーになるかもしれません。

より高度で多機能なAIアシスタントの開発競争が過熱するにつれて、消費者はこれらの最先端技術を活用した革新的なアプリケーションやサービスの新しい波を目にすることが期待できます。

まとめ

OpenAIのマルチモーダルAIデジタルアシスタントが発表される可能性は、AIコミュニティーに大きな興奮と憶測をもたらしました。
画像や音声の通訳機能が強化され、電話機能も内蔵される可能性があるこの新モデルは、カスタマーサービスから教育まで、さまざまな業界に広範囲な影響を与える可能性があります。

OpenAIの今後の発表の詳細がどうであれ、確かなことが一つあります。それは、私たちとテクノロジーとの関わりを再定義する、インテリジェントなマルチモーダルデジタルアシスタントの新時代が到来しようとしているということです。

(Via The Information.)