AppleのAIブレイクスルー：オンデバイス言語モデリングにおいてReALMがGPT-4を凌駕

2 Apr 2024

0584 PV約4分

AppleのAIブレイクスルー：オンデバイス言語モデリングにおいてReALMがGPT-4を凌駕

はじめに

AppleのAI研究者は、画期的な研究論文の中で、Siriのようなバーチャルアシスタントがユーザーと対話する方法に革命をもたらす可能性のあるReALM（Reference Resolution As Language Modeling）と呼ばれる新しいシステムを発表しました。

この革新的なアプローチは、ユーザーの画面に表示されているものだけでなく、アクティブなタスクやバックグラウンドプロセスも考慮し、よりコンテキストを意識した効率的なユーザー体験を可能にします。

ReALMのパワー

1. 画面上の存在

ReALMは、ユーザーの画面上に表示されている実体を認識し、理解することができます。
これにより、バーチャルアシスタントは、視覚的なコンテキストに基づいて、より正確で適切な情報を提供することができます。

2. 会話の履歴

システムは、ユーザーとバーチャルアシスタント間の過去の会話で言及された実体を追跡することができます。
例えば、ユーザーが「ママに電話して」と言った場合、ReALMは以前の対話から関連する連絡先情報を特定することができます。

3. バックグラウンドのプロセス

ReALMは、アラームや音楽再生などのバックグラウンドプロセスから発生する実体を考慮することができます。
これにより、バーチャルアシスタントは、画面上に直接表示されないイベントや、現在の会話の一部に適切に対応することができます。

ChatGPTに対するベンチマーク

ReALMのパフォーマンスを評価するために、Appleの研究者はOpenAIのChatGPT 3.5とChatGPT 4.0と比較しました。その結果は印象的でした：

ReALMの最小モデルはGPT-4に匹敵する性能を達成しました。
Apple社の大型モデルはGPT-4を大幅に上回り、システムの有効性が実証されました。
画面上の参照解像度については、ReALMは同様の機能を持つ既存のシステムと比較して5%以上の絶対的な利得を得ました。

オンデバイス機能

ReALMの主な利点の1つは、性能を損なうことなくオンデバイスで動作する能力です。これは、ユーザーのプライバシーを優先し、クラウドベースの処理への依存を最小限に抑えようとしているAppleにとって特に重要です。

ReALMをユーザーのデバイス上で直接実行することで、Appleは高いレベルのパフォーマンスを維持しながら、より速い応答時間と待ち時間の短縮を保証することができます。

Siriの未来

ReALMの開発は、AppleのAI機能の大きな前進を意味します。同社がこの技術を洗練させ、バーチャルアシスタントであるSiriに統合し続けることで、ユーザーはより直感的で、コンテキストを認識し、役立つ体験を期待できるようになります。

画面上の存在、会話の履歴、バックグラウンドのプロセスを理解する能力により、Siriはユーザーのタスクを支援し、必要なときに適切な情報を提供できるようになります。

まとめ

AppleのReALMシステムは、バーチャルアシスタントと言語モデリングの新しい基準を打ち立てる可能性を秘めています。
GPT-4のような業界ベンチマークを凌駕し、オンデバイス機能を提供することで、ReALMは、Siriやその他のAI搭載アシスタントの、よりスマートで効率的、かつプライバシー重視の未来への道を開きます。
AppleがAI技術の革新と限界への挑戦を続ける中、ユーザーは、来たるiOS 18とWWDC 2024から始まる、より強化されたより自然なデバイスとの対話に期待することができます。

(Via 9to5Mac.)