Google I/O 2024で発表された注目のAI技術
Googleは今年のI/Oデベロッパーカンファレンスで、AIに全力を注いでいることを強調しました。「AI」という言葉が120回以上も言及されたのです。しかし、すべての発表が重要というわけではありませんでした。そこで、特に注目すべき新しいAI製品や機能のまとめです。
AIによる検索結果の生成
新しい検索ページの形
Googleは生成AIを使って、Google検索結果ページ全体を整理する計画を発表しました。これは検索クエリによって異なりますが、AI生成のレビューの要約やソーシャルメディアのディスカッション、提案のリストなどが表示される可能性があります。
具体的な利用シーン
例えば、旅行の計画をしているときや、レストランの選択やレシピの検索を行うときなど、ユーザーがインスピレーションを求めているときに、AI強化された結果ページを表示します。将来的には映画、書籍、ホテル、eコマースなどの検索にも対応する予定です。
Gemini LiveとProject Astra
Geminiの進化
GoogleはAIチャットボット「Gemini」を改良し、より高度な理解力を持たせました。新しい「Gemini Live」体験は、スマートフォンでGeminiと「深い」音声チャットを楽しむことができます。
インタラクティブな機能
ユーザーは話している途中でGeminiに質問を挟むことができ、リアルタイムで話し方に適応します。また、スマートフォンのカメラで撮影した写真やビデオを通じて周囲の環境に応じて応答します。Gemini Liveは、ユーザーがいる場所や壊れた自転車の部品の名前などについて質問に答えることができます。
Project Astraの役割
この技術革新は、リアルタイムでの多モーダルな理解を目指すDeepMindの新プロジェクト「Project Astra」から生まれました。
Google Veo
Veoの機能
GoogleはOpenAIのSoraに対抗するため、テキストプロンプトを与えると1分程度の1080pビデオクリップを作成できるAIモデル「Veo」を開発しました。Veoは、風景のショットやタイムラプスなど、さまざまなビジュアルスタイルやシネマティックスタイルを捉えることができ、すでに生成された映像の編集や調整を行うことができます。
具体的な使用例
例えば、「パン」、「ズーム」、「爆発」といった指示でカメラの動きやVFXを理解し、現実的な動画を生成します。さらに、特定のエリアの編集や静止画像からの動画生成も可能です。
Veoはまた、ビデオの特定の領域を変更するためのマスク編集をサポートしており、Stability AIのStable Videoのような生成モデルを使って静止画像からビデオを生成することができます。おそらく最も興味深いのは、ストーリーを語るプロンプトのシーケンスを与えると、Veoは1分以上の長いビデオを生成できることです。
Ask Photos
Google Photosの進化
Google Photosに新しい実験的な機能「Ask Photos」が登場します。これはGeminiファミリーの生成AIモデルによって支えられています。
自然言語検索
この機能を使うと、写真コレクションを自然言語で検索できます。例えば、「訪れた国立公園ごとにベストな写真を見つけて」といった複雑な検索が可能です。Geminiは照明や背景のぼやけ具合、ジオロケーション情報や日付を基に最適な写真を選び出します。
GeminiによるGmailの強化
メールの整理と要約
Gmailのユーザーは、Gemini のおかげで、メールの検索、要約、下書きができるようになります。また、返品処理の手伝いなど、より複雑なタスクのためにメールに対してアクションを起こすこともできるようになります。
I/O のデモでは、親が学校から届いた最近のメールをすべて要約するよう Gemini に頼むことで、子供の学校で何が起こっているのかを把握できる様子が紹介されました。Gemini は、メール本文に加えて PDF などの添付ファイルも分析し、要点とアクションアイテムを含む要約を吐き出します。
自動化されたワークフロー
Gmail のサイドバーから、ユーザーは Gemini にメールからレシートを整理して Google Drive のフォルダに入れたり、レシートから情報を抽出してスプレッドシートに貼り付けたりするよう頼むことができます。これが頻繁に行うことであれば(例えば、出張費を追跡するビジネス旅行者として)、Gemini は将来的にワークフローを自動化することも提案してくれます。
電話中の詐欺検出
詐欺警告機能
Googleは、通話中に詐欺の可能性を警告するAI機能をプレビューしました。この機能は、Gemini NanoというGoogleの生成AIの最小バージョンを使用します。
プライバシー配慮
この機能はオプトイン(任意参加)であり、会話のパターンをリアルタイムで監視して詐欺の可能性を検出しますが、音声がクラウドに自動的にアップロードされないため、プライバシーリスクは軽減されます。
アクセシビリティのためのAI
TalkBackの強化
Googleは、視覚障害者向けのAndroidのアクセシビリティ機能「TalkBack」に生成AIを導入します。これにより、画像の説明を音声で提供することができます。
実用例
例えば、TalkBack は服の記事を次のように説明するかもしれません。「黒と白のギンガムチェックのドレスのクローズアップ。ドレスは襟付きの長袖の短いドレスで、大きなリボンで腰で結ばれています。」
Google によると、TalkBack ユーザーは 1 日に約 90のラベルの付いていない画像に遭遇するそうです。Nanoを使用することで、このシステムはコンテンツについての洞察を提供することができ、誰かがその情報を手動で入力する必要性を無くすことができるかもしれません。
まとめ
検索結果の整理、Geminiの強化、Veoによるビデオ生成、Ask Photosによる写真検索の高度化、GmailへのAI統合、通話中の詐欺検知、アクセシビリティ機能の向上など、幅広い分野でAIが活用されています。
これらの新機能は、ユーザーにとってより便利で魅力的なサービスを提供するだけでなく、プライバシーやセキュリティにも配慮されているようです。
(Via Tech Crunch.)
LEAVE A REPLY