Apple、画像編集のための革命的なAI「MGIE」を発表

Apple、画像編集のための革命的なAI「MGIE」を発表

画期的な動きとして、Apple は「MGIE」という名前のオープンソース AI モデルを一般公開し、画像編集の新時代の到来を告げました。

MGIE は、MLLM-Guided Image Editing の略で、マルチモーダル大規模言語モデル (MLLM) の力を利用して、自然言語編集命令を理解して実行します。 この革新的なモデルは、詳細なピクセルレベルの調整を実行でき、Photoshop スタイルの微調整から包括的な写真の補正や対象を絞った変更まで、幅広い編集ニーズに対応します。

MGIEは、Appleとカリフォルニア大学サンタバーバラ校の研究者たちとのコラボレーションです。このモデルは、AI研究のトップ会議の一つであるInternational Conference on Learning Representations (ICLR) 2024で受け入れられた論文で紹介されました。

この論文は、MGIEが自動評価と人間の評価の両方を向上させる効果を示し、同時に競争力のある推論効率を維持していることを示しています。

MGIEが画像編集をどのように強化するか

MGIEは、テキストと画像の両方を処理できる強力なAIモデルであるMLLMsを使用して、指示ベースの画像編集を強化するという考えに基づいています。MLLMsは、クロスモーダルな理解と視覚的に意識したレスポンス生成において顕著な能力を示していますが、画像編集タスクに広く適用されているわけではありません。


MGIEは、画像編集プロセスにMLLMsを2つの方法で統合します。まず、MLLMsを使用して、ユーザーの入力から表現力豊かな指示を導き出します。これらの指示は簡潔で明確であり、編集プロセスのための明確なガイダンスを提供します。

例えば、「空をもっと青くして」という入力に対して、MGIEは「空の領域の飽和度を20%増加させる」という指示を生成することができます。

次に、MLLMsを使用して視覚的想像力、つまり望ましい編集の潜在的な表現を生成します。この表現は編集の本質を捉え、ピクセルレベルの操作をガイドするために使用されます。

このプロセスは、指示の作成、視覚的想像力、実際の画像編集を同時に最適化する革新的なトレーニング アプローチによって合理化されます。

MGIEの機能

XでAllen T(@Mr_AllenT)氏がデモを公開しています

MGIEは、単純な色調整から複雑なオブジェクト操作まで、幅広い編集シナリオを扱うことができます。このモデルは、ユーザーの好みに応じて、グローバル編集とローカル編集の両方を実行することもできます。MGIEの特徴と能力には以下のものがあります:

  • 表現力豊かな指示ベースの編集:MGIEは、編集プロセスを効果的にガイドするための簡潔で明確な指示を生成することができます。これは、編集の品質を向上させるだけでなく、全体的なユーザー体験を向上させます。
  • Photoshopスタイルの修正:MGIEは、切り取り、サイズ変更、回転、反転、フィルターの追加など、一般的なPhotoshopスタイルの編集を実行することができます。このモデルは、背景の変更、オブジェクトの追加または削除、画像のブレンドなど、より高度な編集も適用することができます。
  • 全体的な写真の最適化:MGIEは、明るさ、コントラスト、鮮明さ、色のバランスなど、写真の全体的な品質を最適化することができます。このモデルは、スケッチ、ペインティング、カートゥーニングなどの芸術的効果も適用することができます。
  • ローカル編集:MGIEは、画像内の特定の領域やオブジェクト(顔、目、髪、服、アクセサリーなど)を編集することができます。このモデルは、これらの領域やオブジェクトの属性(形、サイズ、色、テクスチャ、スタイルなど)も変更することができます。

MGIEの使用方法

MGIEは、GitHub上のオープンソースプロジェクトとして利用可能で、コード、データ、および事前トレーニング済みのモデルを提供しています。プロジェクトには、さまざまな編集タスクにMGIEを使用する方法を示すデモノートブックも含まれています。

ユーザーは、Hugging Face SpacesにホストされているWebデモを通じて、MGIEをオンラインで試すこともできます。Hugging Face Spacesは、機械学習(ML)プロジェクトを共有および協力するためのプラットフォームです。

Hugging Face MGIE.

MGIEは、使いやすく、カスタマイズが柔軟に行えるように設計されています。ユーザーは、自然言語の指示を提供して画像を編集し、MGIEは編集された画像と導出された指示を生成します。

ユーザーは、編集を洗練させたり、異なる編集をリクエストするために、MGIEにフィードバックを提供することもできます。MGIEは、画像編集機能が必要な他のアプリケーションやプラットフォームにも統合することができます。

MGIEの重要性

MGIEは単なる技術的な驚異ではなく、AIと人間の創造性を融合させた指示ベースの画像編集における極めて重要な開発です。MGIEは、MLLMsを使用して画像編集を強化する可能性を示し、クロスモーダルな相互作用とコミュニケーションの新しい可能性を開きます提供します。

MGIEは、研究成果だけでなく、ソーシャルメディア、電子商取引、教育、娯楽、アートなど、個人的または専門的な目的で画像を作成、変更、最適化するための実用的で有用なツールでもあります。MGIEは、ユーザーが画像を通じて自分のアイデアや感情を表現し、創造性を探求することを促すことができます。

Appleにとって、MGIEは同社のAI研究および開発における成長する力を強調しています。消費者技術の巨人は、近年、機械学習の能力を急速に拡大しており、MGIEはAIが日常の創造的なタスクを強化する方法を示す最も印象的なデモンストレーションかもしれません。

MGIEは大きな進歩を代表していますが、専門家は多モーダルAIシステムを改善するためにまだ多くの作業があると言っています。しかし、この分野の進歩のペースは急速に加速しています。MGIEのリリースをめぐる大きな注目が何かを示しているとすれば、このタイプの支援AIが間もなく不可欠な創造的なパートナーになるかもしれません。

(Via Venture Beat.)


LEAVE A REPLY

*
*
* (公開されません)