テキストから画像へ:Stability AIの「Stable Diffusion XL 1.0」が新たな道を切り開く

テキストから画像へ:Stability AIの「Stable Diffusion XL 1.0」が新たな道を切り開く

Stable Diffusion XL 1.0をローンチ

AIスタートアップのStability AIは、増加する競争と倫理的な課題に直面しながら、その生成AIモデルを継続的に洗練しています。

今日、Stability AIはStable Diffusion XL 1.0のローンチを発表しました。これは、同社がこれまでで「最も先進的な」リリースと説明するテキストから画像へのモデルです。StabilityのAPIと消費者向けアプリに加えて、GitHubのオープンソースでも利用可能です。

Stability の API とコンシューマー アプリであるClipDropおよびDreamStudioに加えて、GitHub のオープン ソースで入手できるStable Diffusion XL 1.0 は、前バージョンと比較して「より鮮やか」で「正確な」色、より優れたコントラスト、影、照明を提供すると Stability は主張しています。

TechCrunchとのインタビューで、Stability AIの応用機械学習の責任者であるJoe Penna氏は、3.5億のパラメータを含むStable Diffusion XL 1.0は、複数のアスペクト比で「数秒」で完全な1メガピクセル解像度の画像を生成できると指摘しました。

「パラメータ」は、訓練データから学習されたモデルの部分で、この場合、画像を生成する問題に対するモデルのスキルを基本的に定義します。前世代のStable Diffusionモデル、Stable Diffusion XL 0.9も高解像度の画像を生成することができましたが、より多くの計算力を必要としました。


「Stable Diffusion XL 1.0は、概念とスタイルの微調整に適しており、基本的な自然言語処理のプロンプトで複雑なデザインが可能です」とPenna氏は述べています。また、Stable Diffusion XL 1.0は、テキスト生成の領域でも改善されています。

最高のテキストから画像へのモデルの多くは、ロゴの読みやすさ、ましてやカリグラフィーやフォントを生成することに苦労していますが、Stable Diffusion XL 1.0は「先進的な」テキスト生成と読みやすさが可能であるとPenna氏は述べています。

また、SiliconAngleVentureBeatが報告したように、Stable Diffusion XL 1.0 は、インペイント (画像の欠落部分の再構築)、アウトペイント (既存の画像の拡張) および「画像から画像へ」プロンプトをサポートしています。

つまり、ユーザーは画像を入力してテキストを追加できます。その画像のより詳細なバリエーションを作成するように求められます。さらに、以前の安定拡散モデルでは長いテキスト プロンプトが必要であったのに対し、このモデルは短いプロンプトで与えられる複雑な複数の部分からなる指示を理解します。

Stable Diffusion XL 1 0 02

Stable Diffusion XL 1.0 によって生成された画像


しかし、Stable Diffusionの以前のバージョンと同様に、このモデルは棘のある道徳的問題を提起します。Stable Diffusion XL 1.0のオープンソース版は、理論的には、悪意のある行為者が非合意のディープフェイクのような有害または有害なコンテンツを生成するために使用することができます。これは、訓練に使用されたデータ、つまりウェブ全体からの何百万もの画像の反映部分です。

Stable Diffusion XL 1.0の訓練セットには、Stability AIを含む企業がその作品を生成AIモデルの訓練データとして使用することに抗議しているアーティストの作品も含まれています。Stability AIは、少なくとも米国では公正使用の原則により法的責任から免除されていると主張しています。

しかし、それはいくつかのアーティストやストックフォト会社のGetty Imagesがこの慣行を停止するために訴訟を起こすのを阻止していません。

Stable Diffusion XL 1.0のリリースと同時に、Stability AIはAPIのベータ版でファインチューニング機能をリリースしており、これによりユーザーは5枚の画像だけを使用して特定の人々や製品などに「特化」した生成を行うことができます。また、同社はStable Diffusion XL 1.0をBedrock、Amazonの生成AIモデルのホスティングプラットフォームにも持ってきています。これは、以前に発表されたAWSとのコラボレーションを拡大するものです。

パートナーシップと新機能の推進は、Stabilityが商業的な取り組みで停滞を経験している中で行われています。OpenAI、Midjourneyなどからの厳しい競争に直面しています。


4月には、Semaforが報告したように、これまでに1億ドル以上のベンチャーキャピタルを調達しているStability AIは、現金を燃やしていました。これは、6月に2,500万ドルの転換可能ノートのクロージングと、セールスを加速するためのエグゼクティブハントを促しました。

「最新のSDXLモデルは、Stability AIの革新的な遺産と、最先端のオープンアクセスモデルをAIコミュニティの市場に提供する能力の次のステップを表しています」と、Stability AIのCEOであるEmad Mostaque氏はプレスリリースで述べています。

1.0をAmazon Bedrockで発表することは、開発者とクライアントに最高のソリューションを提供するためにAWSと共に働くという強いコミットメントを示しています。

(Via /Tech Crunch.)


LEAVE A REPLY

*
*
* (公開されません)