OpenAIのテキストからビデオへのAIモデル「Sora」は、今年後半に利用可能に

Soraへの序章、創造性の新時代

Dall-EやChatGPTのような画期的なイノベーションの後、OpenAIは最新の驚異であるSoraで再び世界の注目を集めました。

約1ヶ月前に発表されたSoraは、先駆的なテキストからビデオへの生成AIアプリケーションです。この画期的なツールは、シンプルなテキスト入力を魅力的な動画に変換する機能を備えており、単なる文章から画像を作り出すDall-Eの能力に匹敵します。

単なるショーケースではありません、一般公開への道

Soraのデモが話題を呼んだにもかかわらず、そのデビューは一般利用を意図したものではありませんでした。当初、OpenAIはSoraをレッド・チーム・ネットワーク（リスクに対する理解を深め、緩和戦略を開発することに専念する熟練した専門家からなるコンソーシアム）への独占的なプレビューとして発表しました。

OpenAIのMira Murati氏は最近のインタビューで、Soraは年内に一般公開される予定であり、2024年のローンチという重要なマイルストーンになると述べています。

アクションで見るSora：ビデオ生成の未来

Murati氏は、ウォールストリート・ジャーナル紙のJoanna Stern氏との対談を通じて、Soraが生成する新しいビデオ・スニペットを紹介しながら、Soraの能力に光を当てました。

Soraのクリップを作成するのに必要な時間は数分で、720pの解像度で20秒の高解像度ビデオを作成できることが明らかになりました。Dall-Eの画像やChatGPTのレスポンスに比べ、これらのクリップの生成はより多くのリソースを必要としますが、OpenAIはリーズナブルな価格で提供することを約束します。

舞台裏ソラのトレーニング

OpenAIは、膨大な数のパブリックビデオを分析することで、Soraを綿密に訓練し、AIが多数のオブジェクトやアクションを認識できるようにしました。この洗練された理解により、Soraはプロンプトからシーンをスケッチし、印象的な精度で動画を作成することができます。

Murati氏は、トレーニング素材のソースの1つとしてShutterstockを強調しましたが、ソースの全範囲は、一般に利用可能な幅広いコンテンツを網羅しています。

Soraの不完全さと安全策

Soraの可能性は否定できませんが、現在のSoraは完璧ではありません。誤った解釈や継続性の問題が発生する可能性がありますが、Sora の出力品質を向上させるために継続的な改善が行われています。悪用を防ぐため、OpenAIはSoraが生成した動画にOpenAIの透かしとメタデータを埋め込む予定です。