Sora：OpenAIによるテキストからビデオへ変換するモデル

2024年2月15日にOpenAIがSoraと名付けられた革新的なモデルを発表しました。これはテキストからビデオを生成するAIで、驚くほど印象的な結果を出します。ChatGPTがテキストを生成し、DALL-Eが画像を作るように、Soraは与えられたプロンプトに合わせたビデオを作成します。この技術分野でSoraが最初ではありませんが、テスターやOpenAIの貢献者が作り出したビデオの品質の高さは、業界のアナリストから注目を集めています。

Soraとは何ですか？

Soraは、高度に詳細な60秒動画を生成するAIモデルです。このモデルによって作成される動画は、複雑なカメラワークと、登場人物の鮮明な感情表現を特徴としています。また、画像から動画を作り出す機能や、既存の映像に新しい要素を加えて拡張する能力も備えています。Soraはユーザーの好み、スタイル、そしてムードを捉え、説明的な指示に基づき動画を生成します。映像における照明、カメラアングル、色彩の指定も可能です。

OpenAIは、Soraを用いて、さまざまな解像度、アスペクト比、持続期間を持つ動画や画像に対応するテキスト条件付き拡散モデルの学習を行いました。通常、大規模言語モデルはインターネット規模のデータを使用し、テキストトークンを通じて学習されます。Sora AIは、動画を低次元の潜在空間に効率的に圧縮し、これを時空間パッチとして展開する特別な視覚的パッチを有しています。OpenAIによれば、これらのパッチは、動画や画像を生成するためのモデルを訓練する際に、拡張性が高く効果的な手段を提供します。Soraは、多様な解像度、アスペクト比、持続期間の動画や画像を生成する能力を持っており、そのための訓練を受けています。

Soraは、生の映像データを入力として受け取り、それを時間的および空間的に圧縮した出力を生み出すよう訓練されたネットワークです。この技術により、視覚データの次元が効果的に削減されます。さらに、生成された潜在表現をピクセル空間にマッピングするために、デコーダーモデルの学習が行われます。

OpenAIがDALL-E3のリキャプション技術をビデオ分野に応用しました。この技術により、動画に対して高度に記述的なテキストキャプションを生成することが可能になります。この進化は、ビデオの全体的な品質とテキストの忠実度の双方を飛躍的に向上させます。加えて、GPTは短いユーザープロンプトから詳細で充実したキャプションへと変換する役割も果たし、これらのキャプションはビデオモデルに供給されることで、Soraは高品質なビデオコンテンツの制作を実現します。

Soraの高品質画像・映像機能

Soraは、静止画だけでなく動画の扱いも得意としており、DALL-Eで生成された静止画にアニメーションを加えたり、動画をループさせたり、さらには時間を操作して前後に伸ばすことが可能です。また、2つの異なる入力ビデオを滑らかに補間し、異なる被写体やシーンでシームレスなトランジションを実現することもできます。この技術は、最大2048×2048ピクセルの高解像度画像生成にも対応しています。OpenAIは、ガウシアンノイズを含むパッチを時間的な範囲をもつ空間グリッド上に配置する方法で、このモデルを訓練しました。

時間、解像度、画面の比率

Soraは、異なるデバイスのネイティブアスペクト比に合わせたビデオ制作が可能です。これには、ワイドスクリーン用の1920x1080p、縦向きビデオの1080×1920、そしてその中間サイズのビデオが含まれます。さらに、プロトタイピング段階での効率化のため、フル解像度のビデオ制作に先立って低解像度でのビデオ作成も可能です。

通常、生成モデルを訓練する際には動画を正方形に切り取ることが一般的ですが、これにより画面内に被写体の一部だけが写り込むことがあります。しかし、Soraはこのフレーミングの問題を改善しています。

Soraの活用方法

最先端のテキストから動画へ変換するAIツールSORAにより、編集の経験がない人でも、手軽に高品質の動画を作成できるようになりました。このツールは、ゼロからの動画制作、動画内の不足しているフレームの補充、既存の動画の拡張など、幅広い用途に対応しています。SORAによるこのAIモデルの使用により、誰でも簡単に、そして迅速にプロレベルの動画を生成できるようになりました。ここでは、SORAの主な使用例を紹介します。

。映画制作者、コンテンツクリエイター、そしてストーリーテラーは、アイデアや概念を視覚化し、選ばれたショット、アスペクト比、ムードを用いて魅力的な動画を制作するのに役立つツールを持っています。これらのツールを使い、テキストスクリプトから映画の予告編、アニメーション、ドキュメンタリー、そしてショートフィルムまで、さまざまなコンテンツを作成することが可能です。
ビデオエディターやプロデューサーは、VFXの追加や背景の変更、新キャラクターの挿入といったクリエイティブな要素を通じて、ビデオをカスタマイズすることができます。これにより、視聴者は自分の好みに合わせてパーソナライズされた、インタラクティブなビデオ体験を楽しむことができます。
教育者は、概念や文化的現象を説明するための教育向けビデオを制作することができます。これにより、学習者は科学や他の学問分野への理解を深めるための、情報に富んだ魅力的なビデオコンテンツにアクセスできます。
コンテンツクリエイターは、YouTube Shorts、Instagram、TikTokなどのソーシャルメディアプラットフォーム向けに、リールやストーリー形式の短編ビデオを簡単に制作することができます。
広告主やマーケティング担当者は、自社の製品やサービスを紹介するプロモーションビデオや広告を製作できます。Sora AIは、これらの広告資材の制作プロセスを従来の方法よりもコスト効率良く行うことができると約束します。
デザイナー、映画制作者、そしてイノベーターは、Soraを使用して、プロトタイプやビジョンを作成し、テストすることができます。製品や映画のシーンをデザインしたり、未来を想像したりしながら、アイデアやシナリオを視覚化することが可能です。

Soraの代替品は何ですか？

Sora以外にも、テキストから直接ビデオコンテンツを生成することができる他の有名な選択肢が多数あります。

Runway Generation 2

Soraと同じように、ウェブとiOS対応のテキストからビデオへ変換するAIツールであるRunwayは、RunwayとDiscordを通じて利用可能です。調査結果によると、ユーザーの73.53％がStable Diffusion 1.5よりもRunway-Gen2を、88.24％がText2LiveよりもRunway-Gen2を好むと答えています。Runway-Gen2は、ビデオからビデオへ、テキストや画像からビデオへ、テキストから画像へ、画像から音声へ、テキストから音声への変換、背景削除、画像拡大、色調整など、多様なモーダル変換を実現するマルチモーダルAIシステムです。

「ドライビングイメージ」機能を使用することで、ユーザーはどんな画像やプロンプトのスタイルもビデオの各フレームに適用することができます。これにより、入力された画像やプロンプトを用いて、モックアップをスタイリッシュなアニメーションレンダリングに変えたり、テクスチャを持たないレンダリングをリアリティ溢れる出力に変換することが可能です。無料プランではGen-1とGen-2の限定編集機能を提供し、その他のプランにはスタンダード、プロ、無制限プランがあり、無制限プランでは月額76ドルで無限のビデオ生成を楽しむことができます。

Google Lumière

Google Lumiereは、テキストや画像から動画を生成するためのAIモデルで、Space-Time-U-Net、略してSTUNetを活用しています。この革新的なテキストから動画への拡散モデルは、ゼロショット拡散モデルであるVideoPoetの進化形です。STUNetは、空間的な要素と物事の動きや時間的変化を理解することにより、シームレスな動画制作を可能にします。LUMIEREは、最大80フレームの流れるようなビデオを生成し、スタイル生成、画像から動画への変換、シネマトグラフィー、インペインティングといった特徴を備えています。

Visual Storytelling

Pictoryは、AIを活用した革新的なビデオ編集ツールであり、コンテンツマーケティング、学習開発、教育、ビジネス組織、デジタルマーケティング、エンタープライズコンテンツチームに最適です。このツールは、AI駆動のビデオ編集・生成機能、自動字幕・キャプション付け、高品質なビデオ制作、音声生成、多様なビデオテンプレートを提供します。Pictoryは、先進のAI技術を駆使して、動画コンテンツから重要な情報を抽出し、効果的なビデオセールスレターやブログエントリーを魅力的なビデオに変換し、自動的にキャプションを追加します。また、300万点以上に及ぶロイヤリティフリーのビデオ、画像、音楽トラックから成る広範なメディアライブラリをユーザーに提供し、創造性の実現をサポートします。無料トライアルを提供しており、スタータープランは月額19ドルから始まり、30本のビデオ制作、最大600分の文字起こし、5,000曲の音楽トラック利用が可能です。

Synthesia

YouTube Shorts、Instagramのリール、そして様々なプラットフォームのストーリー機能は、現代のメディア環境において中心的な役割を果たしています。これらの動画コンテンツは楽しいものである一方で、高品質なビデオを制作することは大きな挑戦を伴います。プロの編集者から趣味で動画を作成する人まで、すべてのコンテンツクリエーターにとって、専門的な知識、洗練されたスキル、そして適切なツールが不可欠です。

幸運にも、AI技術が映像編集やテキストから新しいビデオを生成するなど、映像関連作業を大いに支援しています。Synthesiaは、140以上の言語に対応する160以上のアバターを提供し、多岐にわたるソリューションを提供しています。ユーザーは、スタータープランからクリエイター、エンタープライズプランへと、自身のニーズに合わせて段階的にプランを選択でき、無料デモを通じてその機能を試すことが可能です。Synthesiaはウェブブラウザを通して利用できますが、企業向けプランは利用者数に基づいた価格設定がされており、見込み顧客には価格が不明確に感じられることがあります。

The Limits of Sora

OpenAIは、Soraがシミュレーターとして持つ多くの制約を指摘しています。このモデルは、ガラスが割れるなどの基本的な物理的相互作用を再現する能力に欠けており、原因と結果の理解も不十分です。

長期にわたるサンプルで物体が自然に現れるケースでは、モデルに矛盾が生じることがある。Soraの信頼性については、現時点でははっきりしていない。OpenAIのデモは品質が高く目を引くが、デモで見せられている選択バイアスの程度については不透明である。テキストから画像を生成する際の一般的なアプローチには、複数の画像（通常は10～20枚）を作成し、その中から最も詳細で質の高いものを選ぶ方法がある。OpenAIのチームが、公表された高品質な動画を作成するためにどれだけ多くの動画を制作したかについては開示されていない。もし、望ましい動画を得るために数百、あるいは数千もの動画の生成が必要であれば、それは広がりを妨げる要因になる可能性がある。Soraの実際の性能は、広範囲にわたって使用され始めたときに初めて明らかになるであろう。

何がSoraのリスク要因ですか？

Soraは新型モデルであり、リスクについてはまだ完全には理解されていない。しかし、他のテキストから画像へのモデルと同様の特性を持つ可能性が高い。AIによる動画生成が画像生成技術と同じ速度で進化する場合、不具合の発見がより困難になり、これが一般的な現象となる可能性がある。

Soraは、露骨な内容、ヘイトスピーチ、違法な活動を促進する映像や、特定の集団に対する蔑視を含む不適切な動画を制作する可能性があります。不適切なコンテンツとは何かは、その視聴者（例えば、Soraを利用する子供や大人）やコンテンツが生み出される文脈（例えば、花火の安全に関する教育動画では、ポイントを際立たせるためにグラフィックな表現が用いられることもある）によって、大きく変わることがあります。

関連記事: ChatGPTを使ったコンテンツ作成の全ガイド

OpenAIが提供するデモビデオには、現実世界では存在しない架空のシーンが展開されています。この技術が示すのは、実在しない人物やシナリオを用いて、誤解を招く可能性のあるDeepfake動画を作成する能力が現実のものとなるかもしれないということです。こちらで詳細をご覧いただけます。これにより、政治家やそのライバルを登場させたAIによって生成されたビデオが、現実そっくりでありながら偽物であることを活用し、「意図的な誤解を拡散し、信頼される情報源を攻撃する」力を持つことになります。このような行為は、公共の機関への信頼を損ね、異なる国々やコミュニティ間の敵意を煽ることにつながりかねません。

Soraなどの生成モデルは、その学習データに大きく依存します。学習データに文化的偏見やステレオタイプが含まれている場合、それらは生成されるコンテンツにも同じような問題を引き起こす可能性があります。

よくあるご質問

Sora OpenAIのリリース日はいつですか？

Soraの一般公開の時期はまだ明らかではありませんが、過去のOpenAIモデルのリリースパターンを参考にすると、2024年中頃にはリリースされる可能性があります。

Soraは公開されていますか？

いいえ、SORAのモデルを閲覧できるのは厳選された専門家のテスターやOpenAIのメンバーに限られています。インターネット上で公開されているSoraが生成した動画も、これらの選ばれし者たちによって制作、テストされたものです。

Soraにどのようにアクセスすることができますか？

SoraはOpenAIが開発した先進的な動画生成モデルで、OpenAIを介してアクセス可能です。ただし、OpenAIからはSoraの利用に関するキャンセル待ちリストの発表はありません。OpenAIによると、このモデルのリリースおよびアクセス提供までには、数ヶ月を要する見込みです。

Soraの利用ができない間に代わりとなるオプションはありますか？

ユーザーは、iOSで利用可能なRunway-Gen 2、Discord、Google Lumiereなどのツールを使って、テキストを動画に変換するAIモデルの能力を深く理解することができます。

Sora AIは無料で利用できますか？

Soraはまだリリースされておらず、その料金体系に関する情報は提供されていません。しかし、GPT-4やDALL-Eなど他の高度なモデルと同じく、OpenAIはプレミアムサービスへのアクセスに対して料金を徴収しています。