スキップしてメイン コンテンツに移動

OpenAI、テキスト→最長1分の

どれくらいの速度で生成出来るんだろうか。

ITMedia にOpenAI、テキスト→最長1分の動画の生成AI「Sora」発表 一般公開はせずという記事が。

プロンプトを投入したら静止画が出力されるものはそのクオリティが凄い事になっていますが、
プロンプトを投入したら動画も出来るように進化ですね。

テキストプロンプトから最長1分の動画を生成するAIモデル「Sora」を発表した。一部のユーザーに公開し、フィードバックに基づいて改善していく計画。
先日私が試した VREW だと、日本語入力して内部で解析した上で動画生成(用意されたパターンを組み合わせている感じ?)でした。
Sora では画像生成系のプロンプトのようなものを使用して最長 1 分の動画を作成。

静止画プロンプトに慣れている人ならすぐに使いこなせそうですね。

ユーザーがプロンプトで何を要求したかだけでなく、物理的な世界で実際にどのように存在するかも理解するという。
これが、AI の AI たる部分ですかね。
単純に大量のパターンを格納していいて、最適なものを選び出す。
という方式ではなくて、AI が指定されたプロンプトで生成したものは動画だとどう動く。を考えているって事ですよね。

「スタイリッシュな女性が、暖かく輝くネオンとデジタルサイネージで満たされた東京の通りを歩いている。彼女は黒い革のジャケット、赤いロングドレス、黒いブーツを装っており、黒いバッグを持っている。サングラスをかけ、赤い口紅をつけている。自信を持って何気なく歩いている。通りは湿っていて反射しており、色とりどりの光の鏡効果を生み出している。多くの歩行者が歩き回っている」
これ、元は英語で記載されていますが、日本語に訳するとこうなりますね。
記事では動画の静止画が載っていますが、
生成画像(生成動画)お約束の看板の文字が「異世界文字」になっていますが、
今だとこれが生成 AI が作っている。っていう証拠みたいだったり。

Soraはまだ複雑なシーンの物理を正確にシミュレートするのに苦労する可能性があるという。
静止画ですら、指の数が違うとか関節の曲がる向きが違うとかが当たり前に発生するので、
歩いているモデルの有るきかたがどう考えてもおかしいとかも、まだ有りそうな気もしますね。

「Soraは、AGIを達成するための重要なマイルストーンになるとわれわれは考えている」。
まだ一般には公開されていないとは言え、
ここまで出来るようになってくると、誰でも動画生成が出来るって事になりますね。

プロンプトを生成 AI が理解するようになってきて、
生成 AI が自分でプロンプトを考えて自分で画像(動画も)作り始めたら、
シンギュラリティポイントに到達って感じですかねぇ。

それとこれ、どの位の速度で生成出来るんでしょうかね?
1 分が 1 分以内なら革命な気もするのですが。

コメント