ビデオ・ワールド・モデル:長所と制約

ビデオワールドモデルは、個々の相互作用を逐一明示的にシミュレートすることなく、説得力のある高次元な挙動を生成することに優れています。

ビデオ潜在空間内でビデオワールドモデルを動作させるには、特定の技術的制約がある。現在、この処理には多大なコストがかかり、2K解像度・60Hzといった高精細なリアルタイム性能を実現することは、依然として開発上の課題となっている。 決定的な点として、ワールド状態がビデオ空間で表現されているため、これらのモデルは現時点ではマルチプレイヤーに対応していません。重要な制約の一つは、シミュレーションの忠実度と視覚的な妥当性のバランスです。単にビデオの中で500人が動いているのを見るだけでは、彼らが個別のエージェントや「脳を持つアバター」であるとは限りません。現在のビデオモデルのスケールでは、真のマルチプレイヤー体験に必要な、複雑で個別化されたエージェントシミュレーションを本質的にサポートすることは期待できません。

この機能は、リアルタイムで反応する2万人の生きた群衆を管理する際に不可欠である。しかし、ビデオ・ワールド・モデルだけでは、2時間にわたるセッションにおける複数プレイヤー間の相互作用を確実に管理することはできない。ワールド・モデルは、長期記憶と一貫したロジックが欠如しているため、厳格なルール適用や永続的な状態の管理に苦戦する。 ビデオ・ワールド・モデルにはユーザー入力の制御データが欠如しており、それがビデオ・ワールド・モデルをプレイしても面白くない理由だ。ビデオ・ワールド・モデルは、持続的な状態、一貫した論理、ユーザー入力の制御、そして真のマルチプレイヤー・エージェントシミュレーションに苦戦しているため、現在のモデルはむしろ「誘導された夢」のようなものだ。

今日見られるインタラクティブ・ビデオ・モデルは印象的ですが、基本的には鮮やかな夢のようなものです。見る分には壮観ですが、儚く、信じられないほど孤独です。そこには、インタラクティブ性、挑戦、報酬、持続性――つまり、ゲームをゲームたらしめるあらゆる要素が欠けています。 

純粋なニューラル・ワールド・モデルだけでは、広大で持続的なマルチプレイヤー体験という約束を果たすことはできません。ニューラル・ワールド・モデルは多くの点で印象的ですが、多くの重要な領域で失敗しています。その一部には、単一セッション内での時間的整合性、セッションを跨ぐ長期記憶、レイテンシー、そしてクリエイターによるきめ細かな制御などが含まれます。一貫したマルチプレイヤーシミュレーション、厳密な対戦型ゲームプレイ、高度に知能化されたNPC、テスト、そして段階的な改良について考えると、より目立たないギャップが浮き彫りになります。

ニューラルエンジンにゲームエンジンになることを求めるべきではありません。 

ゲームエンジン:強みと制約

Roblox CloudとEngineは、ビデオワールドモデルと強力に補完し合います。再現可能な精度、セッション間の一貫した状態、そして時間軸を超えた永続性を備えているからです。例えば、F1モナコグランプリのゲームを制作するクリエイターを想定してみましょう。彼らは、厳密な得点・ペナルティシステム、道路、観衆、自然環境、そして複数のドライバー間の瞬時の同期をモデル化しています。しかし、この精度には実装と実行時のコストが伴います。視覚的な忠実度を高めるには、大容量のアセット、複雑なライティング、そしてシミュレーションが必要となります。

今後10年間、ハイエンドなゲームエンジンの出力はリアリズムの面で進化し続けるでしょうが、開発者の高度な技術力や消費者向けハードウェアへの要求も同様に高まっていくでしょう。 

業界がこれまで解決できていない課題は、大規模なハイパーリアリズムを実現しつつ、大小さまざまな開発者が利用可能にし、広く普及しているコンシューマー向けハードウェア上で動作させる方法である。

その理由は、現実世界が極めて精緻なディテールに満ちているからです。ゲームの本編を取り囲むように、草の葉や木々の枝が風にそよぐ様子、車の後方で渦巻く砂塵の雲、炎から飛び散る燃えさしや火花、油で光る虹色の水たまりに静かに跳ねる雨粒など、スクリプト化されていない自然主義的な要素がすべて存在します。こうしたコンテンツの作成とレンダリングは非常に困難です。 従来のゲームエンジンは、この視覚的な複雑さに苦戦し、高解像度のテクスチャやジオメトリによるメモリ負荷がリソースを圧迫するため、より単純なリアリズムを表現するための近道を探しています。また、フォトリアリズムを構成するボリュームライティング、バイノーラルオーディオ、物理演算、キャラクターシミュレーションにより、シミュレーションコストも法外な水準にまで膨れ上がっています。

クリエイターがこの複雑さを構築し、エンジンがそれをレンダリングするための最善の方法は、ポストトレーニングされた「ビデオ・ワールド・モデル」を活用するハイブリッドアーキテクチャを採用することだと我々は考えています。このモデルは、エンジンの基盤となるカメラの動き、ジオメトリ、およびコンテキスト状態の上に、テクスチャ、ライティング、そして微細なダイナミクスを生成します。

アーキテクチャ:ゲームロジックとビデオピクセルの同期

クリエイターがフォトリアリスティックな出力による高精細なマルチプレイヤーインタラクションを実現するには、ハイブリッドなアプローチが必要だと考えています。このアプローチを「Roblox Reality」と呼び、Roblox Game Engine、Roblox Cloud、そしてSuper Upsampler Roblox Video World Modelを組み合わせたものです。

Roblox Realityのハイブリッドアーキテクチャは、Roblox Game EngineとRoblox Video World Modelの間で役割を分担します。 

Roblox Game Engineは、ワールドの構造的・論理的側面を処理し、安定した長期メモリ、記号論理、再現可能なシミュレーションを提供します。また、衝突や挙動といった基本的な物理演算も担当します。オブジェクトの主要な動き(例えば、車、その車輪、ショックアブソーバー、ステアリングの位置や速度など)は、このエンジン内で管理されます。 これを基盤として、ビデオ・ワールド・モデルは、フロントガラスを伝う水滴や、車が疾走する際に揺れる葉っぱといった、追加の視覚的・生成的なコンポーネントを重ね合わせ、息をのむようなビジュアルを実現します。このアプローチにより、ゲームエンジンはデータモデル(共有され一貫性のある状態)を維持しつつ、ビデオ・ワールド・モデルがピクセル(視覚的な夢)を生成することが可能になります。

Share.

Comments are closed.