PhyCo: Learning Controllable Physical Priors for Generative Motion

Sriram Narayanan^1,2 · Ziyu Jiang² · Srinivasa G. Narasimhan¹ · Manmohan Chandraker^2,3

¹ Carnegie Mellon University · ² NEC Labs America · ³ UC San Diego

CVPR 2026

TL;DR PhyCo learns controllable physical priors — friction, restitution, deformation, and force — from simple block-sliding and ball-bouncing simulations, enabling physically grounded and continuously controllable video generation without any simulator at inference.

How PhyCo Works

A two-stage pipeline: physics-supervised ControlNet fine-tuning on simulation data, followed by VLM-guided reward optimization for physical consistency.

PhyCo two-stage pipeline: ControlNet physics fine-tuning followed by VLM reward alignment

100K+ Simulation Videos

Photorealistic block-sliding, ball-bouncing, and collision videos rendered with Kubric & PyBullet, with systematically varied physical properties.

Physics-Supervised ControlNet

A ControlNet conditioned on pixel-aligned physical property maps is trained on top of a frozen Cosmos-Predict2 video diffusion backbone.

VLM-Guided Reward

A fine-tuned Qwen2.5-VL evaluates generated videos with targeted physics questions, providing differentiable feedback to improve consistency.

PhyCo: Learning Controllable Physical Priors for Generative Motion

How PhyCo Works

100K+ Simulation Videos

Physics-Supervised ControlNet

VLM-Guided Reward

Fine-Grained Control of Physical Attributes

Compositionality of Physical Attributes

Generalization to Different Styles

More Results with Baseline Comparisons

BibTeX

Acknowledgements