Research — Computer Vision @ CMU

RobotArena ∞: Scalable Robot Benchmarking via Real-to-Sim Translation

RobotArena ∞: Scalable Robot Benchmarking via Real-to-Sim Translation

2026

Robotics3D Vision

From Blurry to Believable: Enhancing Low-quality Talking Heads with 3D Generative Priors

From Blurry to Believable: Enhancing Low-quality Talking Heads with 3D Generative Priors

2025

Generative Models3D Vision

Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation

Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation

2025

RoboticsGenerative Models

SceneFactor: Factored Latent 3D Diffusion for Controllable 3D Scene Generation

SceneFactor: Factored Latent 3D Diffusion for Controllable 3D Scene Generation

2025

3D VisionGenerative Models

DressRecon: Freeform 4D Human Reconstruction from Monocular Video

DressRecon: Freeform 4D Human Reconstruction from Monocular Video

2025

3D Vision

Turbo3D: Ultra-fast Text-to-3D Generation

Turbo3D: Ultra-fast Text-to-3D Generation

2025

3D VisionGenerative Models

Generative Photomontage

Generative Photomontage

2025

Generative Models

GAS: Generative Avatar Synthesis from a Single Image

2025

Generative Models3D Vision

DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion

DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion

2025

3D Vision

Hamba: Single-view 3D Hand Reconstruction with Graph-guided Bi-Scanning Mamba

Hamba: Single-view 3D Hand Reconstruction with Graph-guided Bi-Scanning Mamba

2025

3D VisionRecognition & Detection

Generating Physically Stable and Buildable Brick Structures from Text

Generating Physically Stable and Buildable Brick Structures from Text

2025

Generative Models3D Vision

Neural Inverse Rendering from Propagating Light

Neural Inverse Rendering from Propagating Light

2025

Computational Imaging

SplatSim: Zero-Shot Sim2Real Transfer of RGB Manipulation Policies

SplatSim: Zero-Shot Sim2Real Transfer of RGB Manipulation Policies

2025

Robotics3D Vision

Geometric Red-Teaming for Robotic Manipulation

Geometric Red-Teaming for Robotic Manipulation

2025

Robotics

AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis

AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis

2025

3D VisionScene Understanding

Unsupervised Identification of Protein Compositions via Content-Transformation Disentanglement

Unsupervised Identification of Protein Compositions via Content-Transformation Disentanglement

2025

Recognition & Detection

Spatially Varying Autofocus

Spatially Varying Autofocus

2025

Computational Imaging

Generating Multi-Image Synthetic Data for Text-to-Image Customization

Generating Multi-Image Synthetic Data for Text-to-Image Customization

2025

Generative Models

ArticuBot: Learning Universal Articulated Object Manipulation Policy

ArticuBot: Learning Universal Articulated Object Manipulation Policy

2025

Robotics

Unifying 2D and 3D Vision-Language Understanding

Unifying 2D and 3D Vision-Language Understanding

2025

Scene Understanding

Neural Eulerian Scene Flow Fields

Neural Eulerian Scene Flow Fields

2025

3D VisionScene Understanding

TAPIP3D: Tracking Any Point in Persistent 3D Geometry

TAPIP3D: Tracking Any Point in Persistent 3D Geometry

2025

3D Vision

DiffCAM: Data-Driven Saliency Maps by Capturing Feature Differences

DiffCAM: Data-Driven Saliency Maps by Capturing Feature Differences

2025

Recognition & Detection

Video Depth without Video Models

Video Depth without Video Models

2025

3D VisionScene Understanding

Taming 3D Gaussian Splatting for High-Quality Rendering

Taming 3D Gaussian Splatting for High-Quality Rendering

2025

3D Vision

Tactile DreamFusion: Exploiting Tactile Sensing for 3D Generation

Tactile DreamFusion: Exploiting Tactile Sensing for 3D Generation

2024

Robotics3D Vision

ODIN: A Single Model for 2D and 3D Perception

ODIN: A Single Model for 2D and 3D Perception

2024

Recognition & DetectionScene Understanding

Distilling Diffusion Models into Conditional GANs

Distilling Diffusion Models into Conditional GANs

2024

Generative Models

Visible to Thermal Light Transport

Visible to Thermal Light Transport

2024

Computational Imaging

Z-Splat: Z-axis Gaussian Splatting for Camera-Sonar Fusion

Z-Splat: Z-axis Gaussian Splatting for Camera-Sonar Fusion

2024

3D VisionComputational Imaging

Spectral Sub-Surface Scattering

Spectral Sub-Surface Scattering

2024

Computational Imaging

Coherence as Texture: Passive Textureless 3D Reconstruction by Self-Interference

Coherence as Texture: Passive Textureless 3D Reconstruction by Self-Interference

2024

Computational Imaging3D Vision

3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

2024

Robotics3D Vision

DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos

DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos

2024

Generative Models3D Vision

3D reconstruction with fast dipole sums

3D reconstruction with fast dipole sums

2024

3D VisionComputational Imaging

Neural MP: A Generalist Neural Motion Planner

Neural MP: A Generalist Neural Motion Planner

2024

Robotics

Local Policies Enable Zero-shot Long-horizon Manipulation

Local Policies Enable Zero-shot Long-horizon Manipulation

2024

Robotics

HoloOcean: A Full-Features Marine Robotics Simulator

HoloOcean: A Full-Features Marine Robotics Simulator

2024

Robotics

HACMan++: Spatially-Grounded Motion Primitives for Manipulation

HACMan++: Spatially-Grounded Motion Primitives for Manipulation

2024

Robotics

Fabric Diffusion: High-Fidelity Texture Transfer for 3D Garments from In-The-Wild Images

Fabric Diffusion: High-Fidelity Texture Transfer for 3D Garments from In-The-Wild Images

2024

Generative Models3D Vision

Neural Feels with Neural Fields: Visuo-tactile Perception for In-hand Manipulation

Neural Feels with Neural Fields: Visuo-tactile Perception for In-hand Manipulation

2024

Robotics3D Vision

FlowBotHD: History-Aware Diffuser Handling Ambiguities in Articulated Objects

FlowBotHD: History-Aware Diffuser Handling Ambiguities in Articulated Objects

2024

Robotics

MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation

MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation

2024

3D VisionGenerative Models

NormalFlow: Fast Contact-based Object 6DoF Pose Tracking with Tactile Sensors

NormalFlow: Fast Contact-based Object 6DoF Pose Tracking with Tactile Sensors

2024

Robotics

SplaTAM: Splat, Track and Map 3D Gaussians for Dense RGB-D SLAM

SplaTAM: Splat, Track and Map 3D Gaussians for Dense RGB-D SLAM

2024

3D Vision

Extreme Parkour with Legged Robots

Extreme Parkour with Legged Robots

2024

Robotics

Shape from Heat Flow

Shape from Heat Flow

2024

Computational Imaging3D Vision

Customizing Text-to-Image Models with a Single Image Pair

Customizing Text-to-Image Models with a Single Image Pair

2024

Generative Models

Objects as volumes: A stochastic geometry view of opaque solids

Objects as volumes: A stochastic geometry view of opaque solids

2024

3D Vision

Cameras as Rays: Pose Estimation via Ray Diffusion

Cameras as Rays: Pose Estimation via Ray Diffusion

2024

3D Vision

Neural Kaleidoscopic Space Sculpting

Neural Kaleidoscopic Space Sculpting

2023

Computational Imaging3D Vision

Neural Implicit Surface Reconstruction using Imaging Sonar

Neural Implicit Surface Reconstruction using Imaging Sonar

2023

Computational Imaging3D Vision

Split-Lohmann Multifocal Displays for VR

Split-Lohmann Multifocal Displays for VR

2023

Computational Imaging

3D Scanning with Position-Sensitive Detectors

3D Scanning with Position-Sensitive Detectors

2023

Computational Imaging3D Vision

Ablating Concepts in Text-to-Image Diffusion Models

Ablating Concepts in Text-to-Image Diffusion Models

2023

Generative Models

Passive Micron-scale Time-of-Flight with Sunlight Interferometry

Passive Micron-scale Time-of-Flight with Sunlight Interferometry

2023

Computational Imaging

Controllable Visual-Tactile Synthesis

Controllable Visual-Tactile Synthesis

2023

RoboticsGenerative Models

ITI-GEN: Inclusive Text-to-Image Generation

ITI-GEN: Inclusive Text-to-Image Generation

2023

Generative Models

Bottom Up Top Down Detection Transformers for Language Grounding in Images and Point Clouds

Bottom Up Top Down Detection Transformers for Language Grounding in Images and Point Clouds

2022

Recognition & DetectionScene Understanding

Automatic Estimation of Self-Reported Pain by Trajectory Analysis

Automatic Estimation of Self-Reported Pain by Trajectory Analysis

2022

Recognition & Detection

Ego4D: Around the World in 3,000 Hours of Egocentric Video

Ego4D: Around the World in 3,000 Hours of Egocentric Video

2022

Recognition & DetectionScene Understanding

Sequential Voting with Relational Box Fields for Active Object Detection

Sequential Voting with Relational Box Fields for Active Object Detection

2022

Recognition & DetectionRobotics

Differentiable Raycasting for Self-supervised Occupancy Forecasting

Differentiable Raycasting for Self-supervised Occupancy Forecasting

2022

3D VisionRobotics

Human-to-Robot Imitation in the Wild

Human-to-Robot Imitation in the Wild

2022

Robotics

Compositional and Scalable Object SLAM

Compositional and Scalable Object SLAM

2021

3D VisionRobotics

Dynamics-Regulated Kinematic Policy for Egocentric Pose Estimation

Dynamics-Regulated Kinematic Policy for Egocentric Pose Estimation

2021

Recognition & Detection

Detecting Invisible People

Detecting Invisible People

2021

Recognition & Detection