1

Reversible Vision Transformers

MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition

Improved Multiscale Vision Transformers for Classification and Detection

Multiscale Vision Transformers

LOKI: Long Term and Key Intentions for Trajectory Prediction

Overcoming Mode Collapse with Adaptive Multi Adversarial Training

Object-Region Video Transformers

Long-term Human Motion Prediction with Scene Context

Future Person Localization in First-Person Videos

Learning Spontaneity to Improve Emotion Recognition in Speech