Soroush Mehraban

Vision Transformer (ViT) Paper Explained

Vision Transformer (ViT) Paper Explained Soroush Mehraban 920 3,068 1 год назад

HD-GCN (ICCV2023): Skeleton-Based Action Recognition

HD-GCN (ICCV2023): Skeleton-Based Action Recognition Soroush Mehraban 520 1,733 1 год назад

Faster R-CNN: Faster than Fast R-CNN!

Faster R-CNN: Faster than Fast R-CNN! Soroush Mehraban 2K 7,884 2 года назад

Receptive Fields: Why 3x3 conv layer is the best?

Receptive Fields: Why 3x3 conv layer is the best? Soroush Mehraban 2K 7,622 2 года назад

FastV: An Image is Worth 1/2 Tokens After Layer 2

FastV: An Image is Worth 1/2 Tokens After Layer 2 Soroush Mehraban 139 464 8 месяцев назад

Swin Transformer - Paper Explained

Swin Transformer - Paper Explained Soroush Mehraban 4K 12,828 1 год назад

InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation

InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation Soroush Mehraban 179 598 8 месяцев назад

Relative Position Bias (+ PyTorch Implementation)

Relative Position Bias (+ PyTorch Implementation) Soroush Mehraban 1K 4,159 1 год назад

PoseGPT (ChatPose): Chatting about 3D Human Pose

PoseGPT (ChatPose): Chatting about 3D Human Pose Soroush Mehraban 239 798 10 месяцев назад

GLIGEN (CVPR2023): Open-Set Grounded Text-to-Image Generation

GLIGEN (CVPR2023): Open-Set Grounded Text-to-Image Generation Soroush Mehraban 123 411 6 месяцев назад

R-CNN: Clearly EXPLAINED!

R-CNN: Clearly EXPLAINED! Soroush Mehraban 11K 36,352 2 года назад

MotionAGFormer (WACV2024): Enhancing 3D Human Pose Estimation with a Transformer-GCNFormer Network

MotionAGFormer (WACV2024): Enhancing 3D Human Pose Estimation with a Transformer-GCNFormer Network Soroush Mehraban 312 1,040 11 месяцев назад

Autoregressive Image Generation without Vector Quantization

Autoregressive Image Generation without Vector Quantization Soroush Mehraban 116 386 1 месяц назад

Convolutional Block Attention Module (CBAM) Paper Explained

Convolutional Block Attention Module (CBAM) Paper Explained Soroush Mehraban 2K 7,558 1 год назад

Denoising Diffusion Null-Space Model (DDNM) - Method Explained

Denoising Diffusion Null-Space Model (DDNM) - Method Explained Soroush Mehraban 96 320 54 года назад

Prompt-to-Prompt (P2P) image Editing - Method Explained

Prompt-to-Prompt (P2P) image Editing - Method Explained Soroush Mehraban 83 275 54 года назад

Tent: Fully Test-time Adaptation by Entropy Minimization

Tent: Fully Test-time Adaptation by Entropy Minimization Soroush Mehraban 94 314 6 месяцев назад

DINO: Self-Supervised Vision Transformers

DINO: Self-Supervised Vision Transformers Soroush Mehraban 999 3,331 1 год назад

MetaFormer is Actually What You Need for Vision

MetaFormer is Actually What You Need for Vision Soroush Mehraban 318 1,061 1 год назад

ViTPose: 2D Human Pose Estimation

ViTPose: 2D Human Pose Estimation Soroush Mehraban 1K 3,731 1 год назад

Soroush Mehraban. Смотреть видео: Vision Transformer ViT Paper Explained, HD GCN ICCV2023 Skeleton Based Action Recognition, Faster R CNN Faster Than Fast R CNN, Receptive Fields Why 3x3 Conv Layer Is The Best.