概念定义
视觉Transformer(Vision Transformer, ViT)是将Transformer架构成功应用于计算机视觉任务的模型,通过将图像分割为patch序列并使用自注意力机制处理,实现了对图像全局上下文的有效建模。详细解释
ViT由Google在2021年提出,标志着计算机视觉领域从卷积神经网络(CNN)向纯Transformer架构的重大转变。其核心创新在于将图像视为”词汇序列”:将图像分割为固定大小的patch(通常16×16像素),然后将每个patch线性映射为向量,加上位置编码后输入标准Transformer编码器。 原始ViT在ImageNet-21K等大规模数据集上预训练后,在图像分类任务上超越了当时最先进的CNN模型。随后发展出多个变体:DeiT(2021)通过知识蒸馏提高数据效率;Swin Transformer(2021)引入分层结构和滑动窗口注意力;CSWin Transformer在2025年达到85.4%的ImageNet-1K准确率。 2025年的最新发展包括:ViT-22B达到220亿参数规模,成为最大的密集视觉模型;DC-AE框架通过深度压缩自编码器实现128倍空间压缩;FD特征蒸馏方法将CLIP预训练的ViT-L提升至89.0%准确率。工作原理
实际应用
- 图像分类:ImageNet、CIFAR等基准数据集的SOTA性能
- 目标检测:ViDT等全Transformer检测器
- 语义分割:医学影像、自动驾驶场景分割
- 多模态模型:CLIP、DALL-E等视觉-语言模型的视觉编码器
- 医学影像:X射线、CT扫描的病变检测
- 自动驾驶:车道检测、交通标志识别
- 工业检测:产品质量控制、缺陷识别
相关概念
- Transformer架构 - ViT的基础架构
- 自注意力机制 - 核心技术组件
- 多头注意力 - 并行注意力机制
- 多模态模型 - ViT在多模态中的应用
- Gemini系列 - 使用ViT的多模态模型
延伸阅读
- ViT原始论文 - “An Image is Worth 16x16 Words”
- DeiT论文 - 数据高效训练方法
- Swin Transformer - 分层视觉Transformer
- ViT-22B技术报告 - 大规模视觉模型扩展