音频媒体文件
标签搜索结果 for "CLIP模型"
Vision Transformer (ViT) Explained By Google Engineer | MultiModal LLM | Diffusion
2025-06-15 21:05
Vision Transformer (ViT)
计算机视觉
多模态LLM
自注意力机制
图像编码
深度学习
Transformer架构
CLIP模型
图像生成
Patch Embedding
全局上下文建模
人工智能
已摘要
阅读时间:13 分钟(4289 个字)
3 summary versions
2023-09-20 | Stanford CS224N NLP with Deep Learning | Lecture 16 - Multimodal Deep Learning, Douwe Kiela
2025-05-20 23:43
多模态深度学习
自然语言处理
计算机视觉
人工智能
Transformer
对比学习
CLIP模型
基础模型
模型评估
多模态融合
已摘要
阅读时间:13 分钟(4213 个字)
1 summary version