音频媒体文件

清除
标签搜索结果 for "计算机视觉"
Vision Transformer (ViT) Explained By Google Engineer | MultiModal LLM | Diffusion
2025-06-15 21:05

视觉Transformer革新图像处理 多模态LLM新引擎

Vision Transformer (ViT) 计算机视觉 多模态LLM 自注意力机制 图像编码 深度学习 Transformer架构 CLIP模型 图像生成 Patch Embedding 全局上下文建模 人工智能
已摘要 阅读时间:13 分钟(4289 个字) 3 summary versions
2023-09-20 | Stanford CS224N NLP with Deep Learning | Lecture 16 - Multimodal Deep Learning, Douwe Kiela
2025-05-20 23:43

多模态深度学习:NLP与图像融合前沿

多模态深度学习 自然语言处理 计算机视觉 人工智能 Transformer 对比学习 CLIP模型 基础模型 模型评估 多模态融合
已摘要 阅读时间:13 分钟(4213 个字) 1 summary version
2024-05-30 | Stanford CS25: V4 I From Large Language Models to Large Multimodal Models
2025-05-18 15:43

讲座由智谱AI研究科学家丁明主讲,他系统回顾了大规模语言模型的发展历程和多模态模型的最新研究进展。内容从最初基于自监督方法的语言模型探索出发,介绍了早期统一遮掩与自回归训练方法的发展,再到GPT‑3时代通过大规模计算与参数扩展实现性能稳步提升,特别强调了扩展计算资源在模型工程化中的作用。随后,他重点探讨了ChatGPT时代任务适应成本低、预训练知识更为关键的现象,并指出训练损失对下游表现的重要影响。讲座还涵盖了Transformer架构的技术细节更新,如预归一化、旋转位置编码、分组注意力以及通过DeepSpeed和零冗余优化、激活检查点等技术在大规模模型训练中的应用,为多模态系统及未来研究指明了方向。

大型语言模型 (LLM) 大型多模态模型 (LMM) Transformer架构 深度学习训练技术 数据驱动AI 扩散模型 模型对齐 (Alignment) 计算机视觉 生成式AI 视频理解 CogVLM Scaling Law
已摘要 阅读时间:13 分钟(4433 个字) 2 summary versions
Stanford CS25: V2 I Introduction to Transformers w/ Andrej Karpathy
2025-05-16 20:54

该转录文本主要介绍了斯坦福大学CS25课程“Transformers United V2”的概览。课程聚焦于深度学习模型“Transformers”,该模型自2017年问世以来,已革新自然语言处理(NLP)领域,并广泛应用于计算机视觉、强化学习、生物学等多个方向。课程旨在深入解析Transformers的工作原理、不同类型及其应用,并邀请了领域内专家进行分享。 几位课程讲师进行了自我介绍,并阐述了课程目标,即帮助学生理解Transformers的运作机制、应用场景及前沿研究动态。 随后,内容回顾了Transformers的发展历程:从2017年论文《Attention is All You Need》的提出,标志着Transformers时代的开启,到其在NLP领域的迅速普及,再到2018-2020年间扩展至计算机视觉、生物信息学等领域,以及2021年至今生成模型(如GPT、DALL-E、ChatGPT)的爆发式增长。讲师强调了Transformers在处理长序列、理解上下文方面的优势,超越了早期的RNN和LSTM模型。 目前,Transformers在零样本泛化、多模态任务、音频与艺术创作、代码生成以及初步的逻辑推理方面展现出强大能力,并通过强化学习与人类反馈(RLHF)技术提升了与人类的交互和对齐。 展望未来,Transformers有望在视频理解与生成、金融、商业等领域取得突破,甚至可能用于文学创作。发展方向包括通用智能体、特定领域模型(如医疗GPT、法律GPT)及“专家模型”混合系统。然而,实现这些愿景面临诸多挑战: 1. **记忆与交互**:当前模型缺乏长期记忆和持续学习能力。 2. **计算复杂度**:注意力机制的二次方复杂度亟待优化。 3. **可控性**:需增强对模型输出的精确控制。 4. **与人类认知对齐**:需进一步研究如何使模型的工作方式更接近人类大脑。 最后,一位讲师(可能为Andrej Karpathy)简述了AI领域的发展背景,以此引出设立Transformers课程的初衷。

Transformers 深度学习 自然语言处理 注意力机制 模型架构 人工智能 计算机视觉 GPT模型 上下文学习 AI发展史 计算效率 未来AI
已摘要 阅读时间:14 分钟(4802 个字) 3 summary versions