2024-05-30 | Stanford CS25: V4 I From Large Language Models to Large Multimodal Models
2025-05-18 15:43
讲座由智谱AI研究科学家丁明主讲,他系统回顾了大规模语言模型的发展历程和多模态模型的最新研究进展。内容从最初基于自监督方法的语言模型探索出发,介绍了早期统一遮掩与自回归训练方法的发展,再到GPT‑3时代通过大规模计算与参数扩展实现性能稳步提升,特别强调了扩展计算资源在模型工程化中的作用。随后,他重点探讨了ChatGPT时代任务适应成本低、预训练知识更为关键的现象,并指出训练损失对下游表现的重要影响。讲座还涵盖了Transformer架构的技术细节更新,如预归一化、旋转位置编码、分组注意力以及通过DeepSpeed和零冗余优化、激活检查点等技术在大规模模型训练中的应用,为多模态系统及未来研究指明了方向。
大型语言模型 (LLM)
大型多模态模型 (LMM)
Transformer架构
深度学习训练技术
数据驱动AI
扩散模型
模型对齐 (Alignment)
计算机视觉
生成式AI
视频理解
CogVLM
Scaling Law
已摘要
阅读时间:13 分钟(4433 个字)
2 summary versions