音频媒体文件

清除
标签搜索结果 for "视频理解"
【通义时间】如何让Qwen2.5-VL更好地看见这个世界?
2025-06-02 10:39

让Qwen2.5-VL更懂视觉世界

Qwen-VL 多模态大模型 视觉理解 动态分辨率 视频理解 视觉Agent 文档智能 通用Grounding SOTA 长上下文处理
已摘要 阅读时间:11 分钟(3728 个字) 1 summary version
2024-05-30 | Stanford CS25: V4 I From Large Language Models to Large Multimodal Models
2025-05-18 15:43

讲座由智谱AI研究科学家丁明主讲,他系统回顾了大规模语言模型的发展历程和多模态模型的最新研究进展。内容从最初基于自监督方法的语言模型探索出发,介绍了早期统一遮掩与自回归训练方法的发展,再到GPT‑3时代通过大规模计算与参数扩展实现性能稳步提升,特别强调了扩展计算资源在模型工程化中的作用。随后,他重点探讨了ChatGPT时代任务适应成本低、预训练知识更为关键的现象,并指出训练损失对下游表现的重要影响。讲座还涵盖了Transformer架构的技术细节更新,如预归一化、旋转位置编码、分组注意力以及通过DeepSpeed和零冗余优化、激活检查点等技术在大规模模型训练中的应用,为多模态系统及未来研究指明了方向。

大型语言模型 (LLM) 大型多模态模型 (LMM) Transformer架构 深度学习训练技术 数据驱动AI 扩散模型 模型对齐 (Alignment) 计算机视觉 生成式AI 视频理解 CogVLM Scaling Law
已摘要 阅读时间:13 分钟(4433 个字) 2 summary versions