音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "视频理解"

【通义时间】如何让Qwen2.5-VL更好地看见这个世界？

2025-06-02 10:39

让Qwen2.5-VL更懂视觉世界

Qwen-VL 多模态大模型视觉理解动态分辨率视频理解视觉Agent 文档智能通用Grounding SOTA 长上下文处理

已摘要阅读时间：11 分钟（3728 个字） 1 summary version

2024-05-30 | Stanford CS25: V4 I From Large Language Models to Large Multimodal Models

2025-05-18 15:43

讲座由智谱AI研究科学家丁明主讲，他系统回顾了大规模语言模型的发展历程和多模态模型的最新研究进展。内容从最初基于自监督方法的语言模型探索出发，介绍了早期统一遮掩与自回归训练方法的发展，再到GPT‑3时代通过大规模计算与参数扩展实现性能稳步提升，特别强调了扩展计算资源在模型工程化中的作用。随后，他重点探讨了ChatGPT时代任务适应成本低、预训练知识更为关键的现象，并指出训练损失对下游表现的重要影响。讲座还涵盖了Transformer架构的技术细节更新，如预归一化、旋转位置编码、分组注意力以及通过DeepSpeed和零冗余优化、激活检查点等技术在大规模模型训练中的应用，为多模态系统及未来研究指明了方向。

大型语言模型 (LLM) 大型多模态模型 (LMM) Transformer架构深度学习训练技术数据驱动AI 扩散模型模型对齐 (Alignment) 计算机视觉生成式AI 视频理解 CogVLM Scaling Law

已摘要阅读时间：13 分钟（4433 个字） 2 summary versions