音频媒体文件
标签搜索结果 for "视频理解"
【通义时间】如何让Qwen2.5-VL更好地看见这个世界?
2025-06-02 10:39
Qwen-VL
多模态大模型
视觉理解
动态分辨率
视频理解
视觉Agent
文档智能
通用Grounding
SOTA
长上下文处理
已摘要
阅读时间:11 分钟(3728 个字)
1 summary version
2024-05-30 | Stanford CS25: V4 I From Large Language Models to Large Multimodal Models
2025-05-18 15:43
大型语言模型 (LLM)
大型多模态模型 (LMM)
Transformer架构
深度学习训练技术
数据驱动AI
扩散模型
模型对齐 (Alignment)
计算机视觉
生成式AI
视频理解
CogVLM
Scaling Law
已摘要
阅读时间:13 分钟(4433 个字)
2 summary versions