音频媒体文件

清除
标签搜索结果 for "大语言模型 (LLM)"
2025-05-18 | 马克的技术工作坊 | MCP 与 Function Calling 到底什么关系,以及为什么我认为大部分人的观点都是错误的
2025-06-10 19:15

Function Calling 与 MCP 的关系解析及共存原理

Function Calling MCP 大语言模型 (LLM) 工具调用 AI Agent 协议标准化 人工智能 OpenAI API 互补关系 AI应用开发
已摘要 阅读时间:6 分钟(1929 个字) 2 summary versions
【生成式AI导论 2024】第16讲:可以加速所有语言模型生成速度的神奇外挂 — Speculative Decoding
2025-06-09 21:31

Speculative Decoding加速语言模型生成技术解析

生成式AI 大语言模型 (LLM) Speculative Decoding 模型加速 生成速度优化 自回归生成 并行验证 预言家模型 无侵入式技术 计算资源换时间
已摘要 阅读时间:6 分钟(1751 个字) 2 summary versions
DeepSeek-V3 Explained by Google Engineer | Mixture of Experts | Multi-head Latent Attention | CUDA
2025-05-31 20:15

DeepSeek V3技术解析:MoE架构与性能优化

DeepSeek-V3 大语言模型 (LLM) 混合专家模型 (MoE) 多头潜在注意力 (MLA) KV缓存优化 无辅助损失负载均衡 多词元预测 (MTP) FP8混合精度训练 CUDA核心优化 推理性能优化 模型效率
已摘要 阅读时间:11 分钟(3504 个字) 1 summary version
2025-05-23 | Stanford CS25 V4 I Behind the Scenes of LLM Pre-training: StarCoder Use Case
2025-05-20 13:14

Loubna Ben Allal在斯坦福CS25课程中分享了大语言模型(LLM)预训练背后的细节,以StarCoder为例探讨了训练高质量LLM所需的数据、模型架构与训练策略,并分析了开放与闭源模型的发展趋势及训练中的权衡问题。

大语言模型 (LLM) LLM预训练 StarCoder 数据质量 开源LLM 规模法则 (Scaling Laws) 合成数据 数据筛选与处理 代码大语言模型 模型评估与基准 负责任AI开发 人工智能 (AI)
已摘要 阅读时间:14 分钟(4696 个字) 3 summary versions