音频媒体列表 - StreamSparkAI

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Scaling laws 2

2025-06-04 13:29

Scaling Laws and Model Training Optimization in Large Language Models

LLM 缩放法则 µP (Maximal Update Parametrization) 超参数优化模型训练优化 WSD学习率调度器 Chinchilla法则计算效率模型初始化 IsoFLOP分析

已摘要阅读时间：12 分钟（4191 个字） 2 summary versions

BiliBili | IBM RethinkFun | 三分钟学会大模型PEFT的LORA算法 lora_rank lora_alpha

2025-06-01 22:18

LORA算法原理与参数高效微调技巧

LoRA算法参数高效微调大模型人工智能深度学习低秩适应模型微调权重矩阵 lora_rank lora_alpha 计算效率

已摘要阅读时间：4 分钟（1298 个字） 1 summary version

Stanford CS25: V2 I Introduction to Transformers w/ Andrej Karpathy

2025-05-16 20:54

该转录文本主要介绍了斯坦福大学CS25课程“Transformers United V2”的概览。课程聚焦于深度学习模型“Transformers”，该模型自2017年问世以来，已革新自然语言处理（NLP）领域，并广泛应用于计算机视觉、强化学习、生物学等多个方向。课程旨在深入解析Transformers的工作原理、不同类型及其应用，并邀请了领域内专家进行分享。几位课程讲师进行了自我介绍，并阐述了课程目标，即帮助学生理解Transformers的运作机制、应用场景及前沿研究动态。随后，内容回顾了Transformers的发展历程：从2017年论文《Attention is All You Need》的提出，标志着Transformers时代的开启，到其在NLP领域的迅速普及，再到2018-2020年间扩展至计算机视觉、生物信息学等领域，以及2021年至今生成模型（如GPT、DALL-E、ChatGPT）的爆发式增长。讲师强调了Transformers在处理长序列、理解上下文方面的优势，超越了早期的RNN和LSTM模型。目前，Transformers在零样本泛化、多模态任务、音频与艺术创作、代码生成以及初步的逻辑推理方面展现出强大能力，并通过强化学习与人类反馈（RLHF）技术提升了与人类的交互和对齐。展望未来，Transformers有望在视频理解与生成、金融、商业等领域取得突破，甚至可能用于文学创作。发展方向包括通用智能体、特定领域模型（如医疗GPT、法律GPT）及“专家模型”混合系统。然而，实现这些愿景面临诸多挑战： 1. **记忆与交互**：当前模型缺乏长期记忆和持续学习能力。 2. **计算复杂度**：注意力机制的二次方复杂度亟待优化。 3. **可控性**：需增强对模型输出的精确控制。 4. **与人类认知对齐**：需进一步研究如何使模型的工作方式更接近人类大脑。最后，一位讲师（可能为Andrej Karpathy）简述了AI领域的发展背景，以此引出设立Transformers课程的初衷。

Transformers 深度学习自然语言处理注意力机制模型架构人工智能计算机视觉 GPT模型上下文学习 AI发展史计算效率未来AI

已摘要阅读时间：14 分钟（4802 个字） 3 summary versions

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 04 Mixture of experts

2025-05-13 16:59

该讲座介绍了混合专家（MoE）架构在语言模型中的应用。讲座指出，MoE已成为2025年构建高性能大语言模型（如Grok、DeepSeek、Llama 4）的关键技术，相较于密集模型，能在相似计算资源消耗（FLOPs）下实现更优性能。 MoE的核心思想是将传统Transformer模型中的前馈网络（FFN）替换为多个“专家”（即多个FFN副本）和一个“路由器”。在每次前向传播时，路由器会选择性地激活一小部分专家进行计算，从而在不显著增加实际计算量的前提下，大幅提升模型的总参数量。这种稀疏激活机制使得模型能以相同的训练FLOPs达到更低的训练损失和更好的性能指标（如困惑度）。讲座强调了MoE的几大优势：1) 以更少的计算激活更多参数，提升模型容量和知识记忆能力；2) 在相同训练FLOPs下性能优于密集模型；3) 提供“专家并行”这一新的模型并行化维度，便于将大模型扩展到多设备上。尽管MoE在系统实现上存在复杂性，例如专家权重的存储和数据路由，但其带来的性能提升和并行化便利性使其得到广泛应用。讲座还提及，MoE技术早期由Google等闭源实验室研发，中国团队（如Qwen、DeepSeek）在开源MoE的探索和基准测试方面做出了重要贡献，近期西方开源社区也开始积极采纳该架构。讲座后续计划深入探讨DeepSeek V3等具体案例。

大语言模型混合专家 MoE架构 Transformer模型稀疏激活专家并行模型训练模型优化计算效率 DeepSeek V3

已摘要阅读时间：15 分钟（4973 个字） 3 summary versions

音频媒体文件

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Scaling laws 2

BiliBili | IBM RethinkFun | 三分钟学会大模型PEFT的LORA算法 lora_rank lora_alpha

Stanford CS25: V2 I Introduction to Transformers w/ Andrej Karpathy

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 04 Mixture of experts