音频媒体文件

清除
标签搜索结果 for "大型语言模型 (LLM)"
Prompt Engineering Explained By Google Engineer | 100X Productivity With AI | Prompting Techniques
2025-06-15 21:06

Prompt工程核心技巧揭秘:解锁AI潜能的超级能力

Prompt Engineering 人工智能 大型语言模型 (LLM) 思维链 (CoT) 检索增强生成 (RAG) ReAct框架 角色提示 AI生产力 多模态提示 LLM幻觉
已摘要 阅读时间:10 分钟(3403 个字) 2 summary versions
2025-03-04 | CS224N | Lecture 18 - NLP, Linguistics, Philosophy
2025-06-05 22:45

NLP语言学与哲学探讨及AI未来发展

自然语言处理 (NLP) 人工智能 (AI) 大型语言模型 (LLM) Transformer架构 分布语义 规模化定律 (Scaling Laws) AI伦理 模型可解释性 语言学与NLP AI风险 符号主义 vs 连接主义
已摘要 阅读时间:11 分钟(3602 个字) 1 summary version
Stanford CS25: V5 I Large Language Model Reasoning, Denny Zhou of Google Deepmind
2025-05-27 21:30

大型语言模型推理能力解析:从思维链到解码策略

人工智能 大型语言模型 (LLM) LLM推理 思维链 (CoT) 解码策略 迭代式微调 (IFT) 自洽性 (Self-Consistency) 模型自改进 检索增强推理 提示工程 谷歌DeepMind 涌现能力
已摘要 阅读时间:11 分钟(3800 个字) 2 summary versions
CS 194⧸294-196 (LLM Agents) - Lecture 1, Denny Zhou
2025-05-23 12:59

LLM Agents与推理能力的前沿探索

人工智能 大型语言模型 (LLM) LLM智能体 推理能力 思维链 (CoT) 提示策略 自洽性 (Self-Consistency) 少样本学习 模型局限性 多智能体系统 检索增强生成 (RAG)
已摘要 阅读时间:11 分钟(3527 个字) 2 summary versions
Google | Peter Grabowski | Introduction to Language Modeling
2025-05-18 16:18

讲者对语言模型基本原理进行了介绍,指出语言模型本质上类似于智能自动补全系统,采用自回归方式逐词生成文本。他以“这是最好的时代,这是最坏的时代”这一经典例子说明,通过统计训练数据中词语共现概率构建贝叶斯语言模型,可能会因概率循环而导致重复输出,进而解释了所谓的“幻觉”现象。讲者还展示了利用谷歌较早期的Lambda模型实现餐饮推荐聊天机器人的案例,讨论了训练数据中固有模板对生成内容的影响,同时提及了通过角色提示等策略来缓解类似问题。整个讲解过程中,他结合自身在谷歌以及学术界的经验,阐述了从基础语言模型到大规模模型在应用中的相关考虑。

大型语言模型 (LLM) 语言模型基础 Prompt Engineering AI Agents 模型幻觉 检索增强生成 (RAG) 参数高效微调 (PEFT) 指令调优 RLHF AI安全 自回归解码 Google Gemini
已摘要 阅读时间:22 分钟(7414 个字) 2 summary versions
2024-05-30 | Stanford CS25: V4 I From Large Language Models to Large Multimodal Models
2025-05-18 15:43

讲座由智谱AI研究科学家丁明主讲,他系统回顾了大规模语言模型的发展历程和多模态模型的最新研究进展。内容从最初基于自监督方法的语言模型探索出发,介绍了早期统一遮掩与自回归训练方法的发展,再到GPT‑3时代通过大规模计算与参数扩展实现性能稳步提升,特别强调了扩展计算资源在模型工程化中的作用。随后,他重点探讨了ChatGPT时代任务适应成本低、预训练知识更为关键的现象,并指出训练损失对下游表现的重要影响。讲座还涵盖了Transformer架构的技术细节更新,如预归一化、旋转位置编码、分组注意力以及通过DeepSpeed和零冗余优化、激活检查点等技术在大规模模型训练中的应用,为多模态系统及未来研究指明了方向。

大型语言模型 (LLM) 大型多模态模型 (LMM) Transformer架构 深度学习训练技术 数据驱动AI 扩散模型 模型对齐 (Alignment) 计算机视觉 生成式AI 视频理解 CogVLM Scaling Law
已摘要 阅读时间:13 分钟(4433 个字) 2 summary versions
2025-04-01 | Stanford CS25: V5 I Overview of Transformers
2025-05-18 15:29

讲座系统地介绍了transformers的基本原理与发展历程,内容包括词向量和上下文嵌入的演变、自注意力机制中查询、键和值的工作原理、位置编码与多头注意力的作用以及最终实现的模型架构。讲者阐述了大规模语言模型预训练的关键策略,如数据混合、两阶段训练以及与人类语言学习数据量对比带来的启示,并探讨了微调、链式思维推理、基于人类反馈的强化学习等后续优化方法。讲座还展示了transformers在自然语言处理、计算机视觉、语音、生物信息、机器人等多个领域的广泛应用,并展望了模型可解释性、终身学习、设备端部署和自我改进智能体的发展前景,同时提出了应对高计算成本和环境影响的挑战。

人工智能 (AI) Transformer 大型语言模型 (LLM) 预训练 训练后策略 思维链 (CoT) 强化学习 (RLHF) AI智能体 数据策略 模型可解释性 持续学习 通用人工智能 (AGI)
已摘要 阅读时间:22 分钟(7621 个字) 2 summary versions
2025-04-08 | Stanford CS25: V5 I RL as a Co-Design of Product and Research, Karina Nguyen
2025-05-18 15:21

演讲者详细介绍了人工智能产品设计与强化学习研究相互协同的重要性,并通过多个实例展示了AI在教育辅助、交互式工具开发、前端应用及图像生成等领域的创新应用。她强调通过原型快速迭代和用户即时反馈构建更符合实际需求的评估系统,同时探讨了从预测生成到链式思考以及模型自我校准等技术演进路径,表达了对未来AI赋能人类创意与协作的乐观期待。

人工智能 (AI) 强化学习 (RL) 产品研究协同 大型语言模型 (LLM) 模型后训练 AI对齐 人机协作 合成数据 评估指标 (Evals) 奖励机制设计 生成式UI 创造力赋能
已摘要 阅读时间:22 分钟(7589 个字) 2 summary versions