音频媒体列表 - StreamSparkAI

2025-06-21 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 15: Alignment - SFT/RLHF

2025-06-21 17:02

从 GPT-3 到 ChatGPT：RLHF 与语言模型对齐方法详解

模型对齐 RLHF 大语言模型 SFT (监督微调) DPO (直接偏好优化) 指令遵循 AI安全奖励模型 PPO

已摘要阅读时间：7 分钟（2314 个字） 2 summary versions

2025-04-24 | Anthropic | Could AI models be conscious?

2025-06-07 19:47

AI意识的可能性与伦理思考

AI意识模型福祉人工智能伦理 AI对齐主观体验全局工作空间理论具身认知 AI安全 Anthropic

已摘要阅读时间：9 分钟（2939 个字） 2 summary versions

2025-03-18 | Anthropic | Controlling powerful AI

2025-06-07 19:45

AI控制：应对强大人工智能风险的策略与挑战

AI安全 AI控制 AI对齐对齐伪装风险管理威胁建模可信监控欺骗性AI Anthropic 机理可解释性

已摘要阅读时间：7 分钟（2441 个字） 1 summary version

2025-06-06 | Stanford CS25: V5 | On the Biology of a Large Language Model, Josh Batson of Anthropic

2025-06-06 17:53

Joshua Batson探讨大型语言模型的内部机制与行为特性

大型语言模型机械可解释性 Anthropic 模型电路稀疏自动编码器抽象表征并行计算模型规划能力 AI安全字典学习模型行为分析

已摘要阅读时间：10 分钟（3169 个字） 1 summary version

CS 194⧸294-196 (LLM Agents) - Lecture 2, Shunyu Yao

2025-05-23 12:59

AI安全与表征工程：风险、研究方向与应用探索

LLM LLM智能体 ReAct框架推理与行动智能体长时记忆数字自动化 AI安全表征工程人机协同智能体训练智能体基准测试工具使用 (AI)

已摘要阅读时间：8 分钟（2473 个字） 2 summary versions

Google | Peter Grabowski | Introduction to Language Modeling

2025-05-18 16:18

讲者对语言模型基本原理进行了介绍，指出语言模型本质上类似于智能自动补全系统，采用自回归方式逐词生成文本。他以“这是最好的时代，这是最坏的时代”这一经典例子说明，通过统计训练数据中词语共现概率构建贝叶斯语言模型，可能会因概率循环而导致重复输出，进而解释了所谓的“幻觉”现象。讲者还展示了利用谷歌较早期的Lambda模型实现餐饮推荐聊天机器人的案例，讨论了训练数据中固有模板对生成内容的影响，同时提及了通过角色提示等策略来缓解类似问题。整个讲解过程中，他结合自身在谷歌以及学术界的经验，阐述了从基础语言模型到大规模模型在应用中的相关考虑。

大型语言模型 (LLM) 语言模型基础 Prompt Engineering AI Agents 模型幻觉检索增强生成 (RAG) 参数高效微调 (PEFT) 指令调优 RLHF AI安全自回归解码 Google Gemini