音频媒体文件

清除
标签搜索结果 for "AI安全"
2025-06-21 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 15: Alignment - SFT/RLHF
2025-06-21 17:02

从 GPT-3 到 ChatGPT:RLHF 与语言模型对齐方法详解

模型对齐 RLHF 大语言模型 SFT (监督微调) DPO (直接偏好优化) 指令遵循 AI安全 奖励模型 PPO
已摘要 阅读时间:7 分钟(2314 个字) 2 summary versions
2025-04-24 | Anthropic | Could AI models be conscious?
2025-06-07 19:47

AI意识的可能性与伦理思考

AI意识 模型福祉 人工智能伦理 AI对齐 主观体验 全局工作空间理论 具身认知 AI安全 Anthropic
已摘要 阅读时间:9 分钟(2939 个字) 2 summary versions
2025-03-18 | Anthropic | Controlling powerful AI
2025-06-07 19:45

AI控制:应对强大人工智能风险的策略与挑战

AI安全 AI控制 AI对齐 对齐伪装 风险管理 威胁建模 可信监控 欺骗性AI Anthropic 机理可解释性
已摘要 阅读时间:7 分钟(2441 个字) 1 summary version
2025-06-06 | Stanford CS25: V5 | On the Biology of a Large Language Model, Josh Batson of Anthropic
2025-06-06 17:53

Joshua Batson探讨大型语言模型的内部机制与行为特性

大型语言模型 机械可解释性 Anthropic 模型电路 稀疏自动编码器 抽象表征 并行计算 模型规划能力 AI安全 字典学习 模型行为分析
已摘要 阅读时间:10 分钟(3169 个字) 1 summary version
CS 194⧸294-196 (LLM Agents) - Lecture 2, Shunyu Yao
2025-05-23 12:59

AI安全与表征工程:风险、研究方向与应用探索

LLM LLM智能体 ReAct框架 推理与行动 智能体长时记忆 数字自动化 AI安全 表征工程 人机协同 智能体训练 智能体基准测试 工具使用 (AI)
已摘要 阅读时间:8 分钟(2473 个字) 2 summary versions
Google | Peter Grabowski | Introduction to Language Modeling
2025-05-18 16:18

讲者对语言模型基本原理进行了介绍,指出语言模型本质上类似于智能自动补全系统,采用自回归方式逐词生成文本。他以“这是最好的时代,这是最坏的时代”这一经典例子说明,通过统计训练数据中词语共现概率构建贝叶斯语言模型,可能会因概率循环而导致重复输出,进而解释了所谓的“幻觉”现象。讲者还展示了利用谷歌较早期的Lambda模型实现餐饮推荐聊天机器人的案例,讨论了训练数据中固有模板对生成内容的影响,同时提及了通过角色提示等策略来缓解类似问题。整个讲解过程中,他结合自身在谷歌以及学术界的经验,阐述了从基础语言模型到大规模模型在应用中的相关考虑。

大型语言模型 (LLM) 语言模型基础 Prompt Engineering AI Agents 模型幻觉 检索增强生成 (RAG) 参数高效微调 (PEFT) 指令调优 RLHF AI安全 自回归解码 Google Gemini
已摘要 阅读时间:22 分钟(7414 个字) 2 summary versions