音频媒体文件
标签搜索结果 for "AI安全"
2025-06-21 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 15: Alignment - SFT/RLHF
2025-06-21 17:02
模型对齐
RLHF
大语言模型
SFT (监督微调)
DPO (直接偏好优化)
指令遵循
AI安全
奖励模型
PPO
已摘要
阅读时间:7 分钟(2314 个字)
2 summary versions
2025-04-24 | Anthropic | Could AI models be conscious?
2025-06-07 19:47
AI意识
模型福祉
人工智能伦理
AI对齐
主观体验
全局工作空间理论
具身认知
AI安全
Anthropic
已摘要
阅读时间:9 分钟(2939 个字)
2 summary versions
2025-03-18 | Anthropic | Controlling powerful AI
2025-06-07 19:45
AI安全
AI控制
AI对齐
对齐伪装
风险管理
威胁建模
可信监控
欺骗性AI
Anthropic
机理可解释性
已摘要
阅读时间:7 分钟(2441 个字)
1 summary version
2025-06-06 | Stanford CS25: V5 | On the Biology of a Large Language Model, Josh Batson of Anthropic
2025-06-06 17:53
大型语言模型
机械可解释性
Anthropic
模型电路
稀疏自动编码器
抽象表征
并行计算
模型规划能力
AI安全
字典学习
模型行为分析
已摘要
阅读时间:10 分钟(3169 个字)
1 summary version
CS 194⧸294-196 (LLM Agents) - Lecture 2, Shunyu Yao
2025-05-23 12:59
LLM
LLM智能体
ReAct框架
推理与行动
智能体长时记忆
数字自动化
AI安全
表征工程
人机协同
智能体训练
智能体基准测试
工具使用 (AI)
已摘要
阅读时间:8 分钟(2473 个字)
2 summary versions
Google | Peter Grabowski | Introduction to Language Modeling
2025-05-18 16:18
大型语言模型 (LLM)
语言模型基础
Prompt Engineering
AI Agents
模型幻觉
检索增强生成 (RAG)
参数高效微调 (PEFT)
指令调优
RLHF
AI安全
自回归解码
Google Gemini
已摘要
阅读时间:22 分钟(7414 个字)
2 summary versions