音频媒体文件

清除
标签搜索结果 for "AI对齐"
2025-04-24 | Anthropic | Could AI models be conscious?
2025-06-07 19:47

AI意识的可能性与伦理思考

AI意识 模型福祉 人工智能伦理 AI对齐 主观体验 全局工作空间理论 具身认知 AI安全 Anthropic
已摘要 阅读时间:9 分钟(2939 个字) 2 summary versions
2025-03-18 | Anthropic | Controlling powerful AI
2025-06-07 19:45

AI控制:应对强大人工智能风险的策略与挑战

AI安全 AI控制 AI对齐 对齐伪装 风险管理 威胁建模 可信监控 欺骗性AI Anthropic 机理可解释性
已摘要 阅读时间:7 分钟(2441 个字) 1 summary version
2025-04-08 | Stanford CS25: V5 I RL as a Co-Design of Product and Research, Karina Nguyen
2025-05-18 15:21

演讲者详细介绍了人工智能产品设计与强化学习研究相互协同的重要性,并通过多个实例展示了AI在教育辅助、交互式工具开发、前端应用及图像生成等领域的创新应用。她强调通过原型快速迭代和用户即时反馈构建更符合实际需求的评估系统,同时探讨了从预测生成到链式思考以及模型自我校准等技术演进路径,表达了对未来AI赋能人类创意与协作的乐观期待。

人工智能 (AI) 强化学习 (RL) 产品研究协同 大型语言模型 (LLM) 模型后训练 AI对齐 人机协作 合成数据 评估指标 (Evals) 奖励机制设计 生成式UI 创造力赋能
已摘要 阅读时间:22 分钟(7589 个字) 2 summary versions
Stanford CS224N | 2023 | Lecture 10 - Prompting, Reinforcement Learning from Human Feedback
2025-05-16 21:06

该讲座由斯坦福大学的Jesse Mu博士主讲,核心内容是大型语言模型(LLM)中的提示(prompting)、指令微调(instruction fine-tuning)以及从人类反馈中强化学习(RLHF),这些技术是驱动近期如ChatGPT等聊天机器人发展的关键。 讲座首先提及了课程的一些安排,包括项目提案截止、作业提交以及课程反馈调查。 随后,讲座深入探讨了大型语言模型的发展趋势:模型规模持续扩大,训练数据量不断增加。这使得LLM不仅能预测文本序列,还开始展现出对世界更深层次的理解,例如学习句法、共指消解、情感分析,甚至发展出初步的“世界模型”能力。一个例子表明,LLM能根据输入文本中描述的人物背景(如是否为物理学家)来推断其对物理现象(如真空环境下保龄球和树叶同时落地)的认知。此外,LLM在处理百科知识、数学推理、代码生成乃至医学文本方面也显示出潜力。 讲座的主要目标是阐释如何将仅能预测下一个词的基础语言模型,逐步转化为能执行多样化任务的智能助手,类似ChatGPT。为此,讲座计划分阶段介绍三种技术路径: 1. 零样本(zero-shot)和少样本(few-shot)学习; 2. 指令微调; 3. 从人类反馈中强化学习(RLHF)。 讲座接着详细介绍了零样本和少样本学习。回顾了早期的GPT模型(2018年,1.17亿参数),它是一个仅解码器的语言模型,通过预训练来提升下游任务的性能。随后发布的GPT-2(2019年,15亿参数)在模型规模和训练数据(40GB的WebText数据集,通过筛选Reddit高质量链接构建)上都有显著提升。GPT-2的重要贡献在于揭示了语言模型具备“无监督多任务学习”的能力,特别是零样本学习。这意味着模型无需针对特定任务进行额外的梯度更新或微调,仅通过设计合适的输入提示(将任务转化为序列预测问题),就能执行多种未曾明确训练过的任务。例如,通过提供上下文和问题,让模型续写答案来进行问答;或者通过比较不同句子序列的生成概率来解决需要世界知识的代词消歧任务(如Winograd模式挑战)。GPT-2在当时仅凭零样本学习就在多个语言建模基准测试中取得了领先水平,且无需针对特定任务进行微调。

大型语言模型 自然语言处理 提示工程 指令微调 RLHF 强化学习 零样本学习 少样本学习 链式思维 AI对齐 奖励模型
已摘要 阅读时间:14 分钟(4761 个字) 1 summary version
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 10 - Post-training by Archit Sharma
2025-05-15 22:42

斯坦福大学博士生 Archit Sharma 介绍了大型语言模型的后训练(post-training)过程,旨在阐释如何从基础的预训练模型发展到如 ChatGPT 这样强大的模型。 他首先强调了“规模法则”(scaling laws)的重要性:随着模型参数量(计算量从10^24浮点运算增至超过10^26)和训练数据量(从2022年的1.4万亿词元增至2024年Llama 3的约15万亿词元)的持续增长,模型能力不断提升,但同时也带来了巨大的成本投入。 预训练不仅让模型学习事实知识、语法、语义和多种语言,更重要的是,模型开始展现出理解人类信念、行为和意图的深层能力。例如,模型能根据情境中人物的背景知识预测其不同反应,或在数学、编程(如Copilot辅助编码)、医学(初步诊断,但不建议作为医疗建议)等领域展现应用潜力。尽管预训练任务本质上是预测下一个词元,但模型正演变为通用的多任务助手。 讲座的核心内容将依次探讨: 1. 零样本(Zero-Shot)和少样本(Few-Shot)上下文学习(In-Context Learning)。 2. 指令微调(Instruction fine-tuning)。 3. 基于人类偏好的优化方法(如DPO和RLHF)。 4. 探讨当前技术的局限与未来发展方向。 以GPT系列模型为例,从GPT-1到GPT-2,通过扩大模型规模和数据量,GPT-2展现了零样本学习能力,即模型无需针对特定任务进行额外训练,仅通过巧妙设计提示(prompting),就能执行如文本摘要、问答等多种任务。

大型语言模型 后训练 指令精调 RLHF DPO 上下文学习 零样本学习 少样本学习 提示工程 AI对齐 规模法则 ChatGPT
已摘要 阅读时间:12 分钟(3939 个字) 2 summary versions