音频媒体文件
标签搜索结果 for "强化学习"
2025-06-03 | AI Engineer | The Future of Qwen: A Generalist Agent Model — Junyang Lin, Alibaba Qwen
2025-06-10 12:49
人工智能
Qwen大模型
Qwen3
通用智能体模型
强化学习
多模态大模型
混合思维模式
动态思维预算
MoE模型
开源大模型
上下文窗口扩展
多语言支持
已摘要
阅读时间:9 分钟(3127 个字)
2 summary versions
BiliBili | IBM RethinkFun | 零基础学习强化学习算法:PPO
2025-06-01 22:14
强化学习
PPO算法
策略梯度
Actor-Critic
优势函数
GAE
重要性采样
离策略学习
人工智能
强化学习入门
已摘要
阅读时间:9 分钟(2807 个字)
1 summary version
2025-05-13 | Stanford CS25: V5 I The Advent of AGI, Div Garg
2025-05-18 15:20
通用人工智能
AI 代理
强化学习
代理架构
代理评估
代理通信
可靠性
个性化
多代理系统
数字世界交互
已摘要
阅读时间:14 分钟(4739 个字)
2 summary versions
Andrej Karpathy | Deep Dive into LLMs like ChatGPT
2025-05-17 22:01
大型语言模型
ChatGPT
预训练
微调
强化学习
分词
Transformer架构
幻觉
工具使用
Andrej Karpathy
多模态
上下文窗口
已摘要
阅读时间:21 分钟(7246 个字)
3 summary versions
Stanford CS224N | 2023 | Lecture 10 - Prompting, Reinforcement Learning from Human Feedback
2025-05-16 21:06
大型语言模型
自然语言处理
提示工程
指令微调
RLHF
强化学习
零样本学习
少样本学习
链式思维
AI对齐
奖励模型
已摘要
阅读时间:14 分钟(4761 个字)
1 summary version