音频媒体文件
标签搜索结果 for "DPO"
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert
2025-05-16 20:47
LLM Alignment
DPO
RLHF
Post-training
Large Language Models
Preference Tuning
Instruction Tuning
Reward Modeling
Online Learning
Data Bottlenecks
NLP
AI Research
已摘要
阅读时间:14 分钟(4845 个字)
2 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 10 - Post-training by Archit Sharma
2025-05-15 22:42
大型语言模型
后训练
指令精调
RLHF
DPO
上下文学习
零样本学习
少样本学习
提示工程
AI对齐
规模法则
ChatGPT
已摘要
阅读时间:12 分钟(3939 个字)
2 summary versions
2024 | Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)
2025-05-14 13:38
大型语言模型
LLMs
预训练
后训练
RLHF
DPO
数据处理
模型评估
规模法则
系统优化
词元化
已摘要
阅读时间:10 分钟(3289 个字)
3 summary versions