音频媒体文件
标签搜索结果 for "大语言模型"
Trelis Research | Fine tuning Optimizations - DoRA, NEFT, LoRA+, Unsloth
2025-05-31 19:40
人工智能
大语言模型
微调优化
LoRA
DoRA
NEFT
LoRA+
Unsloth
参数高效微调
训练速度
模型性能
已摘要
阅读时间:8 分钟(2480 个字)
1 summary version
CS-194 Eric Wallace Memorization in language models
2025-05-23 13:08
人工智能
大语言模型
模型记忆
隐私泄露
版权侵权
模型安全
成员推断
数据去重
差分隐私
越狱攻击
缓解策略
已摘要
阅读时间:8 分钟(2542 个字)
1 summary version
Stanford CS336 Language Modeling from Scratch | Spring 2025 | Inference
2025-05-21 10:12
大语言模型
推理效率
Transformer模型
KV缓存优化
内存受限
模型量化
模型剪枝
推测采样
PagedAttention
替代架构
动态工作负载
计算强度
已摘要
阅读时间:9 分钟(2905 个字)
3 summary versions
2024-05-01 | Stanford CS25 V4 I Demystifying Mixtral of Experts
2025-05-20 13:31
人工智能
大语言模型
稀疏混合专家
Mixtral 8x7B
模型架构
推理效率
参数效率
模型可解释性
知识密集型任务
路由机制
开源模型
已摘要
阅读时间:12 分钟(3862 个字)
2 summary versions
MIT | Liquid AI | Introduction to LLM Post-Training
2025-05-18 16:19
LLM 后训练
监督微调
偏好对齐
大语言模型
模型微调
数据质量
模型合并
模型评估
测试时计算扩展
人工智能
参数高效微调
已摘要
阅读时间:16 分钟(5408 个字)
2 summary versions
Stanford CS224N NLP with Deep Learning | 2023 | Lecture 9 - Pretraining
2025-05-15 21:37
NLP
预训练
大语言模型
Transformer
子词建模
掩码语言建模
上下文学习
微调
BERT
GPT
思维链提示
已摘要
阅读时间:12 分钟(4127 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 04 Mixture of experts
2025-05-13 16:59
大语言模型
混合专家
MoE架构
Transformer模型
稀疏激活
专家并行
模型训练
模型优化
计算效率
DeepSeek V3
已摘要
阅读时间:15 分钟(4973 个字)
3 summary versions