StreamSparkAI

Summary Notes

音频媒体文件

清除
标签搜索结果 for "思维链提示"
Stanford CS224N NLP with Deep Learning | 2023 | Lecture 9 - Pretraining
2025-05-15 21:37

斯坦福大学CS224N课程的第九讲主要讨论了自然语言处理中的模型预训练。讲座首先介绍了子词建模(subword modeling)技术,该技术通过将词汇分解为子词单元(如字符、字符组合),以解决固定词汇表在处理未登录词、新词、拼写错误及词形复杂语言(如斯瓦希里语有大量动词变位)时的局限性,从而提升模型对词汇的覆盖和泛化能力,避免将未知词统一映射为“unk”符号导致信息丢失。随后,课程计划探讨预训练的动机(从词嵌入出发)、三种主要的预训练方法(解码器、编码器、编码器-解码器架构)、预训练赋予模型的能力,以及大型模型和上下文学习(in-context learning)等相关主题。讲座开始时还提及了课程作业(如第五项作业将涵盖预训练、Transformer等内容)和项目提案的截止日期安排。

NLP 预训练 大语言模型 Transformer 子词建模 掩码语言建模 上下文学习 微调 BERT GPT 思维链提示
已摘要 阅读时间:12 分钟(4127 个字) 2 summary versions

© 2026 StreamSparkAI. 保留所有权利。 沪ICP备18047501号-2