音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "BERT"

Stanford CS224N NLP with Deep Learning | 2023 | Lecture 9 - Pretraining

2025-05-15 21:37

斯坦福大学CS224N课程的第九讲主要讨论了自然语言处理中的模型预训练。讲座首先介绍了子词建模（subword modeling）技术，该技术通过将词汇分解为子词单元（如字符、字符组合），以解决固定词汇表在处理未登录词、新词、拼写错误及词形复杂语言（如斯瓦希里语有大量动词变位）时的局限性，从而提升模型对词汇的覆盖和泛化能力，避免将未知词统一映射为“unk”符号导致信息丢失。随后，课程计划探讨预训练的动机（从词嵌入出发）、三种主要的预训练方法（解码器、编码器、编码器-解码器架构）、预训练赋予模型的能力，以及大型模型和上下文学习（in-context learning）等相关主题。讲座开始时还提及了课程作业（如第五项作业将涵盖预训练、Transformer等内容）和项目提案的截止日期安排。

NLP 预训练大语言模型 Transformer 子词建模掩码语言建模上下文学习微调 BERT GPT 思维链提示

已摘要阅读时间：12 分钟（4127 个字） 2 summary versions

Stanford CS224N: NLP w/ DL | Spring 2024 | Lecture 7 - Attention, Final Projects and LLM Intro

2025-05-15 21:29

该讲座首先回顾了使用多层LSTM进行机器翻译的方法，并强调了评估机器翻译系统的重要性。重点讨论了机器翻译的评估方法，特别是BLEU（Bilingual Evaluation Understudy）评分机制。BLEU通过比较机器翻译结果与一个或多个人工参考译文之间的n-gram（通常是1到4-gram）重叠来打分，重叠越多分数越高，但也存在一定局限性，例如可能因词汇选择不同而给优质翻译低分，或因简单词语匹配而给劣质翻译加分。随后，讲座回顾了机器翻译技术的发展历程：从IBM在90年代末开创的统计短语翻译系统（在2000年代由谷歌等推广），到2005至2014年间研究者尝试的基于句法的翻译系统（旨在通过分析句子结构提升对德语、中文等语序差异较大语言的翻译效果，但收效甚微），最终演进到神经机器翻译（NMT）。NMT约在2014年出现，2015年参与评测，至2016年已超越其他方法，并展现出持续的显著性能提升，目前NMT系统的BLEU分数常能达到50至60分。最后，讲座预告了将介绍“注意力机制”（Attention），这是一种相对较新（不同于2000年前已有的多数神经网络概念）且在现代神经网络中至关重要的概念，它最初在机器翻译背景下被提出，并且是后续将讨论的Transformer模型的核心组成部分。

Natural Language Processing Machine Translation Attention Mechanism Neural Networks BLEU Score Large Language Models (LLMs) BERT Transformer Model Evaluation Research Projects Parameter-Efficient Fine-Tuning (PEFT) Ethical Considerations

已摘要阅读时间：13 分钟（4274 个字） 2 summary versions