音频媒体文件
标签搜索结果 for "语言模型"
2025-06-17 | Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 14: Data 2
2025-06-17 12:06
语言模型
数据预处理
数据过滤
数据去重
fastText
LSH
MinHash
布隆过滤器
KenLM
DSIR
质量过滤
近似重复检测
已摘要
阅读时间:12 分钟(4090 个字)
2 summary versions
2025-06-11 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 13: Data 1
2025-06-11 11:49
语言模型
LLM
模型训练
数据处理
预训练
指令微调
合成数据
Common Crawl
版权法
合理使用
已摘要
阅读时间:7 分钟(2385 个字)
2 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 6 - Sequence to Sequence Models
2025-05-15 22:01
自然语言处理
深度学习
循环神经网络
LSTM
语言模型
困惑度
梯度消失
序列到序列模型
神经机器翻译
编码器-解码器模型
已摘要
阅读时间:9 分钟(3048 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 06 Kernels, Triton
2025-05-13 17:44
GPU编程
语言模型
高性能计算
Triton
CUDA
PyTorch
性能优化
性能分析
核函数融合
PTX
GPU架构
深度学习
已摘要
阅读时间:7 分钟(2174 个字)
1 summary version
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 03 Architectures, Hyperparameters
2025-05-13 16:59
语言模型
Transformer架构
大型语言模型
模型训练
训练稳定性
架构演进
层归一化
RMSNorm
旋转位置编码
SwiGLU
注意力机制
超参数
已摘要
阅读时间:9 分钟(3084 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 05 GPUs
2025-05-13 16:31
GPU
语言模型
高性能计算
CUDA
内存瓶颈
并行计算
性能优化
FlashAttention
分块
重计算
矩阵乘法
硬件加速
已摘要
阅读时间:11 分钟(3809 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 02 Pytorch, Resource Accounting
2025-05-13 16:30
语言模型
PyTorch
资源核算
内存核算
计算核算
浮点精度
BF16
FLOPs
矩阵乘法
混合精度训练
优化器状态
模型规模
已摘要
阅读时间:11 分钟(3692 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 01 Overview and Tokenization
2025-05-13 16:29
语言模型
LLMs
从零构建
Transformer
Tokenization
BPE
并行计算
规模法则
模型训练
模型对齐
数据处理
GPU优化
已摘要
阅读时间:15 分钟(4925 个字)
2 summary versions