StreamSparkAI
Summary
Notes
音频媒体文件
AI搜索
清除
标签搜索结果
for "MinHash"
2025-06-17 | Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 14: Data 2
2025-06-17 12:06
语言模型数据过滤与去重技术解析
语言模型
数据预处理
数据过滤
数据去重
fastText
LSH
MinHash
布隆过滤器
KenLM
DSIR
质量过滤
近似重复检测
已摘要
阅读时间:12 分钟(4090 个字)
2 summary versions