StreamSparkAI

Summary Notes

音频媒体文件

清除
标签搜索结果 for "数据去重"
2025-06-17 | Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 14: Data 2
2025-06-17 12:06

语言模型数据过滤与去重技术解析

语言模型 数据预处理 数据过滤 数据去重 fastText LSH MinHash 布隆过滤器 KenLM DSIR 质量过滤 近似重复检测
已摘要 阅读时间:12 分钟(4090 个字) 2 summary versions
CS-194 Eric Wallace Memorization in language models
2025-05-23 13:08

语言模型中的记忆效应:风险、检测与缓解策略

人工智能 大语言模型 模型记忆 隐私泄露 版权侵权 模型安全 成员推断 数据去重 差分隐私 越狱攻击 缓解策略
已摘要 阅读时间:8 分钟(2542 个字) 1 summary version

© 2026 StreamSparkAI. 保留所有权利。 沪ICP备18047501号-2