音频媒体文件
标签搜索结果 for "基准测试"
Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 12: Evaluation
2025-06-06 15:22
语言模型评估
人工智能
基准测试
评估危机
数据污染
安全性评估
智能体评估
Chatbot Arena
MMLU
困惑度
指令遵循
已摘要
阅读时间:11 分钟(3703 个字)
2 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 11 - Benchmarking by Yann Dubois
2025-05-16 20:35
自然语言处理
机器学习
深度学习
基准测试
模型评估
大型语言模型
文本生成
文本分类
评估指标
数据污染
人工评估
LLM评估器
已摘要
阅读时间:14 分钟(4806 个字)
2 summary versions