StreamSparkAI
Summary
Notes
音频媒体文件
AI搜索
清除
标签搜索结果
for "智能体评估"
Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 12: Evaluation
2025-06-06 15:22
语言模型评估的多维视角与挑战
语言模型评估
人工智能
基准测试
评估危机
数据污染
安全性评估
智能体评估
Chatbot Arena
MMLU
困惑度
指令遵循
已摘要
阅读时间:11 分钟(3703 个字)
2 summary versions