音频媒体文件

清除
标签搜索结果 for "模型评估"
B站 | 微软Reactor_SH | 玩转 GitHub Copilot|面向 MLOps⧸数据科学家的 GitHub Copilot
2025-06-05 16:14

GitHub Copilot 助力 MLOps 与数据科学高效编程

GitHub Copilot MLOps 数据科学 AI编程助手 机器学习 数据预处理 特征工程 模型训练 模型评估 Pandas Scikit-learn 代码生成
已摘要 阅读时间:7 分钟(2186 个字) 1 summary version
Trelis Research | Fine tune Gemma 3, Qwen3, Llama 4, Phi 4 and Mistral Small with Unsloth and Transformers
2025-05-31 19:44

微调主流开源大模型:对比Unsloth与Transformers性能及技巧解析

大语言模型微调 Unsloth Transformers vLLM 开源大模型 LoRA 模型评估 数据准备 AI 性能对比
已摘要 阅读时间:9 分钟(3054 个字) 1 summary version
2023-09-20 | Stanford CS224N NLP with Deep Learning | Lecture 16 - Multimodal Deep Learning, Douwe Kiela
2025-05-20 23:43

多模态深度学习:NLP与图像融合前沿

多模态深度学习 自然语言处理 计算机视觉 人工智能 Transformer 对比学习 CLIP模型 基础模型 模型评估 多模态融合
已摘要 阅读时间:13 分钟(4213 个字) 1 summary version
MIT | Liquid AI | Introduction to LLM Post-Training
2025-05-18 16:19

该转录内容阐述了大型语言模型在预训练后的后训练过程。讲者指出,预训练阶段仅使模型具备下一个令牌预测能力,而后训练则通过监督微调和偏好对齐两步,将基础模型转变为能理解指令、回答问题的实用助手。文中区分了通用微调、领域特定微调和任务特定微调三种方式,并说明了不同方式在数据规模和质量要求上的区别。讲解还涉及了何时采用微调技术,如改变回答语气、注入领域知识、模型蒸馏以及针对特定任务优化,同时强调了持续评估与迭代的重要性。最后,内容还总结了构建高质量数据集的三大要素:准确性、多样性和复杂性。

LLM 后训练 监督微调 偏好对齐 大语言模型 模型微调 数据质量 模型合并 模型评估 测试时计算扩展 人工智能 参数高效微调
已摘要 阅读时间:16 分钟(5408 个字) 2 summary versions
Stanford CS224N: NLP w/ DL | Spring 2024 | Lecture 14 - Reasoning and Agents by Shikhar Murty
2025-05-16 21:03

该讲座主要探讨了语言模型在推理领域的应用。首先,讲座定义了推理是利用事实和逻辑得出答案的过程,并区分了演绎推理、归纳推理和溯因推理三种主要类型,同时提及形式与非形式推理,指出讲座重点关注多步骤的非形式演绎推理。 接着,讲座探讨了通过提示工程(prompting)引导大型语言模型进行推理的多种方法。其中包括“思维链”(Chain-of-Thought, CoT)提示,即引导模型在给出答案前生成推理步骤,可通过上下文示例或“让我们一步一步思考”等简单指令实现。“自洽性”(Self-Consistency)方法通过对同一问题采样多个推理路径和答案,并选取最常见答案来提升准确性,其效果优于简单模型集成。针对多步骤推理,提出了“由少至多”(Least-to-Most)提示法,它将复杂问题分解为子问题,模型逐步解决并整合答案,显示了其处理复杂推理的潜力,尽管其根本性优势尚待验证。 最后,讲座讨论了超越提示工程的策略,如通过知识蒸馏将推理能力赋予小型语言模型。以Orca模型为例,它通过微调使小型Llama模型模仿GPT-4生成的解释和推理过程。训练数据通过结合Flan V2等数据集的指令与GPT-4在特定系统提示下(如要求分步解释)生成的详尽回答来构建。讲座强调,相关领域的研究多为近三四年成果,尚有许多未解问题。

自然语言处理 (NLP) 大型语言模型 (LLMs) AI推理 AI智能体 提示工程 思维链 (CoT) 知识蒸馏 视觉语言模型 (VLMs) 机器学习 AI研究 模型评估
已摘要 阅读时间:14 分钟(4652 个字) 2 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 11 - Benchmarking by Yann Dubois
2025-05-16 20:35

该演讲主要讨论了机器学习领域中基准测试和评估的核心作用。主讲人Yann Dubois指出,评估贯穿模型从训练、开发、选择到部署及学术发表的整个生命周期,但不同阶段对评估方法(如速度、成本、可微性、可信度、任务相关性、指标绝对性)有不同侧重。学术基准测试(如MMLU)对推动领域进步至关重要,强调可复现性、标准化及长期有效性,而非指标的短期完美。演讲进一步区分了NLP中的两类评估任务:封闭式任务(如情感分析、文本蕴含),其答案固定,评估方法成熟;以及开放式任务(如文本生成),其答案多样,评估更复杂。

自然语言处理 机器学习 深度学习 基准测试 模型评估 大型语言模型 文本生成 文本分类 评估指标 数据污染 人工评估 LLM评估器
已摘要 阅读时间:14 分钟(4806 个字) 2 summary versions
2024 | Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)
2025-05-14 13:38

该讲座概述了大型语言模型(LLM)的构建过程。演讲者首先介绍了LLM(如ChatGPT、Claude、Gemini、Llama等)的基本概念,并指出构建LLM的关键要素包括模型架构、训练损失与算法、数据、评估方法以及系统组件。演讲者强调,尽管学术界常关注架构与算法,但业界实践更侧重于数据、评估和系统的重要性,因此本次讲座将重点讨论后者。 LLM的构建通常分为预训练(Pretraining)和后训练(Post-training)两个阶段。预训练阶段的目标是进行通用语言建模,让模型学习并理解大规模文本数据(如整个互联网的内容)。此阶段的核心任务是语言建模,即模型学习预测一个词元(token)序列出现的概率。 当前主流的LLM采用自回归(Autoregressive)语言模型。这类模型通过概率的链式法则,将整个序列的联合概率分解为一系列条件概率的乘积,即在给定前面所有词元的条件下,预测下一个词元出现的概率。其工作流程大致为:首先对输入文本进行词元化(tokenization),将词或子词转换为唯一的ID;然后将这些词元ID输入模型(通常是Transformer架构,但讲座未深入探讨架构细节);模型会输出一个在整个词汇表上的概率分布,表示下一个最可能的词元。在训练过程中,模型通过比较预测的词元分布与实际出现的词元(通常使用独热编码表示),并利用交叉熵损失函数(Cross-entropy loss)来调整模型参数,以最大化正确预测下一个词元的概率。词元化的选择对模型至关重要,因为它定义了模型的词汇量大小,直接影响模型的输出维度。评估预训练模型的方法包括困惑度(Perplexity)和学术基准测试(如MMLU)。

大型语言模型 LLMs 预训练 后训练 RLHF DPO 数据处理 模型评估 规模法则 系统优化 词元化
已摘要 阅读时间:10 分钟(3289 个字) 3 summary versions