音频媒体文件

清除
标签搜索结果 for "Matrix Calculus"
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 3 - Backpropagation, Neural Network
2025-05-15 21:07

斯坦福CS224N课程第二周周二的讲座主要回顾了作业一的提交情况,并介绍了作业二的内容。作业二包含三个主要部分:一是通过数学计算理解神经网络的运作原理;二是学习依存句法分析,涉及语言结构和语言学知识;三是开始使用PyTorch深度学习框架。为此,课程将在周五提供PyTorch的入门教程。 讲座接着深入探讨了神经网络的数学基础,强调了神经网络通过层级结构学习中间表征的重要性。与传统机器学习模型不同,神经网络能够自我组织中间层的表征,以更好地服务于最终任务。讲座解释了神经网络中层的计算过程,包括输入向量与权重矩阵的乘法、加上偏置项,以及通过非线性激活函数得到下一层的输出。 最后,讲座重点讨论了非线性激活函数的作用和发展。从早期因无法提供梯度而难以学习的阈值函数,到后来广泛应用的具有平滑梯度的Sigmoid和Tanh函数。Sigmoid函数输出非负,而Tanh函数可以视为Sigmoid的缩放和平移。尽管这些函数有效,但指数运算较为耗时。因此,后续发展出计算更简便的Hard Tanh,并最终引出了目前常用的ReLU(Rectified Linear Unit)激活函数。ReLU在负数区输出为零(梯度为零),在正数区输出等于输入(梯度为1)。尽管ReLU在负数区存在“神经元死亡”问题,但其简洁的梯度和在实践中的有效性使其成为主流选择,因为它能促进梯度的反向传播并实现某种程度的神经元特化。

Deep Learning Neural Networks Backpropagation Gradient Descent Activation Functions Matrix Calculus Computation Graphs PyTorch Automatic Differentiation Gradient Checking
已摘要 阅读时间:10 分钟(3265 个字) 1 summary version