01绪论
1.1课程介绍
类似于离散数学是传统计算机专业的“数学基础”,这是一类大数据、人工智能、机器学习相关专业的数学基础,包括矩阵计算、概率论和数值优化理论三方面的内容。
1.2从图像感知到自然语言处理
1.2.1猫、分类和神经网络
- KNN分类器:需要计算数据集样本之间的距离,图像之间的距离的定义是一个数学问题。
-
线性分类器:
主要有两部分组成————评分函数和损失函数,同时这是一个最优化问题,要找到使得结果最优的函数参数。
评分函数:
\(f\left(\boldsymbol{W}, b ; x_{i}\right)=\boldsymbol{W} x_{i}+b\)
交叉熵损失函数:
\(l=-\sum_{c=1}^{K} y_{c} \log \left(p_{c}\right)=-\sum_{c=1}^{K} y_{c} \log \left(\boldsymbol{p}_{c}\right)\)
其中,K 是类别的数量;$y_c$ 表示当前图像的指示变量,如果预测标签与真实标签相同就是1,否则为0;$p_c$ 是当前图像属于类别c 的概率得分。最优化的目标即对所有训练集的图像的损失和最小。
寻找能使得损失最小的参数W:梯度下降算法。
- 卷积神经网络 典型的CNN架构图:卷积层、非线性层、池化层、全连接层
1.2.2影评、文本表示和逻辑回归:自然语言处理四类常见的任务
- 文本分类:
文本表示方法
独热编码:词汇表,出现为1,该向量只会出现一个1,用来表示某一个词
词袋模型:用来表示文本
TF-IDF:
TF(单词) =该词在当前文档出现次数/当前文档中的词语总数 IDF(单词) = ln (文档总数/出现该词语的文档总数) 共现矩阵:记录每个单词在目标单词的特定大小的窗口(取窗口大小为1)中出现的次数,得到的关联矩阵X,称为共现矩阵。可以记录上下文信息。 词嵌入:将文本空间中的某个单词,通过一定的方式,映射或嵌入到另外一个数值向量空间。Word2Vec、Fasttext、BERT
文本分类建模
传统方法:TF-IDF+逻辑回归 神经网络方法:Word2Vec+RNN - 序列标注
- 文本匹配
- 文本生成
1.3从数据分析到数学基础
1.3.1数据分析与机器学习概览
深度学习->神经网络->机器学习->人工智能
机器学习三要素:模型、策略、算法
1.3.2数据
数据表示:数据作为向量和矩阵
特征空间:和输入空间可以不同
数据的基本假设:输入变量和输出变量服从联合概率分布
1.3.3模型
模型分为概率模型和非概率模型
线性模型:仿射函数
非线性模型:激活函数
假设空间:由输入空间到输出空间的映射的集合
1.3.3策略
损失函数:0-1 损失函数,平方损失函数,绝对损失函数、对数损失函数−logP(Y|X)
期望损失:因为联合分布是未知的,这是一个理论值
经验损失:训练集的平均损失,理论基础是大数定律
过拟合:泛化能力不足
结构风险:加上表示模型复杂度的正则化项
1.3.4算法
梯度下降