数据科学与工程数学基础_01绪论

2022-12-08 | 阅读：次

01绪论

类似于离散数学是传统计算机专业的“数学基础”，这是一类大数据、人工智能、机器学习相关专业的数学基础，包括矩阵计算、概率论和数值优化理论三方面的内容。

文本分类： 文本表示方法 独热编码：词汇表，出现为1，该向量只会出现一个1，用来表示某一个词词袋模型：用来表示文本 TF-IDF：
TF(单词) =该词在当前文档出现次数/当前文档中的词语总数 IDF(单词) = ln (文档总数/出现该词语的文档总数) 共现矩阵：记录每个单词在目标单词的特定大小的窗口（取窗口大小为1）中出现的次数，得到的关联矩阵X，称为共现矩阵。可以记录上下文信息。词嵌入：将文本空间中的某个单词，通过一定的方式，映射或嵌入到另外一个数值向量空间。Word2Vec、Fasttext、BERT
文本分类建模
传统方法：TF-IDF＋逻辑回归神经网络方法：Word2Vec+RNN
序列标注
文本匹配
文本生成

深度学习->神经网络->机器学习->人工智能

机器学习三要素：模型、策略、算法

数据表示：数据作为向量和矩阵

特征空间：和输入空间可以不同

数据的基本假设：输入变量和输出变量服从联合概率分布

模型分为概率模型和非概率模型

线性模型：仿射函数

非线性模型：激活函数

假设空间：由输入空间到输出空间的映射的集合

损失函数：0-1 损失函数，平方损失函数，绝对损失函数、对数损失函数−logP(Y|X)

期望损失：因为联合分布是未知的，这是一个理论值

经验损失：训练集的平均损失，理论基础是大数定律

过拟合：泛化能力不足

结构风险：加上表示模型复杂度的正则化项

梯度下降