机器学习基本概念

生信与基因组学

机器学习 (machine learning)

根据输入数据构建（训练）的预测模型。

偏差 (bias)

距离原点的截距或偏移。

特征 (feature)

在进行预测时使用的输入变量。

均方误差 (Mean squared error， MSE)

每个样本的平均平方损失，MSE = 平方损失 / 样本数。

标准化 (normalization)

将实际的值区间转换为标准的值区间（通常为 -1 ~ +1 或 0 ~ 1）的过程。

损失 (Loss)

一种衡量模型的预测结果与偏离真实标签的衡量指标，例如在线性回归模型中通常采用均方误差作为loss function，逻辑回归模型则使用对数损失函数作为loss function。

特征列 (feature columns)

一组相关特征，可能包含一个或多个特征。

特征组合 (feature cross)

将单独的feature进行组合（相乘或求笛卡尔积）而形成的合成特征，有助于表示非线性关系。

特征集 (feature set)

训练机器学习模型时采用的一组特征。

标签 (label)

在监督学习中，标签是指定样本的真实结果（有且仅有一个）。

有标签样本 (labeled example)

指包含特征和标签数据的样本，在监督学习中，训练模型需使用到此类样本。

批次 (batch)

机器学习模型训练的一次迭代（即完成一次梯度更新）中使用的样本集。

批次规模 (batch size)

一个批次batch中的样本数，例如SGD 的批次规模为 1，而小批次的规模通常介于 10 到 1000 之间，在模型训练时batch size通常时固定的。

周期 (epoch)

在训练时，整个数据集的一次完整遍历，以便不漏掉任何一个样本。即epoch = sample number / batch size，其中sample number为样本总数，batch size为批次规模。

二元分类 (binary classification)

一种分类任务，可输出两种互斥类别之一。例如，通过分类任务可以将数据分类标签标注为True或False。

分类阈值 (classification threshold)

一种标量值条件，应用于模型预测的得分，从而区分正类别与类别，即对高于分类阈值的的数据和低于分类阈值的数据标注为不同的二分类类别。

分类模型 (classification model)

一种机器学习模型，用于区分两种或多种离散类别。

输入层 (input layer)

神经网络中的第一层（接收输入数据的层）。

全连接层 (fully connected layer)

又称为密集层，其中的每个节点均与下一个隐藏层中的每个节点相连。

隐藏层 (hidden layer)

神经网络中的合成层，介于输入层（即特征）和输出层（即预测）之间，神经网络包含一个或多个隐藏层。

超参数 (hyperparameter)

在模型训练的前设置的参数，例如学习速率（learning rate）就是一种超参数。

输入函数 (input function)

根据输入数据进行训练、评估或预测方法的函数。

激活函数 (activation function)

一种函数（如 ReLU 或 S 型函数），用于对上一层的所有输入进行求加权和，然后生成一个输出值（通常为非线性值）传递给下一层。

偏导数 (partial derivative)

一种导数，除一个变量之外的所有变量都被视为常量。

泛化 (generalization)

指训练的模型针对未见过的新数据做出正确预测的能力。

梯度 (gradient)

梯度为模型函数偏导数相对于所有自变量的向量，梯度指向最速上升的方向。

迭代 (iteration)

模型的权重在训练期间的一次更新，迭代包含计算参数在单个批量数据上的梯度损失。

过拟合 (overfitting)

创建的模型与训练数据拟合程度过高，以致于模型无法根据未曾见过的新数据做出正确的预测。

梯度下降法 (gradient descent)

一种通过计算并且减小梯度将损失降至最低的方法，它以训练数据为条件，来计算损失相对于模型参数的梯度。通俗来说，梯度下降法以迭代方式调整参数，逐渐找到权重和偏差的最佳组合，从而将损失降至最低。

反向传播算法 (backpropagation)

神经网络梯度下降法的主要算法，该算法会先按前向传播方式计算（并缓存）每个节点的输出值，然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

基准 (baseline)

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

学习速率 (learning rate)

在训练模型时用于梯度下降的一个变量。在每次迭代期间，梯度下降法都会将学习速率与梯度相乘。得出的乘积称为梯度步长。

学习速率是一个重要的超参数。

ROC 曲线下面积 (AUC)

ROC 曲线下面积（Area under the ROC Curve）是一种考虑所有可能分类阈值的评估指标。

混淆矩阵 (confusion matrix)

通过2X2表格显示分类模型的预测效果，即真是类别和模型预测分类结果的符合情况。

假阴性 (FN, false negative)

被模型错误地预测为负类别的样本。

假阳性 (FP, false positive)

被模型错误地预测为正类别的样本。

假阳性率（false positive rate, FPR）

FPR = 假阳性数量 / 假阳性数量与真阴性数量之和

精确率 (precision)

分类模型指标，精确率指模型正确预测正类别的频率，精确率 = 真阳性数量 / （真阳性数量 + 假阳性数量）

对数损失函数 (Log Loss)

二元逻辑回归中使用的损失函数。

权重 (weight)

线性模型中特征的系数，训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

正则化 (regularization)

对模型复杂度的惩罚，正则化有助于防止模型出现过拟合。

L1损失函数（L1 loss）

基于机器学习模型预测的值与真实的标签之车的绝对值。

L1正则化（L1 regularization）

根据权重的绝对值的总和来惩罚权重，L1正则化可使用不相关或相关性很低的特征权重为0。

L2损失函数（L2 loss）

即平方损失函数。

L2正则化（L2 regularization）

根据权重的平方和来惩罚权重，L2正则化可以使离群值权重接近于0。

微信扫一扫分享文章