- 特征工程有哪些?
特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数 据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。
主要讨论以下两种常用的数据类型。
- 结构化数据。结构化数据类型可以看作关系型数据库的一张表,每列都 有清晰的定义,包含了数值型、类别型两种基本类型;每一行数据表示一个样本 的信息。
- 非结构化数据。非结构化数据主要包括文本、图像、音频、视频数据, 其包含的信息无法用一个简单的数值表示,也没有清晰的类别定义,并且每条数 据的大小各不相同。
1.1 特征归一化
为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得 不同指标之间具有可比性。例如,分析一个人的身高和体重对健康的影响,如果 使用米(m)和千克(kg)作为单位,那么身高特征会在 1.6 ~ 1.8m 的数值范围 内,体重特征会在 50 ~ 100kg 的范围内,分析出来的结果显然会倾向于数值差别比 较大的体重特征。想要得到更为准确的结果,就需要进行特征归一化 (Normalization)处理,使各指标处于同一数值量级,以便进行分析。
对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值 区间内。最常用的方法主要有以下两种。
线性函数归一化(Min-Max Scaling)。它对原始数据进行线性变换,使 结果映射到 [0, 1] 的范围,实现对原始数据的等比缩放。归一化公式如下,其中 X 为原始数据, 分别为数据最大值和最小值。
零均值归一化(Z-Score Normalization)。它会将原始数据映射到均值为 0、标准差为 1 的分布上。具体来说,假设原始特征的均值为 μ、标准差为 σ,那么 归一化公式定义为
优点:训练数据归一化后,容易更快地通过梯度下降找 到最优解。
当然,数据归一化并不是万能的。在实际应用中,通过梯度下降法求解的模 型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模 型。但对于决策树模型则并不适用。
1.2 类别型特征
类别型特征(Categorical Feature)主要是指性别(男、女)、血型(A、B、 AB、O)等只在有限选项内取值的特征。类别型特征原始输入通常是字符串形 式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归、支持 向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。
序号编码
序号编码通常用于处理类别间具有大小关系的数据。例如成绩,可以分为 低、中、高三档,并且存在 “高> 中>低”的排序关系。序号编码会按照大小关系对 类别型特征赋予一个数值 ID,例如高表示为 3、中表示为 2、低表示为 1,转换后依 然保留了大小关系。
独热编码 (one-hot)
独热编码通常用于处理类别间不具有大小关系的特征。例如血型,一共有 4 个 取值(A 型血、B 型血、AB 型血、O 型血),独热编码会把血型变成一个 4 维稀疏 向量,A 型血表示为(1, 0, 0, 0),B 型血表示为(0, 1, 0, 0),AB 型表示为(0, 0, 1, 0),O 型血表示为(0, 0, 0, 1)。对于类别取值较多的情况下使用独热编码。
二进制编码
二进制编码主要分为两步,先用序号编码给每个类别赋予一个类别 ID,然后 将类别 ID 对应的二进制编码作为结果。以 A、B、AB、O 血型为例,下图是二进制编码的过程。A 型血的 ID 为 1,二进制表示为 001;B 型血的 ID 为 2,二进制表示为 010;以此类推可以得到 AB 型血和 O 型血的二进制表示。
1.3 高维组合特征的处理
为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组 合,构成高阶组合特征。以广告点击预估问题为例,原始数据有语言和类型两种 离散特征,第一张图是语言和类型对点击的影响。为了提高拟合能力,语言和类型可 以组成二阶特征,第二张图是语言和类型的组合特征对点击的影响。
1.4 文本表示模型
文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领 域的一个重要研究方向。
词袋模型和 N-gram 模型
最基础的文本表示模型是词袋模型。顾名思义,就是将每篇文章看成一袋子 词,并忽略每个词出现的顺序。具体地说,就是将整段文本以词为单位切分开, 然后每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对 应的权重则反映了这个词在原文章中的重要程度。常用 TF-IDF 来计算权重。
主题模型
主题模型用于从文本库中发现有代表性的主题(得到每个主题上面词的分布 特性),并且能够计算出每篇文章的主题分布。
词嵌入与深度学习模型
词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维 空间(通常 K=50 ~ 300 维)上的一个稠密向量(Dense Vector)。K 维空间的每一 维也可以看作一个隐含的主题,只不过不像主题模型中的主题那样直观。
1.5 其它特征工程
- 如果某个特征当中有缺失值,缺失比较少的话,可以使用该特征的平均值或者其它比较靠谱的数据进行填充;缺失比较多的话可以考虑删除该特征。
- 可以分析特征与结果的相关性,把相关性小的特征去掉。
1.6 特征工程脑图
- 机器学习优化方法
优化是应用数学的一个分支,也是机器学习的核心组成部分。实际上,机器 学习算法 = 模型表征 + 模型评估 + 优化算法。其中,优化算法所做的事情就是在 模型表征空间中找到模型评估指标最好的模型。不同的优化算法对应的模型表征 和评估指标不尽相同。
2.1 机器学习常用损失函数
损失函数(loss function)是用来估量你模型的预测值 f(x) 与真实值 Y 的不一致程度,它是一个非负实值函数, 通常使用 L(Y, f(x)) 来表示,损失函数越小,模型的鲁棒性就越好。常见的损失函数如下:
平方损失函数
)%3D%5Csum_%7Bi%3D1%7D%5E%7Bn%7D(Y-f(X))%5E2>)
Y-f(X) 表示的是残差,整个式子表示的是残差的平方和,而我们的目的就是最小化这个目标函数值(注:该式子未加入正则项),也就是最小化残差的平方和。而在实际应用中,通常会使用均方差(MSE)作为一项衡量指标,公式如下:
%5E2>)
该损失函数一般使用在线性回归当中。
log 损失函数
公式中的 y=1 表示的是真实值为 1 时用第一个公式,真实 y=0 用第二个公式计算损失。为什么要加上 log 函数呢?可以试想一下,当真实样本为 1 是,但 h=0 概率,那么 log0=∞,这就对模型最大的惩罚力度;当 h=1 时,那么 log1=0,相当于没有惩罚,也就是没有损失,达到最优结果。所以数学家就想出了用 log 函数来表示损失函数。
最后按照梯度下降法一样,求解极小值点,得到想要的模型效果。该损失函数一般使用在逻辑回归中。
Hinge 损失函数
j-(f(x_i%2CW)%7By_i%7D-%5Cbigtriangleup))>)
SVM 采用的就是 Hinge Loss,用于 “最大间隔(max-margin)” 分类。
详细见之前 SVM 的文章 1.2.3
2.2 什么是凸优化
凸函数的严格定义为,函数 L(·) 是凸函数当且仅当对定义域中的任意两点 x,y 和任意实数 λ∈[0,1] 总有:
y)%5Cleq%5Clambda_%7B%7DL(x)%2B(1-%5Clambda)L(y)>)
该不等式的一个直观解释是,凸函数曲面上任意两点连接而成的线段,其上的任 意一点都不会处于该函数曲面的下方,如下图所示所示。
凸优化问题的例子包括支持向量机、线性回归等 线性模型,非凸优化问题的例子包括低秩模型(如矩阵分解)、深度神经网络模型等。
2.3 正则化项
使用正则化项,也就是给 loss function 加上一个参数项,正则化项有 L1 正则化、L2 正则化、ElasticNet。加入这个正则化项好处:
- 控制参数幅度,不让模型 “无法无天”。
- 限制参数搜索空间
- 解决欠拟合与过拟合的问题。
详细请参考之前的文章:线性回归 — 第 5 点
2.4 常见的几种最优化方法
梯度下降法
梯度下降法是最早最简单,也是最为常用的最优化方法。梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是” 最速下降法 “。最速下降法越接近目标值,步长越小,前进越慢。梯度下降法的搜索迭代示意图如下图所示:
缺点:靠近极小值时收敛速度减慢;直线搜索时可能会产生一些问题;可能会 “之字形” 地下降。
牛顿法
牛顿法是一种在实数域和复数域上近似求解方程的方法。方法使用函数 f (x) 的泰勒级数的前面几项来寻找方程 f (x) = 0 的根。牛顿法最大的特点就在于它的收敛速度很快。具体步骤:
首先,选择一个接近函数 f (x) 零点的 x0,计算相应的 f (x0) 和切线斜率 f ‘(x0)(这里 f’ 表示函数 f 的导数)。
然后我们计算穿过点 (x0, f (x0)) 并且斜率为 f ‘(x0) 的直线和 x 轴的交点的 x 坐标,也就是求如下方程的解:
%2Bf(x_0)-x_0*f%5E%7B’%7D(x_0)%3D0>)
我们将新求得的点的 x 坐标命名为 x1,通常 x1 会比 x0 更接近方程 f (x) = 0 的解。因此我们现在可以利用 x1 开始下一轮迭代。
由于牛顿法是基于当前位置的切线来确定下一次的位置,所以牛顿法又被很形象地称为是 “切线法”。牛顿法搜索动态示例图:
从本质上去看,牛顿法是二阶收敛,梯度下降是一阶收敛,所以牛顿法就更快。缺点:
- 牛顿法是一种迭代算法,每一步都需要求解目标函数的 Hessian 矩阵的逆矩阵,计算比较复杂。
- 在高维情况下这个矩阵非常大,计算和存储都是问题。
- 在小批量的情况下,牛顿法对于二阶导数的估计噪声太大。
- 目标函数非凸的时候,牛顿法容易受到鞍点或者最大值点的吸引。
拟牛顿法
拟牛顿法是求解非线性优化问题最有效的方法之一, 本质思想是改善牛顿法每次需要求解复杂的 Hessian 矩阵的逆矩阵的缺陷,它使用正定矩阵来近似 Hessian 矩阵的逆,从而简化了运算的复杂度。 拟牛顿法和梯度下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化,构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于梯度下降法,尤其对于困难的问题。另外,因为拟牛顿法不需要二阶导数的信息,所以有时比牛顿法更为有效。如今,优化软件中包含了大量的拟牛顿算法用来解决无约束,约束,和大规模的优化问题。
共轭梯度法
共轭梯度法是介于梯度下降法与牛顿法之间的一个方法,它仅需利用一阶导数信息,但克服了梯度下降法收敛慢的缺点,又避免了牛顿法需要存储和计算 Hesse 矩阵并求逆的缺点,共轭梯度法不仅是解决大型线性方程组最有用的方法之一,也是解大型非线性最优化最有效的算法之一。 在各种优化算法中,共轭梯度法是非常重要的一种。其优点是所需存储量小,具有步收敛性,稳定性高,而且不需要任何外来参数。
具体的实现步骤请参加 wiki 百科共轭梯度法。下图为共轭梯度法和梯度下降法搜索最优解的路径对比示意图:
机器学习评估方法
混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用 n 行 n 列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。下图为混淆矩阵
正类 | 负类 | |
---|---|---|
预测正确 | TP(True Positives) | FP(False Positives) |
预测错误 | FN(False Negatives) | TN(True Negatives) |
3.1 准确率 (Accuracy)
准确率(Accuracy)。 顾名思义,就是所有的预测正确(正类负类)的占总的比重。
准确率是分类问题中最简单也是最直观的评价指标,但存在明显的缺陷。比 如,当负样本占 99% 时,分类器把所有样本都预测为负样本也可以获得 99% 的准确 率。所以,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准 确率的最主要因素。
3.2 精确率(Precision)
精确率(Precision),查准率。即正确预测为正的占全部预测为正的比例。个人理解:真正正确的占所有预测为正的比例。
3.3 召回率 (Recall)
召回率(Recall),查全率。即正确预测为正的占全部实际为正的比例。个人理解:真正正确的占所有实际为正的比例。
为了综合评估一个排序模型的好坏,不仅要看模型在不同 Top N 下的 Precision@N 和 Recall@N,而且最好绘制出模型的 P-R(Precision- Recall)曲线。这里简单介绍一下 P-R 曲线的绘制方法。
P-R 曲线的横轴是召回率,纵轴是精确率。对于一个排序模型来说,其 P-R 曲 线上的一个点代表着,在某一阈值下,模型将大于该阈值的结果判定为正样本, 小于该阈值的结果判定为负样本,此时返回结果对应的召回率和精确率。整条 P-R 曲线是通过将阈值从高到低移动而生成的。下图是 P-R 曲线样例图,其中实线代表 模型 A 的 P-R 曲线,虚线代表模型 B 的 P-R 曲线。原点附近代表当阈值最大时模型的 精确率和召回率。
由图可见,当召回率接近于 0 时,模型 A 的精确率为 0.9,模型 B 的精确率是 1, 这说明模型 B 得分前几位的样本全部是真正的正样本,而模型 A 即使得分最高的几 个样本也存在预测错误的情况。并且,随着召回率的增加,精确率整体呈下降趋 势。但是,当召回率为 1 时,模型 A 的精确率反而超过了模型 B。这充分说明,只用某个点对应的精确率和召回率是不能全面地衡量模型的性能,只有通过 P-R 曲线的 整体表现,才能够对模型进行更为全面的评估。
3.4 F1 值 (H-mean 值)
F1 值(H-mean 值)。F1 值为算数平均数除以几何平均数,且越大越好,将 Precision 和 Recall 的上述公式带入会发现,当 F1 值小时,True Positive 相对增加,而 false 相对减少,即 Precision 和 Recall 都相对增加,即 F1 对 Precision 和 Recall 都进行了加权。
3.4 ROC 曲线
ROC 曲线。接收者操作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,ROC 曲线上每个点反映着对同一信号刺激的感受性。下图是 ROC 曲线例子。
横坐标:1-Specificity,伪正类率 (False positive rate,FPR,FPR=FP/(FP+TN)),预测为正但实际为负的样本占所有负例样本的比例;
纵坐标:Sensitivity,真正类率 (True positive rate,TPR,TPR=TP/(TP+FN)),预测为正且实际为正的样本占所有正例样本的比例。
真正的理想情况,TPR 应接近 1,FPR 接近 0,即图中的(0,1)点。ROC 曲线越靠拢(0,1)点,越偏离 45 度对角线越好。
AUC 值
AUC (Area Under Curve) 被定义为 ROC 曲线下的面积,显然这个面积的数值不会大于 1。又由于 ROC 曲线一般都处于 y=x 这条直线的上方,所以 AUC 的取值范围一般在 0.5 和 1 之间。使用 AUC 值作为评价标准是因为很多时候 ROC 曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应 AUC 更大的分类器效果更好。
从 AUC 判断分类器(预测模型)优劣的标准:
- AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
- 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
- AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
- AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
一句话来说,AUC 值越大的分类器,正确率越高。
3.5 余弦距离和欧式距离
余弦距离:%3D%5Cfrac%7BA*B%7D%7B%7C%7CA%7C%7C_2%7C%7CB%7C%7C_2%7D>)
欧式距离: 在数学中,欧几里得距离或欧几里得度量是欧几里得空间中两点间 “普通”(即直线)距离。
对于两个向量 A 和 B,余弦距离关注的是向量之间的角度关系,并不关心它们的绝对大小,其取值 范围是 [−1,1]。当一对文本相似度的长度差距很大、但内容相近时,如果使用词频 或词向量作为特征,它们在特征空间中的的欧氏距离通常很大;而如果使用余弦 相似度的话,它们之间的夹角可能很小,因而相似度高。此外,在文本、图像、 视频等领域,研究的对象的特征维度往往很高,余弦相似度在高维情况下依然保 持“相同时为 1,正交时为 0,相反时为 −1” 的性质,而欧氏距离的数值则受维度的 影响,范围不固定,并且含义也比较模糊。
3.6 A/B 测试
AB 测试是为 Web 或 App 界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。
3.7 模型评估方法
Holdout 检验
Holdout 检验是最简单也是最直接的验证方法,它将原始的样本集合随机划分 成训练集和验证集两部分。比方说,对于一个点击率预测模型,我们把样本按照 70%~ 30% 的比例分成两部分,70% 的样本用于模型训练;30% 的样本用于模型 验证,包括绘制 ROC 曲线、计算精确率和召回率等指标来评估模型性能。
Holdout 检验的缺点很明显,即在验证集上计算出来的最后评估指标与原始分 组有很大关系。为了消除随机性,研究者们引入了 “交叉检验” 的思想。
交叉检验
k-fold 交叉验证:首先将全部样本划分成 k 个大小相等的样本子集;依次遍历 这 k 个子集,每次把当前子集作为验证集,其余所有子集作为训练集,进行模型的 训练和评估;最后把 k 次评估指标的平均值作为最终的评估指标。在实际实验 中,k 经常取 10。
自助法
不管是 Holdout 检验还是交叉检验,都是基于划分训练集和测试集的方法进行 模型评估的。然而,当样本规模比较小时,将样本集进行划分会让训练集进一步 减小,这可能会影响模型训练效果。有没有能维持训练集样本规模的验证方法 呢?自助法可以比较好地解决这个问题。
自助法是基于自助采样法的检验方法。对于总数为 n 的样本集合,进行 n 次有 放回的随机抽样,得到大小为 n 的训练集。n 次采样过程中,有的样本会被重复采 样,有的样本没有被抽出过,将这些没有被抽出的样本作为验证集,进行模型验 证,这就是自助法的验证过程。
3.8 超参数调优
为了进行超参数调优,我们一般会采用网格搜索、随机搜索、贝叶斯优化等 算法。在具体介绍算法之前,需要明确超参数搜索算法一般包括哪几个要素。一 是目标函数,即算法需要最大化 / 最小化的目标;二是搜索范围,一般通过上限和 下限来确定;三是算法的其他参数,如搜索步长。
- 网格搜索,可能是最简单、应用最广泛的超参数搜索算法,它通过查找搜索范 围内的所有的点来确定最优值。如果采用较大的搜索范围以及较小的步长,网格 搜索有很大概率找到全局最优值。然而,这种搜索方案十分消耗计算资源和时间,特别是需要调优的超参数比较多的时候。因此,在实际应用中,网格搜索法一般会先使用较广的搜索范围和较大的步长,来寻找全局最优值可能的位置;然 后会逐渐缩小搜索范围和步长,来寻找更精确的最优值。这种操作方案可以降低 所需的时间和计算量,但由于目标函数一般是非凸的,所以很可能会错过全局最 优值。
- 随机搜索,随机搜索的思想与网格搜索比较相似,只是不再测试上界和下界之间的所有 值,而是在搜索范围中随机选取样本点。它的理论依据是,如果样本点集足够 大,那么通过随机采样也能大概率地找到全局最优值,或其近似值。随机搜索一 般会比网格搜索要快一些,但是和网格搜索的快速版一样,它的结果也是没法保证的。
- 贝叶斯优化算法,贝叶斯优化算法在寻找最优最值参数时,采用了与网格搜索、随机搜索完全 不同的方法。网格搜索和随机搜索在测试一个新点时,会忽略前一个点的信息; 而贝叶斯优化算法则充分利用了之前的信息。贝叶斯优化算法通过对目标函数形 状进行学习,找到使目标函数向全局最优值提升的参数。
3.9 过拟合和欠拟合
过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是 模型在训练集上的表现很好,但在测试集和新数据上的表现较差。欠拟合指的是 模型在训练和预测时表现都不好的情况。下图形象地描述了过拟合和欠拟合的区别。
- 防止过拟合:
- 从数据入手,获得更多的训练数据。
- 降低模型复杂度。
- 正则化方法,给模型的参数加上一定的正则约束。
- 集成学习方法,集成学习是把多个模型集成在一起。
防止欠拟合:
- 添加新特征。
- 增加模型复杂度。
- 减小正则化系数。
参考文献
- 机器学习系列教程
GitHub:github.com/NLP-LOVE/ML…
作者:@mantchs
GitHub:github.com/NLP-LOVE/ML…