Logistic Regression 是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户够买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性。注意:这里的可能性并非数学上的概率,不可以当作概率值来用,但是可能同概率作映射。
2.1 可用于概率预测,也可用于分类
并不是所有的机器学习方法都可以做可能性概率预测(比如 SVM 就不行,它只能得到 1 或者 - 1)。可能性预测的好处是结果有可比性:比如我们得到不同广告被点击的可能性后,就可以展现点击可能性最大的 N 个。这样一来,哪怕得到的可能性都很高,或者可能性都很低,我们都能去最优的 top N。当用于分类问题时,仅需要设定一个阈值,可能性高于阈值是一类,低于阈值是另一类。
2.2 仅能用于线性问题
只有在 feature 和 target 是线性关系时,才能用 LR(不像 SVM 那样可以做非线性问题)。这有两点指导意义:一方面当预先知道模型非线性时,果断不能用 LR,另一方面,在使用 LR 时注意选择和 target 呈线性关系的 feature。
2.3 各 feature 之间不需要满足条件独立假设,但各个 feature 的贡献是独立计算的
LR 不像朴素贝叶斯一样需要满足条件独立假设,但每个 feature 的贡献是独立计算的,即 LR 是不会自动 combine 不同的 feature 产生新的 feature 的。举个例子,如果你需要 TF_IDF 这样的 feature,就必须明确的给出来,若仅仅分别给出两维 TF 和 IDF 是不够的,那样只会得到类似 a_TF+b_IDF 的结果,而不会有 c_TF*IDF 的效果。