0%

  1. 线性回归 (Linear Regression)

GitHub 地址 (代码加数据)

1.1 什么是线性回归

我们首先用弄清楚什么是线性,什么是非线性。

  • 线性:两个变量之间的关系一次函数关系的——图象是直线,叫做线性。

    注意:题目的线性是指广义的线性,也就是数据与数据之间的关系。

  • 非线性:两个变量之间的关系不是一次函数关系的——图象不是直线,叫做非线性。

阅读全文 »

1.SVM 讲解

新闻分类案例

SVM 是一个很复杂的算法,不是一篇博文就能够讲完的,所以此篇的定位是初学者能够接受的程度,并且讲的都是 SVM 的一种思想,通过此篇能够使读着会使用 SVM 就行,具体 SVM 的推导过程有一篇博文是讲得非常细的,具体链接我放到最后面,供大家参考。

1.1 支持向量机 (SVM) 的由来

阅读全文 »

  1. 决策树

决策树模型 demo

随机森林模型 demo

1.1 从 LR 到决策树

相信大家都做过用 LR 来进行分类,总结一下 LR 模型的优缺点:

优点

  • 适合需要得到一个分类概率的场景。

  • 实现效率较高。

  • 很好处理线性特征。

缺点

  • 当特征空间很大时,逻辑回归的性能不是很好。

  • 不能很好地处理大量多类特征。

  • 对于非线性特征,需要进行转换。

阅读全文 »

  1. 解释一下 GBDT 算法的过程

GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,使用的是 Boosting 的思想。

1.1 Boosting 思想

Boosting 方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。

阅读全文 »

  1. 什么是 XGBoost

XGBoost 是陈天奇等人开发的一个开源机器学习项目,高效地实现了 GBDT 算法并进行了算法和工程上的许多改进,被广泛应用在 Kaggle 竞赛及其他许多机器学习竞赛中并取得了不错的成绩。

说到 XGBoost,不得不提 GBDT(Gradient Boosting Decision Tree)。因为 XGBoost 本质上还是一个 GBDT,但是力争把速度和效率发挥到极致,所以叫 X (Extreme) GBoosted。包括前面说过,两者都是 boosting 方法。

阅读全文 »

  1. 特征工程有哪些?

特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数 据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。

主要讨论以下两种常用的数据类型。

阅读全文 »

  1. 什么是推荐系统

推荐系统是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。

随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。

阅读全文 »

TensorFlow 从 15 年 10 月开源至今,可谓是发展迅猛,从 v0.5 到如今的 v2.0.0-alpha,经历了无数个功能特性的升级,性能、可用性、易用性等都在稳步提升。相对来说,对于我们工业界,大家可能更关注分布式 TensorFlow 的发展,本文尝试梳理下分布式 TensorFlow 从问世到现在经历过的变迁。

阅读全文 »

朴素贝叶斯(NaiveBayes)是基于贝叶斯定理与特征条件独立假设的一种分类方法,常用于文档分类、垃圾邮件分类等应用场景。其基本思想是,对于给定的训练集,基于特征条件独立的假设,学习输入输出的联合概率分布,然后根据贝叶斯定理,对给定的预测数据,预测其类别为后验概率最大的类别。

基本套路

给定训练集 TTT,每个实例表示为 (x,y)(x,y)(x, y),其中 xxx 为 nnn 维特征向量,定义 XXX 为输入 (特征) 空间上的随机向量,YYY 为输出 (类别) 空间上的随机变量,根据训练集计算如下概率分布:

阅读全文 »