- 线性回归 (Linear Regression)
1.1 什么是线性回归
我们首先用弄清楚什么是线性,什么是非线性。
线性:两个变量之间的关系是一次函数关系的——图象是直线,叫做线性。
注意:题目的线性是指广义的线性,也就是数据与数据之间的关系。
非线性:两个变量之间的关系不是一次函数关系的——图象不是直线,叫做非线性。
一个专注技术的组织
XGBoost 是陈天奇等人开发的一个开源机器学习项目,高效地实现了 GBDT 算法并进行了算法和工程上的许多改进,被广泛应用在 Kaggle 竞赛及其他许多机器学习竞赛中并取得了不错的成绩。
说到 XGBoost,不得不提 GBDT(Gradient Boosting Decision Tree)。因为 XGBoost 本质上还是一个 GBDT,但是力争把速度和效率发挥到极致,所以叫 X (Extreme) GBoosted。包括前面说过,两者都是 boosting 方法。
特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数 据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。
主要讨论以下两种常用的数据类型。
推荐系统是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。
随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。
TensorFlow 从 15 年 10 月开源至今,可谓是发展迅猛,从 v0.5 到如今的 v2.0.0-alpha,经历了无数个功能特性的升级,性能、可用性、易用性等都在稳步提升。相对来说,对于我们工业界,大家可能更关注分布式 TensorFlow 的发展,本文尝试梳理下分布式 TensorFlow 从问世到现在经历过的变迁。