0%

在现实生活中很多机器学习问题有上千维,甚至上万维特征,这不仅影响了训练速度,通常还很难找到比较好的解。这样的问题成为维数灾难(curse of dimensionality)

幸运的是,理论上降低维度是可行的。比如 MNIST 数据集大部分的像素总是白的,因此可以去掉这些特征;相邻的像素之间是高度相关的,如果变为一个像素,相差也并不大。

阅读全文 »

监督学习三要素

模型和参数

模型指给定输入 Xi 如何去预测 输出 Yi。 我们比较常见的模型如线性模型(包括线性回归和 logistic regression)采用了线性叠加的方式进行预测 。这里的预测 y 可以有不同的解释,比如我们可以用它来作为回归目标的输出,或者进行 sigmoid 变换得到概率,或者作为排序的指标等。而一个线性模型根据 y 的解释不同(以及设计对应的目标函数)用到回归,分类或排序等场景。 参数指我们需要学习的东西,在线性模型中,参数指我们的线性系数 w。

阅读全文 »

1
点我达大数据团队初创于2015年,随着公司业务发展,大数据对于公司的业务发展发挥了越来越大的作用,目前服务的用户/团队包含BI、产品运营、运力中心以及技术内部应用的数据服务等

目前大数据主要的结构如下:

从最下面一层往上依次为:

一、接入层

1、DataX

a) dataX 是一个 ETL 工具,阿里出品
b) 采用 Framework + plugin 架构构建,幸运的是自带了常用的插件,比如 MysqlReader、HdfsWriter 等
c) Standalone,无中心,每个实例之间无关联
d) 性能强劲、相对于 sqoop,配置更简单
e) 稳定高效,我们引入 DataX 以来,从来没有在数据传输上出过问题

阅读全文 »

1. 项目背景和算法简介

点我达是一家致力于提供城市即时物流配送服务公司。在餐饮外卖行业,商家从接受外卖订单到做出餐品做并打包完毕所需要的时间,称为出餐时间。实现准确预测该时间,可以让派单系统确定合理的派单时间,对于出餐慢的订单,可以延迟派单,从而减少配送员在商家的等餐时间,提升配送员的体验,提高配送效率。

阅读全文 »

一. 项目背景

二. 算法简介

2.1 模型选型依据

2.2 XGBoost 算法剖析

三. 数据清洗

3.1 剔除骑手到店立即取餐的样本

3.2 剔除多个订单同时离店的样本

3.3 利用模型剔除异常值

四. 特征构建

五. 餐品文本挖掘

六. 特征选择

七. 模型融合

在之前学习机器学习技术中,很少关注特征工程 (Feature Engineering),而且机器学习的书中基本上是已经处理好的数据或者作者自己构造的虚拟的数据。所以在机器学习的实践中,可能会选择使用这些算法,但是常常不知道怎么提取特征来建模。因此,结合网上的资料和项目中的经验试着来总结一下。

特征是对于分析和解决问题有用、有意义的属性。例如:
在表格数据中,表格中的一行是一个观测,但是表格的一列可能才是特征;
在机器视觉中,一幅图像是一个观测,但是图中的一条线可能才是特征;
在自然语言处理中,一个文本是一个观测,但是其中的段落或者词频可能才是一种特征;
在语音识别中,一段语音是一个观测,但是一个词或者音素才是一种特征。

阅读全文 »

1、R+pmml+spark+airflow 调度
其他团队用 R 语言训练模型并转为 pmml 文件,然后我们使用 spark 将这个 pmml 文件封装为 jar,使用 airflow 提交到 yarn。 val is: InputStream = fs.open(path) val pmml: PMML = PMMLUtil.unmarshal(is) modelEvaluator = ModelEvaluatorFactory.newInstance.newModelEvaluator(pmml)

阅读全文 »

1. 背景

FM 模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,忍让能够得到优秀的性能和效果,屡次在各大公司举办的 CTR 预估比赛中获得不错的战绩。

在计算广告领域,点击率 CTR(click-through rate)和转化率 CVR(conversion rate)是衡量广告流量的两个关键指标。准确的估计 CTR、CVR 对于提高流量的价值,增加广告收入有重要的指导作用。预估 CTR、CVR,业界常用的方法由人工特征工程 + LR(Logistic Regression)、GBDT(Gradient Boosting Decision Tree)+LR、FM(Factorization Machine)和 FFM(Field-aware Factorization Machine)模型。在这些模型中,FM 和 FFM 近年来表现突出,分别在 Criteo 和 Avazu 举办的 CTR 预测竞赛中夺得冠军。

阅读全文 »

1. 背景

FFM(Field-aware Factorization Machine)最初的概念来自 Yu-Chin Juan(阮毓钦,毕业于中国台湾大学,现在美国 Criteo 工作)与其比赛队员,是他们借鉴了来自 Michael Jahrer 的论文 [1] 中的 field 概念提出了 FM 的升级版模型。通过引入 field 的概念,FFM 把相同性质的特征归于同一个 field。

阅读全文 »

1. xgboost 原理

1. 简介:

​ XGBoost 是 boosting 算法的其中一种。Boosting 算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为 XGBoost 是一种提升树模型,所以它是将许多树模型集成在一起,形成一个很强的分类器。而所用到的树模型则是 CART 回归树模型

阅读全文 »