逻辑回归

发表于 2019-11-07 分类于机器学习

逻辑回归常用于解决二分类问题，它将具有 nnn 维特征的样本 XXX，经过线性加权后，通过 sigmoidsigmoidsigmoid 函数转换得到一个概率值 yyy，预测时根据一个门限 thresholdthresholdthreshold (例如 0.5) 来划分类别，y<thresholdy<thresholdy < threshold 为负类，y≥thresholdy≥thresholdy \geq threshold 为正类。

阅读全文 »

线性回归

发表于 2019-11-07 分类于机器学习

线性回归可以说是机器学习中最简单，最基础的机器学习算法，它是一种监督学习方法，可以被用来解决回归问题。它用一条直线 (或者高维空间中的平面) 来拟合训练数据，进而对未知数据进行预测。

基本套路

机器学习方法，无外乎三点：模型，代价函数，优化算法。首先找到一个模型用于预测未知世界，然后针对该模型确定代价函数，以度量预测错误的程度，最后使用优化算法在已有的样本数据上不断地优化模型参数，来最小化代价函数。通常来说，用的最多的优化算法主要是梯度下降或拟牛顿法 (L-BFGS 或 OWL-QN)，计算过程都需要计算参数梯度值，下面仅从模型、代价函数以及参数梯度来描述一种机器学习算法。

阅读全文 »

协同过滤推荐 ALS

发表于 2019-11-07 分类于机器学习

如今，协同过滤推荐 (CollaboratIve Filtering) 技术已广泛应用于各类推荐系统中，其通常分为两类，一种是基于用户的协同过滤算法(User-Based CF)，它是根据用户对物品的历史评价数据(如，喜欢、点击、购买等)，计算不同用户之间的相似度，在有相同喜好的用户间进行物品推荐，例如将跟我有相同电影爱好的人看过的电影推荐给我；另一种是基于物品的协同过滤算法(Item-Based CF)，它是根据用户对物品的历史评价数据，计算物品之间的相似度，用户如果喜欢 A 物品，那么可以给用户推荐跟 A 物品相似的其他物品，例如如果我们在购物网站上买过尿片，第二天你再到购物网站上浏览时，可能会被推荐奶瓶。更多关于 User-Based CF 和 Item-Based CF 的阐述请参考文章。然而，在用户数量以及用户评分不足的情况下，上述两种方法就不是那么地好使了，近年来，基于模型的推荐算法 ALS(交替最小二乘) 在 Netflix 成功应用并取得显著效果提升，ALS 使用机器学习算法建立用户和物品间的相互作用模型，进而去预测新项。

阅读全文 »

主题模型 (Topic Model)、LDA(案例代码)

发表于 2019-11-07 分类于机器学习

LDA 模型是什么

LDA 可以分为以下 5 个步骤：

一个函数：gamma 函数。
四个分布：二项分布、多项分布、beta 分布、Dirichlet 分布。
一个概念和一个理念：共轭先验和贝叶斯框架。
两个模型：pLSA、LDA。
一个采样：Gibbs 采样

关于 LDA 有两种含义，一种是线性判别分析（Linear Discriminant Analysis），一种是概率主题模型：隐含狄利克雷分布（Latent Dirichlet Allocation，简称 LDA），本文讲后者。

阅读全文 »

numpy 创建矩阵常用方法

发表于 2019-11-06 更新于 2019-11-07 分类于机器学习

numpy 创建矩阵常用方法

arange+reshape

in:

1 2	n = np.arange(0, 30, 2)# start at 0 count up by 2, stop before 30 n = n.reshape(3, 5) # reshape array to be 3x5

out:

linspace+resize

阅读全文 »

缺失值填充的几种方法

发表于 2019-11-05 分类于机器学习

面试不仅仅是一个找工作的过程，还是一个向面试官交流学习的过程。之前的某次面试中，聊到了缺失值填充方法，经面试官指点学到了一些技能，下面简要总结一下。

常见的缺失值填充方法有填充默认值、均值、众数、KNN 填充、以及把缺失值作为新的 label 通过模型来预测等方式，为了介绍这几种填充方法的使用以及填充效果，本文将在真实数据集上进行简单比较。

阅读全文 »

深入理解FFM原理

发表于 2019-11-05 分类于机器学习

FM 和 FFM 模型是最近几年提出的模型，凭借其在数据量比较大并且特征稀疏的情况下，仍然能够得到优秀的性能和效果的特性，屡次在各大公司举办的 CTR 预估比赛中获得不错的战绩。美团技术团队在搭建 DSP 的过程中，探索并使用了 FM 和 FFM 模型进行 CTR 和 CVR 预估，并且取得了不错的效果。本文旨在把我们对 FM 和 FFM 原理的探索和应用的经验介绍给有兴趣的读者。

阅读全文 »

用Embedding表达一切

发表于 2019-11-04 更新于 2019-11-05 分类于机器学习

Embedding 的概念来自于 word embeddings。 Embedding is a transformation from discrete values/scalars to dense real value vectors. 有的地方把 embedding 翻译为嵌套，有的地方把它翻译为向量。

阅读全文 »

词向量word2vec

发表于 2019-11-04 更新于 2019-11-05 分类于深度学习

1 前言

2013 年，Mikolov 等人创建 Word2Vec 工具，将 word embedding 带到前台，随后 NLP 领域又出现了各种 embdding，如 Sentence2Vec[1][2]、Doc2Vec[2] 等，似乎 Everything can embdding。下图为大神 Mikolov 等人在论文《Distributed Representations of Sentences and Documents 》提出 sentence2vec(doc2vec) 的两种模型。

阅读全文 »