逻辑回归常用于解决二分类问题,它将具有 nnn 维特征的样本 XXX,经过线性加权后,通过 sigmoidsigmoidsigmoid 函数转换得到一个概率值 yyy,预测时根据一个门限 thresholdthresholdthreshold (例如 0.5) 来划分类别,y<thresholdy<thresholdy < threshold 为负类,y≥thresholdy≥thresholdy \geq threshold 为正类。
协同过滤推荐 ALS
如今,协同过滤推荐 (CollaboratIve Filtering) 技术已广泛应用于各类推荐系统中,其通常分为两类,一种是基于用户的协同过滤算法(User-Based CF),它是根据用户对物品的历史评价数据(如,喜欢、点击、购买等),计算不同用户之间的相似度,在有相同喜好的用户间进行物品推荐,例如将跟我有相同电影爱好的人看过的电影推荐给我;另一种是基于物品的协同过滤算法(Item-Based CF),它是根据用户对物品的历史评价数据,计算物品之间的相似度,用户如果喜欢 A 物品,那么可以给用户推荐跟 A 物品相似的其他物品,例如如果我们在购物网站上买过尿片,第二天你再到购物网站上浏览时,可能会被推荐奶瓶。更多关于 User-Based CF 和 Item-Based CF 的阐述请参考文章。然而,在用户数量以及用户评分不足的情况下,上述两种方法就不是那么地好使了,近年来,基于模型的推荐算法 ALS(交替最小二乘) 在 Netflix 成功应用并取得显著效果提升,ALS 使用机器学习算法建立用户和物品间的相互作用模型,进而去预测新项。
主题模型 (Topic Model)、LDA(案例代码)
- LDA 模型是什么
LDA 可以分为以下 5 个步骤:
- 一个函数:gamma 函数。
- 四个分布:二项分布、多项分布、beta 分布、Dirichlet 分布。
- 一个概念和一个理念:共轭先验和贝叶斯框架。
- 两个模型:pLSA、LDA。
- 一个采样:Gibbs 采样
关于 LDA 有两种含义,一种是线性判别分析(Linear Discriminant Analysis),一种是概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,简称 LDA),本文讲后者。
numpy 创建矩阵常用方法
缺失值填充的几种方法
面试不仅仅是一个找工作的过程,还是一个向面试官交流学习的过程。之前的某次面试中,聊到了缺失值填充方法,经面试官指点学到了一些技能,下面简要总结一下。
常见的缺失值填充方法有填充默认值、均值、众数、KNN 填充、以及把缺失值作为新的 label 通过模型来预测等方式,为了介绍这几种填充方法的使用以及填充效果,本文将在真实数据集上进行简单比较。
用Embedding表达一切
Embedding 的概念来自于 word embeddings。 Embedding is a transformation from discrete values/scalars to dense real value vectors. 有的地方把 embedding 翻译为嵌套,有的地方把它翻译为向量。
词向量word2vec
1 前言
2013 年,Mikolov 等人创建 Word2Vec 工具,将 word embedding 带到前台,随后 NLP 领域又出现了各种 embdding,如 Sentence2Vec[1][2]、Doc2Vec[2] 等,似乎 Everything can embdding。下图为大神 Mikolov 等人在论文《Distributed Representations of Sentences and Documents 》提出 sentence2vec(doc2vec) 的两种模型。
FM(Factorization Machine)因式分解机 与 TensorFlow 实现 详解
1,线性回归(Linear Regression)
线性回归,即使用多维空间中的一条直线拟合样本数据,如果样本特征为:
𝑥=(𝑥1,𝑥2,…,𝑥𝑛)x=(x1,x2,…,xn)x = ({x_1},{x_2},…,{x_n})
模型假设函数如下:
𝑦̂ =ℎ(𝑤,𝑏)=𝑤𝑇𝑥+𝑏,𝑤=(𝑤1,𝑤2,…,𝑤𝑛)y^=h(w,b)=wTx+b,w=(w1,w2,…,wn)\hat y = h(w,b) = {w^T}x + b,w = ({w_1},{w_2},…,{w_n})