0%

通俗来讲,它是一种二分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。

SVM

SVM 的目标函数基本型

min12w2min12w2min \frac{1}{2}w^2s.t.yi(wTxi+b)≥1,i=1,2,…,ms.t.yi(wTxi+b)≥1,i=1,2,…,ms.t. y_i(w^Tx_i+b)\ge1, i=1,2,…,m

阅读全文 »

Posted on 2019-02-22 | Modified: 2019-03-17 | In Notes | 0 |

Words count in article: 1,347 | Reading time ≈ 6

Python 库简介 - 机器学习库专题。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
#回归
from sklearn.linear_model import LinearRegression #线性回归
from sklearn.linear_model import Ridge #岭回归,可选alpha=.5
from sklearn.linear_model import BayesianRidge #贝叶斯岭回归
from sklearn.linear_model import Lasso #Lasso回归
from sklearn.tree import DecisionTreeRegressor #决策树回归
from sklearn.ensemble import RandomForestRegressor #随机森林回归
#分类
from sklearn.linear_model import LogisticRegression #逻辑回归
from sklearn.svm import SVC, LinearSVC #支持向量机
from sklearn.ensemble import RandomForestClassifier #随机森林分类器
from sklearn.neighbors import KNeighborsClassifier #K近邻
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import Perceptron #感知机
from sklearn.linear_model import SGDClassifier #随机梯度下降分类器
from sklearn.tree import DecisionTreeClassifier #决策树分类器
#特征工程
import sklearn.preprocessing as preprocessing
阅读全文 »

基于 Python3。多多练习。

Python 常用库的示意图。(提供 Xmind 格式下载

Python 标准库

Awesome Python

kite 智能编程工具,AI-Powered Python Copilot,Kite_blog(暂时不太好用)
sulime 插件,参见 Sublime Text 3 绝对神器sublime text 3 插件推荐?Emmet 文档HTML/CSS 速写神器:Emmet | bubkoo前端开发必备!Emmet 使用手册_Emmet 教程_w3cplus实用的 sublime 插件集合 – sublime 推荐必备插件

入门 Python 数据分析最好的实战项目(一)(二)

阅读全文 »

XGBoost 官方参数说明文档,XGBoost 版本:0.72。

在运行 XGBoost 之前,必须设置三种类型参数:通用参数 (General Parameters)、提升参数(Booster Parameters) 和任务参数(Task Parameters)。

  • 通用参数 (General Parameters):设置整体功能,参数控制在提升(boosting) 过程中使用哪种 booster,常用的 booster 有树模型 (tree model) 和线性模型(linear model)。
  • 提升参数 (Booster Parameters):这取决于使用哪种 booster(树 or 回归)。
  • 任务参数 (Task Parameters):控制学习的场景,例如在回归问题中会使用不同的参数控制排序。
阅读全文 »

1 背景说明

Attention,也叫注意力模型,关于 Attention,这篇文章中有详细的描述。Attention 在计算机视觉、自然语言处理中都有典型的应用。因为 Attention 能够学习到不同特征对于目标的重要程度,目前的研究结果表明,Attention 在绝大多数场景中都能发挥积极作用。

Attention FM(后文简称 AFM)正是在原有 FM 基础上,考虑了不同二阶交叉特征对于目标的重要程度,实验结果表明,AFM 性能明显要优于 FM 及 FM 的衍生版本。下面我们就来探索下 AFM 原理。

阅读全文 »

在互联网精准广告中,可以从多个角度来评估一个 CTR 模型的性能,但通常以 AUC 作为模型评估的最直接指标,直观上讲,AUC 是从排序能力的角度来对模型进行评估。下面将详细解释 AUC 的含义及其计算方式,

2.1 ROC 曲线理解

ROC(Receiver Operating Characteristic)曲线和 AUC 常被用来评价一个二值分类器的优劣,分类器算法,常用的评价指标主要有 precision,recall,F-score;
一个典型的 ROC 曲线如下图所示:

阅读全文 »

1 RNN 原理

1.1 RNN 的时序反向传播原理

RNN 中采用时序反向传播算法(BPTT)对参数更新,下面将简单介绍下 BPTT 原理,并解释其与传统反向传播的区别。我们还将了解梯度消失问题,这也是推动 LSTM 和 GRU 发展的原因。

1.1.1 时序反向传播算法

我们以基本 RNN 结构来说明 BPTT 算法的原理:

阅读全文 »

1 应用背景

最近在计算 word2vec 中的相似性的时候,遇到了计算量特别巨大的情况,大到计算在 hadoop 集群上也计算了好几个小时,在本机上初步估计了下,基本上是不可能算出来的(规模是几十万候选集,维度是 100)。

在跟我组一个博士交流这个问题时,他给我推荐了 LSH(局部敏感哈希)算法,用这个算法之后,发现计算量瞬间降低了近千倍(这里顺带鄙视下自己的知识面)。后来查了下资料,发现 LSH 在相似性计算方面,已经有大量应用了(特别是处理海量数据)。下面将详细梳理下 LSH 的原理及其应用。

阅读全文 »

1 背景说明

1.1 行文缘由

最近因为工作上的原因,接触到较多的文本分类相关的领域:比如在信息流广告或者搜索广告中,对关键词、广告创意进行行业分类等。于是,对传统的文本分类方法和目前比较流行的用深度学习进行文本分类做了一个归纳总结,这篇文章就是讲 CNN 在文本分类中的应用,也是行业中的一篇非常经典的文章。

阅读全文 »

1 背景说明

本文是同组中一位同学的组内技术分享,觉得很有意思,就暂且拿过来总结一下。涉及到的可能并不止 Batch Normalization(下文简称 BN),而是以 BN 为代表的深度学习中的网络标准化方法。

为什么深度学习网络需要标准化呢?主要原因在于输入数据的不确定性,随着训练过程的进行,导致参数震荡。网络标准化的好处主要体现在以下两个方面:

阅读全文 »