一次性弄懂马尔可夫模型、隐马尔可夫模型、马尔可夫网络和条件随机场！(词性标注代码实现)

发表于 2019-11-08 更新于 2019-11-19 分类于深度学习

马尔可夫网络、马尔可夫模型、马尔可夫过程、贝叶斯网络的区别

相信大家都看过上一节我讲得贝叶斯网络，都明白了概率图模型是怎样构造的，如果现在还没明白，请看我上一节的总结：贝叶斯网络

这一节我们重点来讲一下马尔可夫，正如题目所示，看了会一脸蒙蔽，好在我们会一点一点的来解释上面的概念，请大家按照顺序往下看就会完全弄明白了，这里我给一个通俗易懂的定义，后面我们再来一个个详解。

阅读全文 »

贝叶斯网络，看完这篇我终于理解了 (附代码)！

发表于 2019-11-08 更新于 2019-11-19 分类于深度学习

对概率图模型的理解

概率图模型是用图来表示变量概率依赖关系的理论，结合概率论与图论的知识，利用图来表示与模型有关的变量的联合概率分布。由图灵奖获得者 Pearl 开发出来。

如果用一个词来形容概率图模型（Probabilistic Graphical Model）的话，那就是 “优雅”。对于一个实际问题，我们希望能够挖掘隐含在数据中的知识。概率图模型构建了这样一幅图，用观测结点表示观测到的数据，用隐含结点表示潜在的知识，用边来描述知识与数据的相互关系，最后基于这样的关系图获得一个概率分布，非常 “优雅” 地解决了问题。

阅读全文 »

我是这样理解 --SVM，不需要繁杂公式的那种！(附代码)

发表于 2019-11-08 更新于 2019-11-19 分类于深度学习

讲讲 SVM

1.1 一个关于 SVM 的童话故事

支持向量机（Support Vector Machine，SVM）是众多监督学习方法中十分出色的一种，几乎所有讲述经典机器学习方法的教材都会介绍。关于 SVM，流传着一个关于天使与魔鬼的故事。

传说魔鬼和天使玩了一个游戏，魔鬼在桌上放了两种颜色的球。魔鬼让天使用一根木棍将它们分开。这对天使来说，似乎太容易了。天使不假思索地一摆，便完成了任务。魔鬼又加入了更多的球。随着球的增多，似乎有的球不能再被原来的木棍正确分开，如下图所示。

阅读全文 »

随机森林 -- 你想到的，都在这了

发表于 2019-11-08 更新于 2019-11-19 分类于深度学习

什么是随机森林

1.1 Bagging 思想

Bagging 是 bootstrap aggregating。思想就是从总体样本当中随机取一部分样本进行训练，通过多次这样的结果，进行投票获取平均值作为结果输出，这就极大可能的避免了不好的样本数据，从而提高准确度。因为有些是不好的样本，相当于噪声，模型学入噪声后会使准确度不高。

阅读全文 »

好记忆的机器学习面试 -- 决策树

发表于 2019-11-08 更新于 2019-11-19 分类于深度学习

什么是决策树

1.1 决策树的基本思想

其实用一下图片能更好的理解 LR 模型和决策树模型算法的根本区别，我们可以思考一下一个决策问题：是否去相亲，一个女孩的母亲要给这个女海介绍对象。

大家都看得很明白了吧！LR 模型是一股脑儿的把所有特征塞入学习，而决策树更像是编程语言中的 if-else 一样，去做条件判断，这就是根本性的区别。

阅读全文 »

看完这篇，逻辑回归 80% 都懂了

发表于 2019-11-08 更新于 2019-11-19 分类于深度学习

什么是逻辑回归

逻辑回归是用来做分类算法的，大家都熟悉线性回归，一般形式是 Y=aX+b，y 的取值范围是 [-∞, +∞]，有这么多取值，怎么进行分类呢？不用担心，伟大的数学家已经为我们找到了一个方法。

也就是把 Y 的结果带入一个非线性变换的 Sigmoid 函数中，即可得到 [0,1] 之间取值范围的数 S，S 可以把它看成是一个概率值，如果我们设置概率阈值为 0.5，那么 S 大于 0.5 可以看成是正样本，小于 0.5 看成是负样本，就可以进行分类了。

阅读全文 »

好记忆的机器学习面试 -- 线性回归

发表于 2019-11-08 更新于 2019-11-19 分类于深度学习

什么是线性回归

线性：两个变量之间的关系是一次函数关系的——图象是直线，叫做线性。
非线性：两个变量之间的关系不是一次函数关系的——图象不是直线，叫做非线性。
回归：人们在测量事物的时候因为客观条件所限，求得的都是测量值，而不是事物真实的值，为了能够得到真实值，无限次的进行测量，最后通过这些测量数据计算回归到真实值，这就是回归的由来。

阅读全文 »

NLP 从词袋到 Word2Vec 的文本表示

发表于 2019-11-08 更新于 2019-11-19 分类于深度学习

在 NLP(自然语言处理) 领域，文本表示是第一步，也是很重要的一步，通俗来说就是把人类的语言符号转化为机器能够进行计算的数字，因为普通的文本语言机器是看不懂的，必须通过转化来表征对应文本。早期是基于规则的方法进行转化，而现代的方法是基于统计机器学习的方法。

数据决定了机器学习的上限, 而算法只是尽可能逼近这个上限，在本文中数据指的就是文本表示，所以，弄懂文本表示的发展历程，对于 NLP 学习者来说是必不可少的。接下来开始我们的发展历程。文本表示分为离散表示和分布式表示：

阅读全文 »

模型集成 (多模型) 讲解(算法 + 案例)

发表于 2019-11-08 更新于 2019-11-19 分类于深度学习

信用卡欺诈预测案例

这是一道 kaggle 上的题目。

我们都知道信用卡，能够透支一大笔钱来供自己消费，正因为这一点，不法分子就利用信用卡进一特性来实施欺诈行为。银行为了能够检测出这一欺诈行为，通过机器学习模型进行智能识别，提前冻结该账户，避免造成银行的损失。那么我们应该通过什么方式来提高这种识别精度呢！这就是今天要说的主题，多模型融合预测。使用到的模型算法有：KNN、SVM、Logistic Regression(LR)、Random Forest。

阅读全文 »

岭回归 (L2)、lasso 回归 (L1)、ElasticNet 讲解 (算法 + 案例)

发表于 2019-11-08 更新于 2019-11-19 分类于深度学习

1.L2 正则化 (岭回归)

1.1 问题

想要理解什么是正则化，首先我们先来了解上图的方程式。当训练的特征和数据很少时，往往会造成欠拟合的情况，对应的是左边的坐标；而我们想要达到的目的往往是中间的坐标，适当的特征和数据用来训练；但往往现实生活中影响结果的因素是很多的，也就是说会有很多个特征值，所以训练模型的时候往往会造成过拟合的情况，如右边的坐标所示。

阅读全文 »

AILab-aida

涉猎的主要编程语言为深度学习、机器学习、大数据、服务端、移动端、前端、爬虫(go、scala、Java、flutter、Python、react、Vue)等。

RSS

GitHub E-Mail