0%

  1. 什么是 Attention 机制

在 “编码器—解码器(seq2seq)” ⼀节⾥,解码器在各个时间步依赖相同的背景变量来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。

现在,让我们再次思考那⼀节提到的翻译例⼦:输⼊为英语序列 “They”“are”“watching”“.”,输出为法语序列“Ils”“regardent”“.”。不难想到,解码器在⽣成输出序列中的每⼀个词时可能只需利⽤输⼊序列某⼀部分的信息。例如,在输出序列的时间步 1,解码器可以主要依赖“They”“are” 的信息来⽣成 “Ils”,在时间步 2 则主要使⽤来⾃“watching” 的编码信息⽣成“regardent”,最后在时间步 3 则直接映射句号“.”。这看上去就像是在解码器的每⼀时间步对输⼊序列中不同时间步的表征或编码信息分配不同的注意⼒⼀样。这也是注意⼒机制的由来。

阅读全文 »

  1. 什么是 seq2seq

在⾃然语⾔处理的很多应⽤中,输⼊和输出都可以是不定⻓序列。以机器翻译为例,输⼊可以是⼀段不定⻓的英语⽂本序列,输出可以是⼀段不定⻓的法语⽂本序列,例如:

英语输⼊:“They”、“are”、“watching”、“.”

法语输出:“Ils”、“regardent”、“.”

当输⼊和输出都是不定⻓序列时,我们可以使⽤编码器—解码器(encoder-decoder)或者 seq2seq 模型。序列到序列模型,简称 seq2seq 模型。这两个模型本质上都⽤到了两个循环神经⽹络,分别叫做编码器和解码器。编码器⽤来分析输⼊序列,解码器⽤来⽣成输出序列。两 个循环神经网络是共同训练的。

阅读全文 »

  1. 什么是 textRNN

textRNN 指的是利用 RNN 循环神经网络解决文本分类问题,文本分类是自然语言处理的一个基本任务,试图推断出给定文本 (句子、文档等) 的标签或标签集合。

文本分类的应用非常广泛,如:

  • 垃圾邮件分类:2 分类问题,判断邮件是否为垃圾邮件
  • 情感分析:2 分类问题:判断文本情感是积极还是消极;多分类问题:判断文本情感属于 {非常消极,消极,中立,积极,非常积极} 中的哪一类。
  • 新闻主题分类:判断一段新闻属于哪个类别,如财经、体育、娱乐等。根据类别标签的数量,可以是 2 分类也可以是多分类。
  • 自动问答系统中的问句分类
  • 社区问答系统中的问题分类:多标签多分类 (对一段文本进行多分类,该文本可能有多个标签),如知乎看山杯
  • 让 AI 做法官:基于案件事实描述文本的罚金等级分类 (多分类) 和法条分类(多标签多分类)
  • 判断新闻是否为机器人所写:2 分类
阅读全文 »

  1. 什么是 XLNet

XLNet 是一个类似 BERT 的模型,而不是完全不同的模型。总之,XLNet 是一种通用的自回归预训练方法。它是 CMU 和 Google Brain 团队在 2019 年 6 月份发布的模型,最终,XLNet 在 20 个任务上超过了 BERT 的表现,并在 18 个任务上取得了当前最佳效果(state-of-the-art),包括机器问答、自然语言推断、情感分析和文档排序。

阅读全文 »

  1. 什么是 BERT

BERT 的全称是 Bidirectional Encoder Representation from Transformers,是 Google2018 年提出的预训练模型,即双向 Transformer 的 Encoder,因为 decoder 是不能获要预测的信息的。模型的主要创新点都在 pre-train 方法上,即用了 Masked LM 和 Next Sentence Prediction 两种方法分别捕捉词语和句子级别的 representation。

阅读全文 »

  1. 什么是 Transformer

《Attention Is All You Need》是一篇 Google 提出的将 Attention 思想发挥到极致的论文。这篇论文中提出一个全新的模型,叫 Transformer,抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。目前大热的 Bert 就是基于 Transformer 构建的,这个模型广泛应用于 NLP 领域,例如机器翻译,问答系统,文本摘要和语音识别等等方向。

阅读全文 »

  1. 深度学习有哪些应用

  • 图像:图像识别、物体识别、图片美化、图片修复、目标检测。
  • 自然语言处理:机器创作、个性化推荐、文本分类、翻译、自动纠错、情感分析。
  • 数值预测、量化交易
  1. 什么是神经网络

我们以房价预测的案例来说明一下,把房屋的面积作为神经网络的输入(我们称之为 𝑥),通过一个节点(一个小圆圈),最终输出了价格(我们用 𝑦 表示)。其实这个小圆圈就是一个单独的神经元,就像人的大脑神经元一样。如果这是一个单神经元网络,不管规模大小,它正是通过把这些单个神经元叠加在一起来形成。如果你把这些神经元想象成单独的乐高积木,你就通过搭积木来完成一个更大的神经网络。

阅读全文 »

  1. 说说 GloVe

正如 GloVe 论文的标题而言,GloVe 的全称叫 Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。 我们通过对向量的运算,比如欧几里得距离或者 cosine 相似度,可以计算出两个单词之间的语义相似性。

阅读全文 »

  1. 什么是 fastText

英语单词通常有其内部结构和形成⽅式。例如,我们可以从 “dog”“dogs” 和“dogcatcher”的字⾯上推测它们的关系。这些词都有同⼀个词根“dog”,但使⽤不同的后缀来改变词的含义。而且,这个关联可以推⼴⾄其他词汇。

在 word2vec 中,我们并没有直接利⽤构词学中的信息。⽆论是在跳字模型还是连续词袋模型中,我们都将形态不同的单词⽤不同的向量来表⽰。例如,“dog”和 “dogs” 分别⽤两个不同的向量表⽰,而模型中并未直接表达这两个向量之间的关系。鉴于此,fastText 提出了⼦词嵌⼊ (subword embedding) 的⽅法,从而试图将构词信息引⼊ word2vec 中的 CBOW。

阅读全文 »

  1. 什么是 NLP

自然语言处理 (Natural Language Processing) 是人工智能(AI)的一个子领域 自然语言处理是研究在人与人交互中以及在人与计算机交互中的语言问题的一门学科。 为了建设和完善语言模型,自然语言处理建立计算框架,提出相应的方法来不断的完善设计各种实用系统,并探讨这些实用系统的评测方法。

阅读全文 »