0%

本篇讲解一些特征工程部分的特征选择 (feature_selection), 主要包括以下几方面:

  • 特征选择是什么
  • 为什么要做特征选择
  • 特征选择的基本原则
  • 特征选择的方法及实现

特征选择是什么

特征选择也称特征子集选择,是从现有的 m 个特征中选出对机器学习有用的 n 个特征 (n<=m),以此降低特征维度减少计算量,同时也使模型效果达到最优。

阅读全文 »

他山之石,可以攻玉。美团点评 NLP 团队一直紧跟业界前沿技术,开展了基于美团点评业务数据的预训练研究工作,训练了更适配美团点评业务场景的 MT-BERT 模型,通过微调将 MT-BERT 落地到多个业务场景中,并取得了不错的业务效果。

背景

2018 年,自然语言处理(Natural Language Processing,NLP)领域最激动人心的进展莫过于预训练语言模型,包括基于 RNN 的 ELMo[1] 和 ULMFiT[2],基于 Transformer[3] 的 OpenAI GPT[4] 及 Google BERT[5] 等。下图 1 回顾了近年来预训练语言模型的发展史以及最新的进展。预训练语言模型的成功,证明了我们可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游 NLP 任务单独标注大量训练数据。此外,预训练语言模型的成功也开创了 NLP 研究的新范式 [6],即首先使用大量无监督语料进行语言模型预训练(Pre-training),再使用少量标注语料进行微调(Fine-tuning)来完成具体 NLP 任务(分类、序列标注、句间关系判断和机器阅读理解等)。

阅读全文 »

本文主要是介绍使用 Kashgari 框架实现 BERT 文本分类及使用 Tensorflow Serving 方式部署模型。

数据处理

我们使用新浪微博情感分类数据集,数据集很简单,只有二分类。此外还需要下载 BERT 模型和对应的分词器。

  • 下载数据链接:link
  • 下载 BERT 模型:link
  • 下载 BERT 分词器:link
  • 安装 Kashgari: pip install kashgari-tf
阅读全文 »

1、推荐

基于迁移学习模型进行语义向量召回,最近 3 月 item ember 加小时增量入库 faiss、odps,统计 3 天所有用户的点击历史与 item ember join 生成用户平均向量,
item faiss,uesr Redis faiss docker 部署,kbs 监控

2、文本分类

基于 ernie 进时效性与非时效分类
1、# 进行分词处理
2、# 准备训练测试数据集
3、# 初始化 Embedding
4、# 使用 embedding 初始化模型
5、# 先只训练一轮
6、# evaluate 评估指标
7、# 保存模型 # 模型转换为 SavedModel 格式
8、# Tensorflor Serving 部署
9、# 部署好了 Tensorflow Serving 模型,但是模型的输出输出均为张量,我们还需要对输入进行预处理才能使用。

阅读全文 »

之前对 Wide And Deep 模型看过一点文章,但是没有深入了解,这两天抽出时间来仔细看了下相关代码和资料,然后写点初步的总结,总体来说还是很有意思的想法,把深度学习突破了在图像和语言领域的限制,用到了以往机器学习的领域,并且取得了更好的结果。

核心思想是?

wide and deep 模型的核心思想是结合线性模型的记忆能力(memorization)和 DNN 模型的泛化能力(generalization),在训练过程中同时优化两个模型的参数,从而达到整体模型的预测能力最优。

阅读全文 »

虽然 Milvus 开源向量搜索引擎(GitHub)可以为用户隔离下面这些头疼的细节,不过多学一点向量数据的知识总是没坏处的。

L2 正则化(归一化)

n 维原始向量空间: 为实数, 为非零自然数)

原始向量: ,&space;X&space;\in&space;\mathbb{R}^n>)

阅读全文 »





5、生成用户最近 3 天点击过的 item 序列,并过滤异常用户,一天刷文章大于 300 篇

6、生成每个用户点击过得 item 的平均向量

7、user、item 生成 libsvm 格式,用户侧拼接 Redis key

8、item2vec 用户向量存 Redis,文章向量存 oss

1. 推荐系统中的评价标准,准确度,AUC,召回率等

2. RF 和 xgboost 的区别,怎么选特征,判断特征重要度,RF 的层数和深度

3. 工业推荐系统架构,召回阶段的责任,多路召回,利用 FM 模型做统一的召回模型

强烈推荐阅读张俊林的文章

4. RNN ,LSTM, GRU 等详细结构和公式推导

5. GBDT 推导,再来一遍

阅读全文 »