本篇讲解一些特征工程部分的特征选择 (feature_selection), 主要包括以下几方面:
- 特征选择是什么
- 为什么要做特征选择
- 特征选择的基本原则
- 特征选择的方法及实现
特征选择是什么
特征选择也称特征子集选择,是从现有的 m 个特征中选出对机器学习有用的 n 个特征 (n<=m),以此降低特征维度减少计算量,同时也使模型效果达到最优。
一个专注技术的组织
使用诸如梯度提升之类的决策树方法的集合的好处是它们可以从训练的预测模型自动提供特征重要性的估计。
在本文中,您将了解如何使用 Python 中的 XGBoost 库来估计功能对预测建模问题的重要性。
他山之石,可以攻玉。美团点评 NLP 团队一直紧跟业界前沿技术,开展了基于美团点评业务数据的预训练研究工作,训练了更适配美团点评业务场景的 MT-BERT 模型,通过微调将 MT-BERT 落地到多个业务场景中,并取得了不错的业务效果。
2018 年,自然语言处理(Natural Language Processing,NLP)领域最激动人心的进展莫过于预训练语言模型,包括基于 RNN 的 ELMo[1] 和 ULMFiT[2],基于 Transformer[3] 的 OpenAI GPT[4] 及 Google BERT[5] 等。下图 1 回顾了近年来预训练语言模型的发展史以及最新的进展。预训练语言模型的成功,证明了我们可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游 NLP 任务单独标注大量训练数据。此外,预训练语言模型的成功也开创了 NLP 研究的新范式 [6],即首先使用大量无监督语料进行语言模型预训练(Pre-training),再使用少量标注语料进行微调(Fine-tuning)来完成具体 NLP 任务(分类、序列标注、句间关系判断和机器阅读理解等)。
1、推荐
基于迁移学习模型进行语义向量召回,最近 3 月 item ember 加小时增量入库 faiss、odps,统计 3 天所有用户的点击历史与 item ember join 生成用户平均向量,
item faiss,uesr Redis faiss docker 部署,kbs 监控
2、文本分类
基于 ernie 进时效性与非时效分类
1、# 进行分词处理
2、# 准备训练测试数据集
3、# 初始化 Embedding
4、# 使用 embedding 初始化模型
5、# 先只训练一轮
6、# evaluate 评估指标
7、# 保存模型 # 模型转换为 SavedModel 格式
8、# Tensorflor Serving 部署
9、# 部署好了 Tensorflow Serving 模型,但是模型的输出输出均为张量,我们还需要对输入进行预处理才能使用。
5、生成用户最近 3 天点击过的 item 序列,并过滤异常用户,一天刷文章大于 300 篇
6、生成每个用户点击过得 item 的平均向量
7、user、item 生成 libsvm 格式,用户侧拼接 Redis key
8、item2vec 用户向量存 Redis,文章向量存 oss