一、概述
特征工程描述了制定相关特征的过程,这些特征尽可能准确地描述底层数据科学问题,并使算法能够理解和学习模式。换句话说:您提供的特征可作为将您自己对世界的理解和知识传达给模型的一种方式。
每个特征描述一种信息“片段”。这些部分的总和允许算法得出有关目标变量的结论 - 至少如果您有一个实际包含有关目标变量的信息的数据集。据《福布斯》杂志报道,数据科学家大约花费 80% 的时间收集和准备相关数据,其中仅数据清理和数据整理就占用了大约 60% 的时间。
特征工程是指在使用机器学习或统计建模创建预测模型时,使用领域知识从原始数据中选择和转换最相关变量的过程。
这里主要是整理了一些最常用的特征工程技术。文章来源:https://www.toymoban.com/news/detail-682962.html
二、Encoding
1、Label Encoding
标签编码是一种用于将分类列转换为数字列的技术,以便可以通过仅采用数字数据的机器学习模型来拟合它们。这是机器学习项目中重要的预处理步骤。使用 0 到 n_classes-1 之间的值对目标标签进行编码。该转换器应用于编码目标值,即 y
,而不是输入X
。文章来源地址https://www.toymoban.com/news/detail-682962.html
from sklearn import preprocessing
# 创建编码器
le = preprocessing.LabelEncoder()
# 进行拟合
le.fit([1, 2, 2, 6])
# 打印拟合
到了这里,关于机器学习笔记 - 数据科学中基于 Scikit-Learn、Tensorflow、Pandas 和 Scipy的7种最常用的特征工程技术的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!