【大厂AI课学习笔记】【2.2机器学习开发任务实例】（7）特征构造

这篇具有很好参考价值的文章主要介绍了【大厂AI课学习笔记】【2.2机器学习开发任务实例】（7）特征构造。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

特征分析之后，就是特征构造。

特征构造往往要进行数据的归一化。

在本案例中，我们将所有的数据，将所有特征区间调整为0~1之间。

【大厂AI课学习笔记】【2.2机器学习开发任务实例】（7）特征构造,人工智能,学习笔记,学习,笔记

如上图。

那么，为什么要进行归一化，又如何将数据，调整为0-1的，如何计算呢。

归一化（Normalization）

归一化是一种数据预处理技术，用于调整数据的尺度，使其落入一个特定的范围，通常是0到1之间（或有时是-1到1之间）。归一化的主要目的是消除数据特征之间的量纲影响，使不同特征或指标之间具有可比性，同时使数据更加适应后续的机器学习算法或数据分析方法。

归一化通常指的是将数据集中的数值特征缩放到一个统一的范围，如[0,1]，通过应用一定的数学变换来实现。对于任意特征x，其归一化后的值x'可以通过以下公式计算：

x' = (x - min) / (max - min)

其中，min和max分别是该特征在数据集中的最小值和最大值。经过这样的变换后，特征x'的值就会被压缩到0和1之间。

为什么将数据调整到0-1之间：

尺度统一：不同的特征往往具有不同的量纲和单位，如身高（厘米）和体重（千克）。归一化可以消除这些量纲差异，使所有特征都在相同的尺度上，这有助于机器学习算法更好地理解和处理数据。
提升算法性能：许多机器学习算法（如支持向量机、神经网络等）在输入特征的尺度相似时表现更好。归一化可以确保所有特征都对算法有相似的影响，防止某些特征由于尺度过大而主导模型的训练。
防止数值问题：在进行数学运算（如梯度下降）时，过大的数值可能导致计算不稳定或溢出。归一化可以减少这种数值问题的风险。
解释性：归一化后的数据更容易解释和理解。例如，如果一个特征的归一化值是0.5，我们可以直观地知道它处于该特征的中间水平。
特征权重平衡：在机器学习模型中，特征的权重往往与其数值范围有关。归一化可以确保所有特征的权重在初始时都是相似的，这有助于模型更公平地考虑所有特征。

总的来说，归一化是数据预处理中非常重要的一步，它有助于提升机器学习模型的性能、稳定性和可解释性。

使用与价格关联度最大的“房间数”，和其他特征，构造二次特征。

例如，将房间数和税率进行关联，将房间数和环保指数进行关联等，发现更多的特征。

这时，我们要注意，要对训练集和测试集用进行相同的操作。

延伸学习：

特征构造在AI项目中的定义、方法、关键技术及其他重要内容

在人工智能（AI）项目中，特征构造是一个至关重要的步骤，它涉及到从原始数据中提取和创建有意义的特征，以用于机器学习模型的训练和预测。特征构造的目的是为了将原始数据转化为一种形式，这种形式能够更好地揭示数据内在的规律和模式，从而提高机器学习模型的性能。

一、特征构造的定义

特征构造可以定义为从原始数据中提取、转换或组合出新的特征变量的过程。这些新的特征变量能够更准确地描述数据的某些重要特性，或者是能够捕捉到数据中的非线性关系、交互作用等复杂模式。通过特征构造，我们可以将原始数据空间映射到一个更有利于模型学习的特征空间。

二、特征构造的方法

基于统计的特征构造：利用统计学的方法，如均值、方差、协方差、相关系数等，从原始数据中计算出新的特征。这些统计特征可以提供数据的集中趋势、离散程度以及不同特征之间的相关性等信息。
基于时间序列的特征构造：对于时间序列数据，可以通过计算滑动窗口内的统计量（如移动平均、移动方差等）、季节性分解、趋势提取等方法来构造特征。这些特征可以捕捉到时间序列数据中的周期性、趋势性和季节性等模式。
基于文本的特征构造：对于文本数据，可以通过词袋模型、TF-IDF、词嵌入等技术将文本转换为数值特征向量。这些特征向量可以捕捉到文本中的词汇频率、语义关系等信息。
基于图像的特征构造：对于图像数据，可以利用计算机视觉技术，如卷积神经网络（CNN）的特征提取层，从图像中提取出有意义的特征。这些特征可以捕捉到图像中的边缘、纹理、形状等视觉信息。
基于领域知识的特征构造：根据特定领域的知识和经验，手动设计和构造特征。这种方法需要深入理解数据和问题背景，但往往能够构造出非常有针对性的特征。

三、关键技术

特征选择：在构造了大量特征后，需要通过特征选择技术筛选出最有用的特征子集，以避免维度灾难和提高模型性能。常用的特征选择方法包括过滤式、包裹式和嵌入式等。
特征转换：将原始特征通过某种数学变换或编码方式转换为新的特征形式。例如，独热编码（One-Hot Encoding）可以将分类变量转换为二进制特征向量；主成分分析（PCA）可以将高维特征空间降维到低维空间等。
自动化特征构造：随着机器学习技术的发展，自动化特征构造（也称为特征工程自动化）逐渐成为研究热点。通过利用深度学习、强化学习等技术，可以自动地从原始数据中学习和构造有用的特征。

四、其他重要内容

数据清洗和预处理：在进行特征构造之前，需要对原始数据进行清洗和预处理，包括去除缺失值、异常值、重复值等，以及进行数据类型转换、归一化等操作。这些步骤对于保证特征构造的质量和效果至关重要。
特征与目标变量的相关性分析：在构造特征时，需要关注特征与目标变量之间的相关性。通过分析特征与目标变量之间的相关性，我们可以筛选出与目标变量高度相关的特征，从而提高模型的预测性能。
特征的可解释性：在构造特征时，还需要考虑特征的可解释性。可解释性强的特征有助于我们理解模型的决策过程和结果，提高模型的透明度和可信度。因此，在构造特征时，应尽量保持特征的直观性和可解释性。

文章来源地址https://www.toymoban.com/news/detail-833129.html

到了这里，关于【大厂AI课学习笔记】【2.2机器学习开发任务实例】（7）特征构造的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！