1.1 独热编码
提问:什么是独热编码?
回答:独热编码是一种常用的数据编码方法,用于将分类变量转换为 二进制
的表示形式。它将每个类别表示为一个只包含 0和1
的二进制向量,其中每个类别对应一个维度,维度上的值为1表示该样本属于该类别,为0表示不属于该类别。
对于离散特征可以采用One-Hot编码的方式来处理,使用M位状态寄存器对M个状态进行编码,M个变量用M维表示,每个维度的数值或为1,或为0。
举例说明:文章来源:https://www.toymoban.com/news/detail-769668.html
对于学历特征,可以将其取值 “小学”、“中学”、“本科”、“硕士” 和 “博士” 进行独热编码。下面是各个取值的独热编码示例:文章来源地址https://www.toymoban.com/news/detail-769668.html
"小学":[1, 0, 0, 0, 0]
"中学":[0, 1, 0, 0, 0]
"本科":[0, 0, 1, 0, 0]
"硕士":[0, 0, 0, 1
到了这里,关于大数据HCIE成神之路之数据预处理(6)——特征编码的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!