独热编码
在很多机器学习任务中,特征并不总是连续值,而有可能是分类值,即使转化为数字表示后,也不能直接用在我们的分类器中。这个的整数特征表示并不能在分类器中直接使用,因为这样的连续输入,估计器会认为类别之间是有序的,但实际却是无序的。
独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。
可以这样理解,对于每一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m个二元特征(如成绩这个特征有好,中,差变成 one-hot 就是100, 010, 001)。并且,这些特征互斥,每次只有一个激活。因此,数据会变成稀疏的。
这样做的好处主要有:
- 解决了分类器不好处理属性数据的问题
- 在一定程度上也起到了扩充特征的作用