「机器学习」处理回归中存在分类型自变量的方法

关于问题

首先需要理解在回归(regression)中为什么分类型变量(categorical data)不能和其他自变量一样直接处理

因为分类型变量的值没有数学意义,它只是一个编号或者序号,不能直接用于回归运算。

 

解决思路

找一个方法让分类型变量的值具有数学意义

 

解决方法

将每个分类展开,并分别作为一个特征,其特征值非0即1

 

例子

研究股票的股价,有以下四个特征,其中最后一个特征“所属板块”就是分类型变量

我们就可以按照上面的解决方法,将其展开,用0、1作为值,即:

 

2 Comments on “「机器学习」处理回归中存在分类型自变量的方法

发表评论

电子邮件地址不会被公开。