1. 决策树简介
决策树是一个预测模型;它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。
从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。
2. 导入相关的库
|
|
3. 创建数据集。
数据来源是2014美国死亡谷的天气数据(death_valley_2014.csv)。
4. 数据筛选。
上面数据参数比较多,需要进行必要的筛选,只留下认为能预测天气的几个因素。
5. 处理nan值。
先对”Events”数据这一列进行填充,把nan值变为0。
查看数据集中是否还有其他nan值。
由上表可知,第46列是空列,需要删除,其次”CloudCover”也有nan值,需要转化为数值0。此外还需把”Events” 这一列中的string转化为number。
6. 数据分组。
提取出特征值及响应值,开始进行数据分组。使用一半的数据训练,一半的数据测试。
7. 进行训练。
初始化决策树分类器,然后进行训练。
8. 预测。
使用模型进行预测。
9. 计算准确率。
|
|