未加星标

数据挖掘十大经典算法——CART

字体大小 | |
[大数据技术 所属分类 大数据技术 | 发布者 店小二05 | 时间 2017 | 作者 红领巾 ] 0人收藏点击收藏

  数据挖掘十大经典算法(10) CART

  分类回归树(CART,Classification And Regression Tree)也属于一种决策树, 分类回归树是一棵二叉树,且每个非叶子节点都有两个孩子,所以对于第一棵子树其叶子节点数比非叶子节点数多1。

数据挖掘十大经典算法——CART

  决策树生长的核心是确定决策树的分枝准则。

  1、 如何从众多的属性变量中选择一个当前的最佳分支变量; 也就是选择能使异质性下降最快的变量。

  异质性的度量:GINI、TWOING、least squared deviation。

  前两种主要针对分类型变量,LSD针对连续性变量。

  代理划分、加权划分、先验概率

  2、 如何从分支变量的众多取值中找到一个当前的最佳分割点(分割阈值)。

  (1) 分割阈值:

  A、数值型变量——对记录的值从小到大排序,计算每个值作为临界点产生的子节点的异质性统计量。能够使异质性减小程度最大的临界值便是最佳的划分点。

  B、分类型变量——列出划分为两个子集的所有可能组合,计算每种组合下生成子节点的异质性。同样,找到使异质性减小程度最大的组合作为最佳划分点。

  在决策树的每一个节点上我们可以按任一个属性的任一个值进行划分。 按哪种划分最好呢?有3个标准可以用来衡量划分的好坏:GINI指数、双化指数、有序双化指数。

  终止条件:

  一个节点产生左右孩子后,递归地对左右孩子进行划分即可产生分类回归树。这里的终止条件是什么?什么时候节点就可以停止分裂了?

  满足以下一个即停止生长。

  (1) 节点达到完全纯性;

  (2) 数树的深度达到用户指定的深度;

  (3) 节点中样本的个数少于用户指定的个数;

  (4) 异质性指标下降的最大幅度小于用户指定的幅度。

  剪枝

  当分类回归树划分得太细时,会对噪声数据产生过拟合作用。因此我们要通过剪枝来解决。剪枝又分为前剪枝和后剪枝:前剪枝是指在构造树的过程中就知道哪些节点可以剪掉,于是干脆不对这些节点进行分裂,在N皇后问题和背包问题中用的都是前剪枝,上面的χ2方法也可以认为是一种前剪枝;后剪枝是指构造出完整的决策树之后再来考查哪些子树可以剪掉。

  在分类回归树中可以使用的后剪枝方法有多种,比如:代价复杂性剪枝、最小误差剪枝、悲观误差剪枝等等。这里我们只介绍代价复杂性剪枝法。

  预测

  回归树——预测值为叶节点目标变量的加权均值

  分类树——某叶节点预测的分类值应是造成错判损失最小的分类值。


数据挖掘十大经典算法——CART
tags: 剪枝,节点,异质,划分,变量,分类,CART,回归,决策,双化,GINI,最佳,分割,阈值
分页:12
转载请注明
本文标题:数据挖掘十大经典算法——CART
本站链接:https://www.codesec.net/view/570369.html


1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
技术大类 技术大类 | 大数据技术 | 评论(0) | 阅读(334)