整理决策树以撰写论文:Minitab中的预测分析和根本原因分析

随着我们从流程中收集越来越多的观测数据,我们可能需要新的工具来提供有意义的见解。 您可以将现代机器学习技术与传统统计工具一起添加,以分析,改善和控制您的流程。 让我们看一个以二进制逻辑回归开始,以分类和回归树(CART?)结尾的示例。

随着我们从流程中收集越来越多的观测数据,我们可能需要新的工具来提供有意义的见解。 您可以将现代机器学习技术与传统统计工具一起添加,以分析,改善和控制您的流程。 让我们看一个以二进制逻辑回归开始,以分类和回归树(CART结尾的示例。

编者注:该文章的早期版本显示了Salford Predictive Modeler中的CART,已于2018年3月发布。我们对其进行了更新,以在Minitab的最新版本中显示CART。

更多新功能可下载Minitab 19使用!

点击立即下载Minitab

寻找纸浆漂白过程中过度变化的根本原因

blog-trimming-decision-trees-1-pie-chart

在我们的示例中,我们看到产品中有2.9%存在缺陷。要开始查看此过程中出现不可接受百分比缺陷的根本原因,您可以从Minitab中的Binary Logistic回归开始,其中响应变量可以观察值是否存在缺陷。不幸的是,对于这些数据,下面残差图中的疯狂模式表明二进制logistic回归模型可能不够充分。

blog-trimming-decision-trees-2-deviance-residual-plots-pulp-defects

CART方法

CART是一种决策树算法,通过创建一组是/否规则进行工作,这些规则根据预测变量(X)的设置将响应(Y)变量分为多个分区。使用Minitab中的CART功能之后,发现预测变量之一——放电pH是造成缺陷的重要因素。

blog-trimming-decision-trees-3-zoom-cart

如果排放pH <= 7.739,则估计的缺陷可能性相对较高(17.7%)。 如果放电pH> 7.739,则几乎没有缺陷发生。

点击可查看使用CART作为替代方法来分析分类调查数据

下面的Minitab图说明了此规则起作用的原因。CART模型找到最能将Response = Pass与Response = Fail组区分开的变量和设置。在这里,该变量和设置是排出pH为7.739。

blog-trimming-decision-trees-4-graph-proving-cart-model

接下来可以继续发展CART树,以最终找到导致此过程中出现缺陷的更多设置组合。将问题缩小到至关重要的几个X后,就可以放置控件以减少出现缺陷的机会。在这种情况下,完整的CART分类模型会确定放电pH和生产率的某些特定组合,这些组合会导致缺陷数量不成比例,如下图所示。

blog-trimming-decision-trees-5-specific-combinations-graph

心动了吗要自己尝试看看吗/span>

点击立即下载Minitab


更好。 快点。 更轻松。 现在有了CART。

标签:

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年4月8日
下一篇 2020年4月8日

相关推荐

发表回复

登录后才能评论