基于R语言对哺乳动物睡眠时间sleep数据集的分析

2.建立数据模型

2.1数据集说明

本次选用的数据集为哺乳动物睡眠数据sleep,其中包含43个有效数据,每个数据共10个属性,说明如下:
第一列:BodyWgt 体重
第二列:BrainWgt 脑重
第三列:NonD 不睡觉时间
第四列:Dream 做梦时间
第五列:Sleep 睡眠时长
第六列:Span 寿命
第七列:Gest 妊娠期
第八列:Pred 物种被捕食的程度
第九列:Exp 睡眠时暴露的程度
第十列:Danger 面临的总危险程度

2.2决策树的构建


1.数据处理


在本次实验中,所选用的实验环境为RStudio,首先我们使用Sleep来查看sleep中所含有的数据集,可以观察到,该数据集中有许多对象的数值为NA,此时我们需要对这些数据进行处理,以免空白值会对研究结果产生影响。在本次研究中,第一步已对空白值进行了处理。

2.决策树模型构建

在对sleep数据集进行数据处理与清洗后,将开始使用数据集进行决策树的构建。在将处理后的数据分成训练集和测试集,其中70%作为数据的训练集吗,剩余30%作为测试集,代码如下:

使用dim(sleep)查看此时sleep数据集包含的维度大小

在sleep.train中选取Pred(被捕食程度)作为研究对象,进行模型构建


2.聚类分析

***

3.pamk聚类

4.结论

在本次研究中,是对数据集哺乳动物睡眠数据sleep进行的研究,首先是对数据进行处理,对于空值的处理能否舍弃,以及对研究结果是否产生影响。其次是处理完数据后的模型建立,数据挖掘中使用到的决策树,是一种很好的分类工具,可以将复杂多样化的数据根据样本的属性,来进行分类研究,可以直观的看出哪一种属性对于哺乳动物的生存率影响最大。在分析完属性后,又继续进行聚类分析,通过不同的聚类算法,来对数据集的情况进行聚类处理和分析。

参考文献
[1] 李仁钟等编著,零基础学 R 语言数据分析,清华大学出版 ,2018.10
[2] Ronald K.Pearson, Exploratory Data Analysis Using R,CRC Press
[3] Tilman M. Davies , R语言之书:编程与统计
[4] Winston Chang,R数据可视化手册

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年9月21日
下一篇 2021年9月22日

相关推荐