资源下载地址:https://download.csdn.net/download/sheziqiong/85909111
资源下载地址:https://download.csdn.net/download/sheziqiong/85909111
生物信息学概论 Homework2
UCSC (University of California at Santa Cruz) 中的 Cancer Genome Browser (https://genome-cancer.ucsc.edu/) 平台提供了大量的肿瘤数据,尤其是包含了不同肿瘤的多层次组学数据并提供免费下载。本次我们从其中下载了500多例病人乳腺癌的基因芯片数据(转录组)并已经过预处理,保存在 GeneMatrix.txt 和 clinical_data.txt 这两个文件中。
作业内容为:
利用R软件或其他数据分析语言,进行该数据的聚类分析。
-
利用层次聚类,对该组数据样本按照基因表达水平进行聚类,看聚类效果如何。即是否能够按照基因表达水平,将病人进行分类。距离可以选择average。
注,R中有相应的聚类函数,请利用并尽可能输出图示(如heatmap),表明你的结果。
-
实现PCA,并利用你实现的PCA对该组数据的基因表达进行降维处理。请选择你认为合适的主成分数目,给出原因,再次对病人依据你给的特征进行聚类,并与1比较。 数据文件说明:
- GeneMatrix.txt:基因表达值文件,含有行名和列名,一行为一个基因,一列为一个病人
- clinical_data.txt:记录了病人的若干信息,每一行为一个病人,病人的编 和GeneMatrix.txt中的相同。GeneMatrix中病人只涵盖了这里的一部分,注意,在病人的若干描述中,有一项为ER_Status_nature2012,可以根据这个对病人进行分类,你可以按照这个分类标准,对你的聚类进行一定的评估,看结果是否符合预期。
Report:聚类分析病人乳腺癌的基因芯片数据(转录组)
1. 层次聚类GeneMatrix样本
利用层次聚类,将GeneMatrix中数据样本(共522个病例),按照基因表达水平(共389个不同的基因)进行聚类:
因为前172个主成分能够表征全部数据95.004%的信息,信息损失率小于5%,因此采用的主成分数目为172。
依据该172个特征,再次对病人进行聚类,聚类效果如图所示(代码与1中同理,具体可详见 cluster.R 文件):
与1比较,可以看出聚类效果相似(左图为PCA降维前热点图,右图为PCA降维后热点图),验证了PCA的正确性,该172个主成分可以聚类该组数据。
3. 依据clinical_data中的分类标准来检验层次聚类及PCA的正确性
最后,根据clinical_data中ER_Status_nature2012的指标(仅选取GeneMatrix与clinical_data所共有的病例,即对二者病例取交集,共440个)进行分类:
文章知识点与官方知识档案匹配,可进一步学习相关知识OpenCV技能树首页概览11208 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!