PANEV:一个基于路径的 络可视化的R包
- PANEV: an R package for a pathway-based network visualization
- 背景
- 实现
-
- 包安装和功能
- 数据准备
- 数据分析与可视化
- 结果与讨论
- 结论
- 可用性和需求
- 数据和材料的可用性
PANEV: an R package for a pathway-based network visualization
Abstract
- : PANEV (PAthway NEtwork Visualizer)是一个用于基于基因/路径的 络可视化的 R包工具集。基于 KEGG 上的可用信息,它可视化一个多层次(从1到 n)相互连接的上游或下游通路 络中的基因。 络图形可视化有助于解释一组基因的功能特征。
- : 该工具套件没有物种限制,可用于分析基因组或转录组的结果。使用者需要提供候选基因列表,指定调查所需的目标通路和相互连接的下游和上游通路(水平)的数量。该软件包可以在 站上下载。
背景
由于高通量技术的进步和相关成本的同时降低,大规模的“组学”研究现在很普遍。这些研究使得大量的生物数据[1]的生成成为可能,给研究者带来了数据挖掘的挑战,而不是数据生产。基因组学(如全基因组关联研究)或转录组学分析(如基因表达谱分析)的关键结果是一长串具有统计学意义的基因,据推测,这些基因有助于研究现象。在排除假阳性信 之后,接下来的步骤是从它们中提取意义,以便为研究[2]的表现型提供潜在的复杂生物学见解。一种降低这一挑战复杂性的常见策略是将基因分组成更小的相关基因集,例如,共享相同的生物过程(即通路)。这种基于通路的方法[3]在过去几年中变得流行,事实上,是高通量实验[5]后组学分析的标准。
和现在已经成功地常规应用于基因表达和遗传数据分析,它们是理解生物系统的支持关键[6,7,8,9,10,11]。在这方面,基于路径的方法在研究具有数量遗传性的复杂现象时特别有用。与基于单个基因的方法相比,创建多个相关途径和感兴趣基因 络的策略更适合于探索复杂性状的生物学和识别功能候选基因[13,14]。基于术语的分级和/或功能分类的存储库可用性的增加有助于本次探索[15]。许多 络资源现在都可以使用,提供了成千上万条通道的。其中,一个著名的参考资料库,不断更新,是京都基因和基因组百科全书(KEGG)[16]。KEGG 是一个生物信息学资源,它将基因映射到特定的途径,并将它们总结成一个连接的、手动管理的代谢 络。
在这里,我们介绍了PANEV(通路 络可视化工具)R包,它代表了一种将基因可视化到感兴趣的通路 络的简单方法。PANEV可视化的新奇之处在于创建一个由多个相互连接的路径组成的定制 络,考虑上下游的n个层次(根据用户的需要)。使用KEGG信息[16]创建 络。据我们所知,目前还没有其他的KEGG可视化工具[6,7,8]提供这样的功能,可以帮助我们在所提供的候选基因列表中识别功能候选基因。PANEV还具有其他路径可视化工具很少同时可用的特性[7,17,18]。特别是,(1)它处理数据中所有物种包括KEGG数据库,(2)它提供完全可访问图形通过交互式可视化模块,允许用户轻松地浏览生成的 络,(3)很容易被集成与其他通路分析或基因集富集分析工具。
实现
该软件包是专门为后基因组和转录后数据可视化设计的。PANEV 进行图形可视化的基本原理是在考虑到功能相关路径 络的情况下确定候选基因。”功能性” 络的创建考虑到一组主要兴趣途径(第一级途径 -1 L) ,由用户选择,因为已知涉及研究中的现象,以及 PANEV 根据 KEGG 数据库检索到的信息添加的多级互联途径[16,19]。每个层次都考虑与前一个层次相关的路径。在 PANEV 图形输出中,这些通路代表了事实上的上游或下游通路,而没有重建关系的方向。一旦“功能” 络被创建,PANEV 可视化基因列表中的那些由用户提供。 络可视化是使用 R 包以 html 输出格式生成的,它保证了完全交互式的图形。
包安装和功能
PANEV v.1.0软件包可从获得。使用函数,可以从包轻松下载并安装在任何R会话中。该工具需要其他库与包一起自动上传。一旦安装完毕,PANEV就可以用库(’ PANEV ‘)命令加载到R环境中。
PANEV包的功能可以分为两个步骤:数据准备和数据分析(图1)。第一步帮助准备一个适当格式的基因列表和1 L路径,以及获得运行PANEV分析所需的所有强制性信息。第二步执行数据分析和可视化。
对于基因表达数据集,PANEV考虑了自定义路径列表和差异表达基因列表(DEGs)之间的任何可能的连接。需要(i)一个正确格式化的DEG list与fold change(FC)值和p-values, (2)正确格式化的路径列表与表达式估计分数,(iii)KEGG生物代码和(iv)p-value cut-off for filtering subsets of genes in the DEG list。该功能生成基因/通路 络的交互式可视化图(图3)。根据基因FC和通路表达估计分数,基因/通路节点被着色,分类见表1。
结果与讨论
为了验证PANEV工具对功能候选基因识别的可能贡献,我们对171个新识别的基因进行了PANEV分析。验证数据集在包中可用,可以使用命令存储在工作目录中。
数据准备后,171个没有相应entrez ID的基因中有5个被排除在进一步的分析之外。考虑到所研究性状的复杂性,在交互作用的第三级[25]上进行PANEV。“I型糖尿病”(map04940)、“胰岛素抵抗”(map04931)和“糖尿病并发症中的AGE-RAGE信 通路”(map04933)路径被选择为1L路径,因为文献中与T1DM明显相关[26,27]。PANEV结果的摘要 告在附加文件1和2中。
PANEV(附加文件1)在166个基因中筛选出15个在不同水平上作为功能候选基因。特别是,PANEV在参考研究中主要讨论的7个基因中鉴定出4个:PTPN11在1 L, FYN在2 L, BCAR1和MYL2在3 L。PANEV未检测到的3个基因(RASIP1、STRN4和HLA-J)在KEGG数据库中,但尚未分配到任何途径。有趣的是,PANEV还识别出了其他著名的基因(ITPR3, BAK1和IL10在2 L;HMGB1和3 L时的MICA),已经与T1DM相关[28,29,30,31],但Qui和同事[24]没有讨论,因为它们仅通过差异表达或复制研究得到证实。此外,PANEV强调了文献中 道的与T1DM易感性相关的其他基因,但没有在参考研究[24]中讨论,因为既没有通过差异表达也没有通过复制研究证实。其中CDK2[32]、SMAD7[33]、STAT4[34]、BCL2A1[35]和RXRB[36]在2 L出现,MADCAM1[37]在3 L出现。值得注意的是,上述基因除CDK2外,均为参考研究[24]之前的研究。同时,必须观察到,PANEV在分析过程中排除了138个基因,因为(i)分配到的路径不包括在三个调查水平(~ 8%),(ii)不存在于KEGG数据库(~ 39%),或(iii)尚未分配到任何路径(~ 48%)。第一点是PANEV在提供的基因列表中区分假阳性的能力。最后两点清楚地代表了由于KEGG信息不完整而导致PANEV的主要局限性。PANEV结果与参考研究[24]的比较 道在附加文件3中。
PANEV已经被Palombo和他的同事应用于意大利Simmental和Holstein品种[38]的牛奶脂肪酸谱显著相关的基因。在意大利西门塔尔犬和荷斯坦犬中分别检测到47个和165个显著位置候选基因。在这些基因中,PANEV强调了三个文献中描述良好的脂肪生成基因:SCD、DGAT和FASN。此外,还发现了15个直接或间接参与“脂质代谢”途径的新功能候选基因。
综上所述,PANEV在节省时间和加快数据挖掘方面具有优势。特别是,具有强有力文献支持的候选基因可以在没有任何验证研究的情况下迅速识别。这些候选基因可以很快进入进一步的研究阶段(如体内验证)。此外,基因和通路的连接可以很容易地通过图表可视化来识别,这一信息可能会在手稿起草中引起讨论。关于PANEV没有突出的候选基因,这些可以使用传统的方法检索,如深入的文献研究或硅质验证,这仍然需要更多的时间和成本。
结论
PANEV是一个完全内置在R中的包,它代表了一个新颖而有用的可视化工具,可以降低高通量数据挖掘挑战的复杂性,并识别候选基因。PANEV创建定制的基因/路径 络图,考虑候选基因列表和感兴趣的多级互联(上下游)路径。这有助于解释基因组和转录组分析结果,特别是当复杂的生物现象被调查。
PANEV工具的贡献不仅对注释良好的物种(即智人、Mus musculus)具有重要意义,而且对KEGG数据库中的所有生物都具有重要意义。尽管KEGG是一个流行的并且不断更新的数据库,但是缺乏或不完整的信息可能代表PANEV的主要缺点,就像其他基于KEGG的工具一样。验证性研究证实了PANEV分析在结果一致性方面的有效性。特别是PANEV具有省时的优点,它将用户指向与所研究的特性有关的生物学基因。
可用性和需求
Project name: PANEV.
Project home page: https://github.com/vpalombo/PANEV
Operation systems: Platform independent.
Programming language: R (>?=?3.5.0).
License: Artistic-2.0.
Restrictions to use by non-academics: Yes (i.e. KEGG subscription).
数据和材料的可用性
支持这项研究结果的数据以及可重复使用的例子,可在https://github.com/vpalombo/PANEV/tree/master/vignettes上找到,这些数据来自以下研究:
邱永华,邓飞云,李敏杰,雷少峰。利用全基因组基因关联分析鉴定与1型糖尿病相关的新危险基因糖尿病杂志。2014。doi: https://doi.org/10.1111/jdi.12228
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!