累积分布函数

 

《数据之魅:基于开源工具的数据分析》第2章单一变量:形状和分布,本章讲述由单个变量组成的简单数据集(或者一次只考虑一个变量)。本节为大家介绍累积分布函数。

AD: WOT2014课程推荐:实战MSA:用开源软件搭建微服务系统


    累积分布函数

    直方图和核密度估计的主要优势在于直观上的吸引力:能够告诉我们找到某个特定数据点的可能性有多大。例如,从图2-2可以清楚看出250毫秒左右的值出现的可能性非常大,而大于2000毫秒的值则非常罕见。

    但是具体有多罕见呢个问题仅靠图2-2的直方图是很难找到答案的。另外,除了想知道尾部所占的比重,我们可能还想知道哪部分请求是在150~350毫秒这个典型时间段完成的。当然,大多数事件都是在这个时间段完成的,但如果想知道具体有多少事件,就需要累加那个区域中所有矩形框的事件。

    累积分布函数(Cumulative Distribution Function,CDF)就具有这样的功能。点x的CDF能告诉我们哪部分事件发生在x的”左边”。换而言之,CDF是满足xi≤x的所有xi。

    图2-7显示的数据集与图2-2的相同,但是,这里的数据是用KDE(带宽h = 30)来表示的而不是使用直方图。另外,该图也包含对应的CDF。(KDE和CDF都规一化为1。)

    我们可以直接从CDF读出一些有趣的东西。例如,我们可以看到在t = 1500处(位于该分布的尾部)CDF仍然小于0.85;这意味着只有15%的请求的响应时间超过1500毫秒。相反,大约三分之一的请求是在典型区域150~500毫秒的时间内完成的。(我们是怎样知道这些的呢 = 150的CDF大概是0.05,t = 500的CDF大概是0.40。换句话说,约40%的请求是在少于500毫秒的时间内完成的,在这些请求中,只有5%的请求是在少于150毫秒的时间内完成的。因此,大约35%的请求响应时间介于150~500毫秒之间。)

    累积分布函数有多种用途。第一个也是最重要的用途是,它们回答了本节前面提出的问题:有多大比例的点落在某两个值之间案可以从图中轻松得出。第二个用途是CDF能帮助我们理解分布的不平衡性–换句话说,尾部占总体多少比重。

    当我们想要比较两个分布时,累积分布函数也是很有用的。在直方图中比较两个钟状的曲线是非常困难的。比较相应的CDF则通常更容易得出结论。

    在本节结束之前还要提的最后一点:在文献中,你会发现这个词:”分位数图”(quantile plot)。分位数图是一个CDF图,在该图中,x轴和y轴互换了。图2-8再次使用了服务器响应时间数据集的例子。通过这种方式绘图,我们可以很容易地回答出类似于”哪个响应时间对应于占10%比重的响应时间的问题。不过,这个图包含的信息和一个CDF图包含的信息是完全一样的。

    声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

    上一篇 2014年4月21日
    下一篇 2014年4月21日

    相关推荐