累积分布函数

《数据之魅：基于开源工具的数据分析》第2章单一变量：形状和分布，本章讲述由单个变量组成的简单数据集(或者一次只考虑一个变量)。本节为大家介绍累积分布函数。

AD： WOT2014课程推荐：实战MSA：用开源软件搭建微服务系统

累积分布函数

直方图和核密度估计的主要优势在于直观上的吸引力：能够告诉我们找到某个特定数据点的可能性有多大。例如，从图2-2可以清楚看出250毫秒左右的值出现的可能性非常大，而大于2000毫秒的值则非常罕见。

但是具体有多罕见呢个问题仅靠图2-2的直方图是很难找到答案的。另外，除了想知道尾部所占的比重，我们可能还想知道哪部分请求是在150～350毫秒这个典型时间段完成的。当然，大多数事件都是在这个时间段完成的，但如果想知道具体有多少事件，就需要累加那个区域中所有矩形框的事件。

累积分布函数(Cumulative Distribution Function，CDF)就具有这样的功能。点x的CDF能告诉我们哪部分事件发生在x的”左边”。换而言之，CDF是满足xi≤x的所有xi。

图2-7显示的数据集与图2-2的相同，但是，这里的数据是用KDE(带宽h = 30)来表示的而不是使用直方图。另外，该图也包含对应的CDF。(KDE和CDF都规一化为1。)

我们可以直接从CDF读出一些有趣的东西。例如，我们可以看到在t = 1500处(位于该分布的尾部)CDF仍然小于0.85；这意味着只有15%的请求的响应时间超过1500毫秒。相反，大约三分之一的请求是在典型区域150～500毫秒的时间内完成的。(我们是怎样知道这些的呢 = 150的CDF大概是0.05，t = 500的CDF大概是0.40。换句话说，约40%的请求是在少于500毫秒的时间内完成的，在这些请求中，只有5%的请求是在少于150毫秒的时间内完成的。因此，大约35%的请求响应时间介于150～500毫秒之间。)

累积分布函数有多种用途。第一个也是最重要的用途是，它们回答了本节前面提出的问题：有多大比例的点落在某两个值之间案可以从图中轻松得出。第二个用途是CDF能帮助我们理解分布的不平衡性–换句话说，尾部占总体多少比重。

当我们想要比较两个分布时，累积分布函数也是很有用的。在直方图中比较两个钟状的曲线是非常困难的。比较相应的CDF则通常更容易得出结论。

在本节结束之前还要提的最后一点：在文献中，你会发现这个词：”分位数图”(quantile plot)。分位数图是一个CDF图，在该图中，x轴和y轴互换了。图2-8再次使用了服务器响应时间数据集的例子。通过这种方式绘图，我们可以很容易地回答出类似于”哪个响应时间对应于占10%比重的响应时间的问题。不过，这个图包含的信息和一个CDF图包含的信息是完全一样的。

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

累积分布函数

相关推荐