统计学是数据分析必须掌握的基础知识,它是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了 会科学和自然科学的各个领域,而在数据量极大的互联 领域也不例外,因此扎实的统计学基础是一个优秀的数据分析师必备的技能。统计学的知识包括了图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等知识,对于具体的知识点,楼主就不一一介绍了,感兴趣的同学请参考书籍《深入浅出统计学》、《统计学:从数据到结论》,今天的分享主要会选取统计学中几个容易混淆的、比较重要的知识点进行分享。
一、 方差、协方差、相关系数R、决定系数R2
1.方差、标准差以及标准差系数
(1).方差:所有样本各自减平均数的差,平方后在累计求和,最后在除以样本个数。
(2).标准差:所有样本各自减平均数的差,平方后在累计求和,再除以样本个数,最后再开方。
(3).标准差系数:所有样本各自减平均数的差,平方后在累计求和,再除以样本个数再开方,最后除以样本平均值。
2.协方差
协方差通俗的理解就是两个变量在变化过程中是同向还是反向或反向的程度如何r> 你变大,同时我也变大,说明两个变量是同向变化,这时协方差就为正;
你变大,同时我变小,说明两个变量是反向变化的,这时协方差为负
协方差的计算公式:
相关系数(皮尔森相关系数):X,Y的协方差除以X,Y的标准差的乘积。
解释:自变量X和因变量Y的协方差/标准差的乘积。
- 协方差:两个变量变化是同方向的还是异方向的。X高Y也高,协方差就是正,相反,则是负。
- 为什么要除标准差:标准化。即消除了X和Y自身变化的影响,只讨论两者之间关系。
- 因此,相关系数是一种特殊的协方差。
4.决定系数R2
下面来说决定系数,R方一般用在回归模型用于评估预测值和实际值的符合程度,R2的定义如下:
决定系数=回归平方和/总平方和=1-残差平方和/总平方和
该部分引用GRAYLAMB的《如何通俗易懂地解释「协方差」与「相关系数」的概念链接为https://www.zhihu.com/question/20852004 ;TheOneGIS的《相关系数r和决定系数R2的那些事》,链接为https://blog.csdn.net/theonegis/article/details/85991138#_5;PriscillaBai的《统计-R(相关系数)与R^2(决定系数)傻傻分不清》,链接为https://www.jianshu.com/p/8aefd78be186 ;高阶Python成长之路专栏的《线性回归中的相关系数和决定系数》,链接为https://zhuanlan.zhihu.com/p/32335608。
二、 极限中心定理和大数定理
大数定律讲的是样本均值收敛到总体均值,说白了就是期望。
中心极限定理告诉我们,当样本足够大时,样本均值的分布会慢慢变成正态分布。
中心极限定理收敛至大数定律。
1.中心极限定理
中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。
下图形象的说明了中心极限定理
那么大数定律(以一般的大数定律为例),它的公式为:
注意:上面两个公式,一个是值为0,一直均值为0的正太分布;而左边极为相似!但不一样的。
4、区别
(1).随机变量的分布
大数定律:揭示了大量随机变量的平均结果,但没有涉及到随机变量的分布的问题。
中心极限定理:说明的是在一定条件下,大量独立随机变量的平均数是以正态分布为极限的。
(2).研究的内容不同
大数定律研究的是在什么条件下,这组数据依概率收敛于他们的均值。
中心极限定理研究的是在什么条件下,这些样本依分布收敛于正态分布。(卯诗松的概率论与数理统计上说)
(3).描述的问题不同
大数定律描述的是频率稳定性,就是我们所说的频率稳定在具体的一个数值,即为概率;
中心极限定理描述的是分布稳定性,指的是频率有很多,但是服从正态分布,XY轴中Y最高的那个正态分布数值即为概率。
(4).举个例子
大数定理是说样本足够大时,会接近期望,在样本无穷大时平均值是期望(一个值)。
中心极限定理说的是样本距离期望的涨跌偏差分布。(出现一种分布规律)
举个简单的例子,一滴水从高空落下,经过一个随机分布的风向后,落在地上。
大数定理指出,无论风向分布规律是什么,所有的点距离垂直落下的点的距离应该等于一个值,这个值就是期望。
中心极限定理指出,无论风向分布规律是什么,每个样本距离期望的位置的距离分布是符合正态分布的。
该部分参考绿岛小微米的《中心极限定理以及其和大数定律的区别》,链接为https://blog.csdn.net/u014755493/article/details/72118559;深度学习自然语言处理的《大数定理与中心极限定理的区别与联系》,https://zhuanlan.zhihu.com/p/36259056。
三、 条件概率与贝叶斯公式
该部分的知识点整理自《深入浅出统计学》以及部分 友分享的笔记。
1.概率:度量某事发生几率的数量指标。
进一步理解:概率只是对事件发生可能性的一种表达,概率并非担保。
2.事件:有概率可言的一个结果或一件事。
计算公式:
7.独立事件: 几个事件互相不影响。P(A|B)=P(A). 如果两个事件相互独立,则 P(A∩B)= P(A|B)P(B)=P(A)P(B)
8.穷举事件:表示两个事件的并为全集。
划重点
9.条件概率:P(A|B)=P(A∩B)/P(B)
10.全概率公式:根据条件概率计算一个特定事件的全概率。P(B)=P(A∩B)+P(A’∩B)=P(A)* P(B|A)+P(A’)* P(B|A’)
11.贝叶斯定理:提供了一种计算逆条件概率的方法,再无法预知每种概率的情况下,非常有用。
贝叶斯定理:已知P(A),P(B|A),P(B|A’);求P(A|B).
P(A|B) = P(A∩B) / P(B) = P(A)* P(B|A) / P(A)* P(B|A)+P(A’)* P(B|A’)
公式:P(A∪B)=P(A)+P(B)-P(A∩B)
12.相关事件: 如果 P(A|B)不等于P(A),就说事件A与事件B的概率相互影响。
【贝叶斯定理例题解析—2020 Pdd学霸批笔试题】
设工厂A和工厂B的产品的次品率分别为1%和2%,现从由A和B的产品分别占60%和40%的一批产品中随机抽取一件,发现是次品,则该次品属A生产的概率是______.
【解析】
设事件:A={抽取的产品为A工厂生产的};
事件:B={抽取的产品是B工厂生产的};
事件:C={抽取的是次品};
显然有:
P(A)=0.6;P(B)=0.4
P(C|A)=0.01;P(C|B)=0.02;
根据全概率公式有:
P(C)=P(A)P(C|A)+P(B)P(C|B)
=0.6×0.01+0.4×0.02
=0.014.
P(AC)=P(A)P(C|A)
=0.6×0.01
=0.006
根据条件概率公式有:
P(A|C)=
P(AC)
P?
=0.006÷0.014=3/7
故答案为:3/7
四、 正态分布与偏态分布
1.正态分布与偏态分布的概念
正态分布(normal distribution)
偏态分布(skewed distribution)
左偏态:left skewed distribution,负偏态(negatively skewed distribution),以尾部命名,左偏态或者叫负偏态的尾部,主要在左侧;
右偏态:right skewed distribution,正偏态(positively skewed distribution),同样地,右偏态或者叫正偏态的尾部,则集中在右侧;
2.众数、中位数以及均值的关系
4.偏态分布的偏态和峰度
(1)偏态与峰度分布的形状
偏度系数(Skewness)用来度量分布是否对称。正态分布左右是对称的,偏度系数为0。较大的正值表明该分布具有右侧较长尾部。较大的负值表明有左侧较长尾部。偏度系数与其标准误的比值同样可以用来检验正态性。
偏态系数的计算公式如下:
在正态分布中δ代表标准差,μ代表均值。x=μ即为图像的对称轴。
3δ:数值分布在(μ-δ,μ+δ)中的概率为0.6826;
数值分布在(μ-2δ,μ+2δ)中的概率为0.9544;
数值分布在(μ-3δ,μ+3δ)中的概率为0.9974;
可以认为,Y 的取值几乎全部集中在(μ-3δ,μ+3δ)]区间内,超出这个范围的可能性仅占不到0.3%。
3δ准建立在正态分布的等精度重复测量基础上,造成奇异数据的干扰或噪声难以满足正态分布。如果一组测量数据中某个测量值的残余误差的绝对值 νi>3δ,则该测量值为坏值,应剔除。
通常把等于 ±3δ的误差作为极限误差,对于正态分布的随机误差,落在 ±3δ以外的概率只有 0.27%,它在测量中发生的可能性很小,故存在3δ准则。
3δ准则是最常用也是最简单的粗大误差判别准则,它一般应用于测量次数充分多( n ≥30)或当 n>10做判别时的情况。
该部分内容转自智库百科,链接如下https://wiki.mbalib.com/wiki/%E4%B8%89%E8%A5%BF%E6%A0%BC%E7%8E%9B%E5%87%86%E5%88%99
参考链接
https://www.zhihu.com/question/20852004
https://blog.csdn.net/theonegis/article/details/85991138#_5
https://www.jianshu.com/p/8aefd78be186
https://zhuanlan.zhihu.com/p/32335608
https://blog.csdn.net/u014755493/article/details/72118559
https://www.cnblogs.com/jackchen-Net/p/8073956.html
https://wiki.mbalib.com/wiki/%E4%B8%89%E8%A5%BF%E6%A0%BC%E7%8E%9B%E5%87%86%E5%88%99
https://blog.csdn.net/weixin_38322363/article/details/82952770
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!