写在前面
大数定律和中心极限定理
大数定律
大数定律的本质是一类极限定理,它是由概率的统计定义“频率收敛于概率”引申而来的。简单来说就是n个独立同分布的随机变量的观察值的均值X¯依概率收敛于这些随机变量所属分布的理论均值,也就是总体均值。
中心极限定理
- 样本的平均值约等于总体的平均值。
- 不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。
有一个经验是,样本大小必须达到30,中心极限定理才能保证成立。
中心极限定理的用途
- 在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体
如果我们掌握了某个正确抽取样本的平均值和标准差,就能对估计出总体的平均值和标准差。
- 根据总体的平均值和标准差,判断某个样本是否属于总体
如果我们掌握了某个总体的具体信息,以及某个样本的数据,就能推理出该样本是否就是该群体的样本之一。这也是统计概率中假设检验的原理.
标准差(标准误差)
标准差是用来衡量数据集的波动大小。标准误差其实也是标准差,只不过它是所有样本平均值的标准差。
置信区间
点估计和区间估计
-
点估计(point estimation)是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。
-
区间估计(interval estimate)是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
与点估计不同,进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。
点估计和区间估计是抽样推断的两种方法。点估计是在抽样推断中不考虑抽样误差,直接以抽样指标代替全及指标的一种推断方法。
因为个别样本的抽样指标不等于全部指标,所以,用抽样指标直接代替全及指标,不可避免的会有误差。
区间估计是抽样推断中根据抽样指标和抽样误差去估计全及指标的可能范围的一种推断方法。在从抽样指标推断全及指标时,用一定概率保证误差不超出某一给定范围。
而区间估计又称为置信区间估计, 要得到一个置信区间需要样本统计量(比如均值)和从数据中计算方差, 中心极限定理告诉我们样本均值会接近一个正太分布, 我们可以用标准差计算出真实期望落在选定区间的概率.
在机器学习实验中,我们通常用测试集样本的误差均值来估计泛化误差,一般我们说算法A比算法B好,是指算法A的误差的95%置信区间的上界小于算法A的误差的95%置信区间的下界。
总的来说, 假设现在是95%的置信水平( 95%也被称为置信水平,是统计中的一个习惯,可以根据应用进行调整),每个从总体中抽出的样本都可以求出一个95%的置信区间,且不同样本求出的置信区间是不同的,但随着抽出的样本次数的增加,例如抽100次,得到100个样本,每个样本都对应一个置信区间,那么100次抽样求出的100个置信区间有95个包含真实的总体均值。
置信区间会因样本的不同而不同(置信区间是怎么算的?是通过样本(sample)算的),而且不是所有的区间都包含真值,一个区间就像是一个为了捕获总体未知参数而撒出的网,不是所有撒网的地点都能捕获我们想要的总体的参数。
如何计算置信区间
从上面的例子来, 计算置信区间的套路如下:
- 1.首先明确要求解的问题。比如我们的例子,就是想通过样本来估计全国人民身高的平均值。
- 2.求抽样样本的平均值与标准误差(standard error)。注意标准误差与标准差(standard deviation)不一样。
- 3.确定需要的置信水平。比如常用的95%的置信水平,这样可以保证样本的均值会落在总体平均值2个标准差得范围内(更准确的讲为1.96)。
- 4.查z表,求z值。
- 5.计算置信区间
a = 样本均值 - z*标准误差 b = 样本均值 + z*标准误差