35课
视频内容:
central limit theorem中心极限定理
从一组随机变量中(概率不同)取一组样本,样本均值或和遵循正态分布。
视频提到sample size 样本容量
样本表示分布的一系列样本值,样本容量表示抽取多少个样本值。
下发评论摘抄:
1、中心极限定理的本质也就在这。哪怕原始分布像两个驼峰,样本均值的分布也接近正态分布,样本容量n越大,越接近。
2、中心极限定理:设从均值为μ、方差为σ2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布。
—均值分布的均值可以认为是总体的均值。
36课
视频内容记录:
样本均值的抽样分布
the sampling distribution of sample mean
样本值和样本,样本里的样本值,样本值取均值。
抽样说明来自原分布。
样本均值的抽样分布的与原分布有同一个均值。
skew 和kurtois
skew 偏度 。偏度为正,则为正偏态分布,图形显示右侧尾部较长。负偏度分布相反 。
kurtosis峰度。相较正太分布,正峰态图像显示峰部更尖,尾部较肥。负锋态则峰部更宽、更平滑,尾部较小。
试验演示程序:搜索sampling distributions - online statistics就出来了,然后点左侧的begin
37课
样本均值的抽样分布2
样本均值的抽样分布是所有的样本均值形成的分布,根据中心极限定理,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。即随着样本容量n变大,抽样分布标准差越小,越收拢。
n=1时抽样均值不会服从正太分布;抽样容量越大,越有意义。
38课
均值标准误差
standard error of the mean
样本均值的抽样分均值为原分布均值μ、方差为原分布方差除以n(σ^2/n)。
39课
原分布 μ=2,σ;
抽样分布 n=50,均值为2,标准差为σ除以50的平方根(约为0.1)。
则问题变成了求正太分布大于两个标准差的概率。结果应该为小于且接近2.5%。
视频求解:z分数为2.02个标准差,结果2.13%。
41课
伯努利分布均值和方差的例子
42课
努利分布是一个离散概率分布。伯努利试验失败,随机变量为0,成功则为1。其成功机率为p,失败机率为1-p,均值为p,方差为p(1-p)。这一节推导了这些公式。
43课
误差范围1误差范围1
误差范围表达了统计结果中的随机波动的大小。这一节通过一个伯努利分布的例子来讲解这一问题,伯努利试验成功概率p的置信区间如果是33%到53%(43%±10%),那么误差范围也就是10%。
下面评论摘抄:原分布为伯努里分布。 E(X) = u = p。 抽样后,样本均值u of x 为0.43 算出方差s2 = 0.2475,标准差0.50。 由此样本估算(当前最靠谱的一种假设)总体标准差为(0.5)。 然后得出抽样均值的!!!概率分布!!!均值为u(特别注意这里是概率分布)。 最终得出抽样平均概率分布的标准差为 0.5/10 = 0.05。 正是因为均值是根据样本估算的(这么理解,样本个数越大,抽样均值概率分布的标准差就越小(也就是偏离u的概率,而u是理论上的原分布的E(x)也就是原分布的均值),,估计值离真实值就越近,设想如果抽样是题中1亿人民,是不是最终就是实际投票结果) 正是因为抽样只有100,才会存在是否准确的概率问题。
44课
误差范围2
引入置信区间概念:分布在两个标准差的概率约95.4%
the margin of error误差范围,用于描述置信区间。
46课
小样本容量置信区间
当样本容量很小时,样本均值抽样分布不应该采用正态分布,而应采用t分布。t分布用于对呈正态分布的总体的均值进行估计,在样本容量小时非常有用。
视频中提到n小于30认为是糟糕的估计。
注意:本文归作者所有,未经作者允许,不得转载