今天跟大家唠唠嗑,说说我最近搞明白的——标准差的计算公式。这玩意儿,以前上学的时候学过,但工作这么多年,早就忘到姥姥家了。最近因为工作需要,又重新捡起来了,所以想跟大家分享一下我的实践过程。
懵圈!
我拿到任务的时候,脑子里一片空白,啥是标准差?干啥用的?公式是完全没印象。没办法,只能重新开始学。
第一步:找资料!
我先在网上搜了一堆关于标准差的资料,各种公式、定义、解释,看得我眼花缭乱。不过总算找到了一些关键信息,知道了标准差是用来衡量一组数据的离散程度的,数值越大,数据越分散。
其中有个说法我觉得挺有道理,标准差就是看看你这堆数据,各自离平均数到底有多远,然后把这些“距离”综合起来,看看整体上离得远不远。离得越远,说明这堆数据越不靠谱,波动越大。
第二步:理解公式!
找到了公式,但是理解起来还是有点费劲。网上的公式各种各样,看得我晕头转向。后来我仔细研究了几个比较靠谱的公式,总结了一下,都差不多,核心就是这几步:
- 1. 算出平均值:先把这堆数据的平均值算出来。
- 2. 算差值:用每个数据减去平均值,得到每个数据的差值。
- 3. 平方:把这些差值都平方一下,目的是消除负号。
- 4. 求和:把所有平方后的差值加起来。
- 5. 除以个数:用求和的结果除以数据的个数(或者个数减一,这个后面细说)。
- 6. 开根号:把除法的结果开根号,就得到了标准差。
用公式表示就是这样:
σ = √(Σ(xi - x̄)² / n)
或者,如果算的是样本标准差,公式会稍微有点不同,分母是 (n-1):
s = √(Σ(xi - x̄)² / (n-1))
第三步:动手计算!
光看公式没用,得动手算。我找了一组简单的数据:2, 4, 6, 8, 10。然后按照上面的步骤一步一步计算:
- 1. 平均值:(2+4+6+8+10) / 5 = 6
- 2. 差值:-4, -2, 0, 2, 4
- 3. 平方:16, 4, 0, 4, 16
- 4. 求和:16 + 4 + 0 + 4 + 16 = 40
- 5. 除以个数:40 / 5 = 8 (如果是样本标准差,就除以 4,结果是 10)
- 6. 开根号:√8 ≈ 2.83 (√10 ≈ 3.16)
这组数据的标准差大约是 2.83 (总体标准差)或者 3.16 (样本标准差)。
第四步:用Excel验证!
自己算了一遍,总觉得不太放心,怕算错了。于是我打开Excel,把这组数据输进去,然后用`STDEV.P`函数(计算总体标准差)和`STDEV.S`函数(计算样本标准差)算了一下,结果跟自己手算的差不多,这才放心了。
关于总体标准差和样本标准差
这里要特别说一下总体标准差和样本标准差的区别。简单来说,总体标准差是用来描述整个数据集的标准差,而样本标准差是用来描述从总体中抽样出来的一部分数据的标准差。
在计算公式上,它们的区别就在于分母不同。总体标准差的分母是数据的个数 (n),而样本标准差的分母是数据的个数减一 (n-1)。
为什么要减一?这是因为样本标准差是对总体标准差的一个估计,为了使这个估计更准确,需要进行一个修正,也就是除以 (n-1),这叫做贝塞尔修正。
总结
通过这回实践,我对标准差的计算公式有了更深刻的理解。标准差的计算并不难,关键是要理解它的含义,知道它是用来衡量数据离散程度的。以后再用到标准差的时候,就不会再懵圈了。
3
希望我的分享对大家有所帮助。如果有什么不对的地方,欢迎指正!
还没有评论,来说两句吧...