统计学原理 第四章 4


第4章 数据分布特征的度量

《统计学教程》第4章
? 4.1 集中趋势的度量 ? ? ? ?

数据分布特征的度量
4.2.5 方差和标准差 4.2.6 离散系数 4.2.7 标准化值

?
? ?

4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.1.6 4.1.7

众数 中位数 均值 调和平均数 几何平均数 均值、众数和中位数的比较 均值、众数和中位数的比较

4.3 偏态和峰度的度量 4.3.1 偏态系数 4.3.2 峰度系数

? 4.2 离散程度的度量
? ? ?

4.2.1 异众比率 4.2.3 取值范围 4.2.4 平均差

《统计学教程》
第4章 数据分布特征的度量
?

4.1 集中趋势的度量

原始数据经过分组整理所形成的频数分布,直观和概略 地反映出数据分布的基本特征。频数分布属于对数据分布特 征的初步描述,缺乏对数据分布特征的综合度量,若需要深 入地表述数据分布特征的具体特征和内在联系,还应对数据 分布特征进行综合性的度量。 数据分布特征的度量包括三个方面的内容,一是数据分 布的集中趋势,反映总体中各个单位的数值水平向其聚集, 或者集中的中心数值;二是数据分布的离散趋势,反映总体 中各个单位的数值水平偏离中心数值的综合程度;三是数据 分布的偏态和峰度,反映各个总体单位的数值水平的分布形 态是对称或偏倚,平坦或尖耸的具体数值。

4.1 集中趋势的度量

?

集中趋势(Central Tendency)是指一组 数据所趋向的中心数值。对集中趋势的度量就 是采用具体的统计方法和统计测度对这一中心 数值的测量和计量,以一综合数值来表述数据 所趋向的这一中心数值的一般水平。

《统计学教程》
第4章 数据分布特征的度量
? 4.1.1众数

4.1 集中趋势的度量

众数(Mode)是一组数据中频数最大的变量值,直观地反映了数据的 集中趋势。众数是度量定类数据集中趋势的测度,一般用 M O 表示。
例4.1 某品牌运动服装专卖店一批新品球衣销售情况如下 表 4.1 某专卖店新品球衣销售情况 件
球衣货号 AS01-90 AS02-95 AB09-10 SP09-05 SS12-10 PP89-15 合 计 前日售出数量 6 18 25 88 15 8 160 当日出售数量 4 21 33 93 23 6 180

《统计学教程》
第4章 数据分布特征的度量
? 4.1.1众数

4.1 集中趋势的度量

众数(Mode)是一组数据中频数最大的变量值,直观地反映了数据的 集中趋势。众数是度量定类数据集中趋势的测度,一般用 M O 表示。
例4.1 某品牌运动服装专卖店一批新品球衣销售情况如下 表 4.1 某专卖店新品球衣销售情况 件
球衣货号 AS01-90 AS02-95 AB09-10 SP09-05 SS12-10 PP89-15 合 计 前日售出数量 6 18 25 88 15 8 160 当日出售数量 4 21 33 93 23 6 180

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

? 例4.2 利用第三章中例3.1中某学期某班35名学生统计学考试成绩的

原始数据。
要求 试计算计算该班35名学生统计学考试成绩的众数。 解 将该原始数据排序之后,得到有序数据如下 52,56,62,64,65,69,70,74,75,75,76,78,78,79,79, 81,82,82,83,84,84,84,84,86,87,87,88,89,89,90, 91,91,92,96,98

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

? 例4.2 利用第三章中例3.1中某学期某班35名学生统计学考试成绩的

原始数据。
要求 试计算计算该班35名学生统计学考试成绩的众数。 解 将该原始数据排序之后,得到有序数据如下 52,56,62,64,65,69,70,74,75,75,76,78,78,79,79, 81,82,82,83,84,84,84,84,86,87,87,88,89,89,90, 91,91,92,96,98 84分在这35名学生的统计学考试成绩的原始数据中出现了4次,属于 出现次数最多的变量值,根据众数定义,可以确定众数为84分,即

M O ? 84 (分)

2012-03-16(ZhouwuShangwuJDC)

2012-03-16(ZhouwuWanJDC)

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

? 利用已经分组的数值型数据计算众数的场合,需要运用插值公式来计

算众数的近似数值。众数的插值公式有下限公式和上限公式。其下限公 式从众数所在组的下限出发,有

MO ? L ?

FM O ? FL ( FM o ? FL ) ? ( FM O ? FU )

? dMO

(4.1)

上限公式则从众数所在组的上限出发,有
MO ? U ? FM O ? FU ( FM o ? FL ) ? ( FM O ? FU ) ? dMO

(4.2)

《统计学教程》
第4章 数据分布特征的度量
?

4.1 集中趋势的度量

《统计学教程》
第4章 数据分布特征的度量
?

4.1 集中趋势的度量

《统计学教程》
第4章 数据分布特征的度量
?

4.1 集中趋势的度量

《统计学教程》
第4章 数据分布特征的度量
?

4.1 集中趋势的度量

《统计学教程》
第4章 数据分布特征的度量
?

4.1 集中趋势的度量

《统计学教程》
第4章 数据分布特征的度量
?

4.1 集中趋势的度量

MO

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

? 例4.3 表4.2为第三章中表3.7“某学期某班35名学生的统计学考试成

绩”中的部分数据。根据表4.2的已经分组的数值型数据,计算该班35 名学生的统计学考试成绩众数的近似数值。
表4.2 某学期某班35名学生的统计学考试成绩

考 分 /分 60 以下 60—70 70—80 80—90 90—100 合 计

人 数 /人 2 4 9 14 6 35

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

? 通过上限公式或下限公式的计算众数所得到的计算结果是一致的。

众数是一个通过数据中频数最大的数据的数值来反映集中趋势的测度, 为一位置型的代表数值,所以众数的取值不受极端数值的影响,也不受 组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时, 使用众数来度量数据的集中趋势,可以作为其它集中趋势测度的补充。 众数是一个适用于最低层次的定类数据的测度,因此可以用于各种量 表数据的集中趋势分析,有效使用众数的前提是数据的频数分布存在明 显的集中态势。

众数
? 主要适合于作为分类数据的集中趋势测度值。

也可运用于定序数据以及数值型数据。 ? 可能不唯一。

《统计学教程》
第4章 数据分布特征的度量
? 4.1.2 中位数

4.1 集中趋势的度量

中位数(Median)是位于有序数据正中间位置上的变量值,中位数用 其特殊的位置属性直接地体现了集中趋势的中心数值特征。中位数是度 量定序数据集中趋势的测度,一般用 Me 表示。 中位数也是一种位置型的代表数值,同时中位数还是一种顺序统计量, 因此,计算中位数要求数值至少具备定序数据的性质。中位数一旦确定, 就可以根据中位数的具体取值,将全部数据分成数量相等的两个部分, 一半数据的数值小于或等于中位数;另一半数据的数值大于或等于中位 数。由此可得出中位数的计算公式。当数据的个数为奇数时,有

Me ? X N ?1
2

(4.3)

当数据的个数为偶数时,有 XN ? XN

Me ?

2

2

?1

(4.4)

2

中位数的性质
对于未分组数据,有: 1 N 1 N ? X i ? M e ? N ? X i ? c , 对任意常数c成立。 N i ?1 i ?1

? 【课后作业】 ? 证明:中位数的性质

? 中位数是度量定序数据集中趋势的测度,根据

计量尺度的向上兼容性质,中位数也可以用于 度量比它量表层次更高的数值型数据的集中趋 势。但不能度量定类数据的集中趋势。

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

? 例4.4 仍然采用第三章中例3.1 某学期某班35名学生的统计学考试成

绩的原始数据。 要求 试计算该班35名学生的统计学考试成绩的中位数。 解 将原始数据排序之后,得到以下有序数据 52,56,62,64,65,69,70,74,75,75,76,78,78,79,79, 81,82,82,83,84,84,84,84,86,87,87,88,89,89,90, 91,91,92,96,98 该组数据的个数为35,因此采用式(4.3)计算,排列在该组有序数据 第18位上的变量值为82分,该班35名学生的统计学考试成绩的中位数为 82分。即

Me ? X N ?1 ? X18 ? 82 (分)
2

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

?

利用已经分组的数值型数据计算中位数时,需要运 用插值公式计算中位数的近似数值。中位数的插值公式也 有下限公式和上限公式。其下限公式从中位数所在组的下 限出发,为

?F
2

?
? ? ?

Me ? L ?

? S Me ?1

FMe

? d Me

上限公式从中位数所在组的上限出发,为

?

Me ? U ?

?F ?S
2 FMe

Me ?1

? d Me

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

? 例4.5 表4.3为第三章“表3.7 某学期某班35名学生的统计学考试成

绩”中的部分资料,为已经分组的数值型数据。 要求 根据表4.3数据,计算该班35名学生的统计学考试成绩的中位数。 解 运用插值公式计算该班学生统计学考试成绩中位数的近似数值。
表4.3 某学期某班35名学生的统计学考试成绩
考 分 /分 60以下 60—70 70—80 80—90 90—100 合 计 人 数 /人 向上累计人数 /人 向下累计人数 /人 2 2 35 4 6 33 9 15 29 14 29 20 6 35 6 35 — —

? 显然,我们可以任选上限公式或下限公式来计

算中位数,得到结果是相同的。 ? 中位数是一个顺序统计量,其取值不受极端数 值的影响,也不受组距分组中开口组设置的影 响。当数值型数据中含有极小值和极大值时, 可以使用中位数来度量数据的集中趋势。 ? 中位数一般适用于定序数据。不太适用于偏态 的数据。

? 4.1.3 均值 ? 均值(Mean)为一组数值型数据之和除以该

组数据总数的商,即同一组数据的总值与其频 数的商。 ? 在大多数场合,均值采用算术平均方法计算, 所以人们经常将均值称为算术平均数 (Arithmetical Average)。

? 计算均值的数据需要具备数值型数据的属性,

均值是一个数值型的集中趋势测度。通过计算 均值的运算过程,首先将各个数据之间的数量 差异抽象掉了,以一个抽象性的综合测度概括 地反映事物的集中趋势。其次将不同总体的总 量规模抽象掉了,表现出来的只是一个一般性 的代表水平,有利于不同规模的同类总体在不 同空间和时间上的广泛比较。

? 均值在各个方面得到广泛应用。均值属于参数

统计的内容,只能用做数值型数据集中趋势的 测度,不能度量非数值型数据的集中趋势。

《统计学教程》
第4章 数据分布特征的度量
? 1.简单均值

4.1 集中趋势的度量

简单均值(Simple Mean)是根据未分组的原始数据计算出来的均值。


?X X ?
N

(4.7)

例4.6 仍采用第三章中例3.1某学期某班35名学生的统计学考试成绩 的原始数据 要求 试计算该班35名学生的统计学考试成绩的均值。 解 采用式(4.7)计算,有

?X X?
N

?

2800 ? 80分 35

《统计学教程》
第4章 数据分布特征的度量
? 2.加权均值

4.1 集中趋势的度量

加权均值(Weighted Mean)是运用各组频数作为权数对各组数值水 平进行加权计算出来的均值。根据是单变量值分组还是组距分组,以及 组距分组的各组数值水平代表数据是组均值还是组中值,加权均值的计 算分为以下三种类型。
(1)单变量值分组加权均值 在单变量值分组场合,加权均值的计算公式为

? XF X ? ?F

(4.8)

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

? 例4.7 某机床总装车间10个装配小组日完成产品台数情况,计算单变

量值分组加权均值。 表4.4 某机床总装车间10个装配小组日完成产品台数情况
日完成产品量 /台 5 6 7 8 合 计 装配小组 /个 1 2 5 2 10 小计 /台 5 12 35 16 68

要求 试计算单变量值分组加权均值。 解 采用式(4.8)计算,可得

? XF ? 68 ? 6.8 台 X ? ? F 10

《统计学教程》
第4章 数据分布特征的度量
?

4.1 集中趋势的度量

(2)采用组均值计算加权均值 在组距分组中,采用组均值计算加权均值时,计算公式为

X ?

?X
j ?1 H j ?1

H

j

Fj
j

(4.9)

?F

式(4.9)中 X j 表示第j 组的组均值。

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

? 例4.8 采用第三章中例3.1 的各组均值数据。

要求 试计算组距分组的该班35名学生的统计学考试成绩的加权均值。 解 依据各组中的数据数值和数据个数,按照式(4.7)的均值计算公式, 计算出各组的组均值,填入表4.5中。 表4.5 某学期某班35名学生统计学考试成绩的组均值和频数
考分 /分 组均值 /分 人 数 /人 组总分 /分 60以下 54 108 2 60—70 65 260 4 70—80 76 684 9 80—90 85 1190 14 90—100 93 558 6 合 计 — 35 2800

X?

?X
j ?1 H j ?1

H

j

Fj ?
j

?F

54 ? 2 ? 65 ? 4 ? ? ? 93 ? 6 2800 ? ? 80 (分) 2 ? 4 ??? 6 35

《统计学教程》
第4章 数据分布特征的度量
? (3)采用组中值计算加权均值

4.1 集中趋势的度量

在不占有原始数据和组均值数值,只拥有已分组的数据时,只有利用 各组组中值采用加权的方式计算均值的近似数值。利用组中值计算均值 近似值的公式为

X ?

~ X j Fj ?
j ?1 H

H

(4.10)

?F
j ?1

j

式(4.10)中X j 表示第j组的组中值。

~

? 采用组中值计算加权均值的前提条件: ? 各组数据近似地趋于均匀分布或对称分布,各

组的组中值近似于各组的组均值。当各组数据 显著地不趋于均匀分布或对称分布时,各组的 组中值与各组的组均值就会存在较大差异,两 者数值水平相差越大,采用组中值替代组均值 的误差就越大。

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

? 例4.9 根据第三章中表3.7中“某学期某班35名学生的统计学考试成

绩”的各组组中值和频数数据。 要求 试采用组中值计算该班35名学生的统计学考试成绩的加权均值。 解 采用式(4.10)计算。 表4.6 某学期某班35名学生统计学考试成绩的组中值和频数
考分 /分 组中值 /分 人 数 /人 组总分 /分 60以下 55 2 110 60—70 65 4 260 70—80 75 9 675 80—90 85 14 1190 90—100 95 6 570 合 计 — 35 2805
X?

?X
j ?1 H j ?1

H

~
j

Fj ?
j

?F

55 ? 2 ? 65 ? 4 ? ? ? 95 ? 6 2805 ? ? 80 .14 分 2 ? 4 ??? 6 35

《统计学教程》
第4章 数据分布特征的度量
? 3.权数【权重】与加权结构

4.1 集中趋势的度量

对于加权均值而言,有两个因素决定着均值数值的大小,一个因素是 各组的数值水平,在不同场合,可以是单变量值、组均值或组中值;另 一个因素是各组的频数。频数对各组的数值水平数值起着权衡轻重的作 用,所以将加权均值的计算公式中频数称为“权数”。 在均值的计算中又将频数分布称为“加权结构”,“加权结构” 更 加清晰地反映了数据在各组中的分布与集中趋势之间的联系,及其对均 值数值水平形成的影响。 将式(4.8)略加变形,有
X?

? XF ? X F ? X? ? ? F F ? ?

(4.11)

《统计学教程》
第4章 数据分布特征的度量
?

4.1 集中趋势的度量

根据第三章中表3.7中“某学期某班35名学生的统计学考试成绩”

的各组组中值和频数数据,计算“加权结构” 和“组贡献值”。
某班35名学生统计学考试平均成绩的“加权结构” 和“组贡献值”
考分 /分 60 以下 60—70 组均值 /分 54 65 人 数 /人 2 4 比例【频率】 【权重】/% 5.714 11.429 组贡献值 /分 3.09 7.43

70—80
80—90 90—100 合 计

76
85 93 —

9
14 6 35

25.714
40.000 17.143 100.000

19.54
34.00 15.94 80.00

《统计学教程》
第4章 数据分布特征的度量
? 均值的数学性质:

4.1 集中趋势的度量

(1)各个变量值与其均值的离差和为零,即

?(X
?(X

? X) ?0

(2)各个变量值与其均值平均数的离差平方和为最小,即
? X ) 2 ? Min

当取均值作为集中趋势的测度时,各个数据的取值与集中趋势测度的 离差平方和为最小值。均值的这一数学性质是度量离散程度,进行误差 分析和最小二乘估计等统计方法的基础。

(2)证明: 令f ( ? ) ? ? ? X i ? ? ? ,
2 i ?1 N

则:f

'

? ? ? ? ?2? X ? 2 N ?。

《统计学教程》
第4章 数据分布特征的度量
? 4.1.4 调和平均数

4.1 集中趋势的度量

调和平均数(Harmonic Mean)是各个变量数值倒数的算术平均数的 倒数。因此又称之为“倒数平均数”。
1. 简单调和平均数 设有个变量值为, 则有简单调和平均数的计算公式为
H? 1 1? 1 1 1 ? ? ? ? ??? N ? X1 X 2 XN ? ? ? ? N

?X

1

(4.12)

《统计学教程》
第4章 数据分布特征的度量
?

4.1 集中趋势的度量

例4.10 设有12批A产品当日在某海关进口时报关的单价分别为每件25, 24,25,27,26,25,24,28,26,25,26,28美元。 要求 试用调和平均数方法计算其平均价格。
解 由式(4.12)
H? 1 12 ? ? 25.68 美元 1? 1 1 1 ? 0.467184 ??? ? ? ? 12 ? 25 24 28 ?

《统计学教程》
第4章 数据分布特征的度量
?

4.1 集中趋势的度量

2.加权调和平均数 (1)单变量值分组的加权调和平均数 在单变量值分组场合,加权均值的计算公式为

?F H ? F ?X

(4.13)

加权调和平均数
按单价分 组/美元 28 27 26 25 24 合计 频数 /批 2 1 3 4 2 12

F / X
0.071429 0.037037 0.115385 0.16 0.083333 0.467184

MXF?

? (2)组距分组的加权调和平均数 ? 在组距分组场合,仍然根据是否拥有各组组

均值数据,加权调和平均数的计算分为两种不 同的方式。拥有各组组均值数据时,采用各组 组均值计算加权调和平均数;不具有各组组均 值数据时,则需要采用各组组中值来计算加权 调和平均数的近似数值。 ? 在现实生活中,实际使用到的仅是一种形式 上类似调和平均数的“加权调和平均数”,它 是均值的一种变形。

组距分组的加权调和平均数
? (1)已知各组均值数据

?F H? F ?X ?F H? F ?X ?

j

? (2)已知各组组中值数据

j

《统计学教程》
第4章 数据分布特征的度量
? 3.均值的变形

4.1 集中趋势的度量

在拥有各组总值数据和各组变量值水平,缺少各组频数数据时,往往 采用形式上类似加权调和平均数的公式,来计算加权均值。用M表示各 组总值,用 X H 表示这一形式上类似加权调和平均数的集中趋势测度, 有
XH ?

?M M ?X

?

? XF ? ? XF ? X 1 ? X XF ? F

(4.14)

由式(4.14)可知,这一所谓的形式上类似加权调和平均数的集中趋势 测度实际上就是均值,而不是调和平均数。

《统计学教程》
第4章 数据分布特征的度量
?

4.1 集中趋势的度量

例4.12 已知某商店商品按照优惠价、折扣价和原价的单价和销售 总额。 ? 要求 试求销售价格的均值。 ? 解 由式(4.14) ? 表4.8 某商店W商品销售情况
?
价格 原价 折扣价 优惠价 合计 单价 /元 总额 /元 数量 /件

X
200 160 150 —

XF ? M
40000 48000 22500 110500

M / X ? F
200 300 150 650

XH ? X ?

110500 ? 170 元 650

《统计学教程》
第4章 数据分布特征的度量
? 4.1.5 几何平均数

4.1 集中趋势的度量

几何平均数(Geometric Mean)是指各项数据的连乘积开其项数次方 的算术根,一般用G表示。当对象为某种连乘积的关系,例如总比率或 总速度时,则需要采用几何平均数方法,计算其平均比率或平均速度。 几何平均数的计算公式也有简单几何平均数加权几何平均数和两种形式: 1.简单几何平均数。计算公式为:
(4.15)
G ? N X 1 ? X 2 ?? ? X N ? N ? X

《统计学教程》
第4章 数据分布特征的度量
?

4.1 集中趋势的度量

例4.13 某厂有四个连续作业车间,其产品的合格率分别为95%、96%、 94%和90%。
要求 试计算该产品的平均合格率。 解 显然,本题不能采用算术平均法或调和平均法,因为各车间的合 格率之积=全厂的总合格率,应采用几何平均法来计算其平均合格率。 由式(4.15),有

G ? 4 95% ? 96% ? 94% ? 90% ? 93.72%

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

? 2、加权几何平均数。加权几何平均数计算公式为:

F F G ? F1 ? F2 ??? Fh X1F1 ? X 2 2 ??? X h h ? ?

F

?X

F

(4.16)

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

? 例4.14 设某项每年分红一次的投资项目,10年来各年的实际收益率

分别为10%,9%,8%,8%,9%,8%,9%,7%,11%,10%。 要求 试求该项投资10年来的平均年收益率。 解 平均年收益率是一项平均增长速度,需要由平均发展速度间接计 算。因此需要将例4.14中的各年收益率数据(年增长速度),换算成年 本利和(年发展速度),利用式(4.15)计算出该项投资10年来的平均年 本利率,最后将平均年本利率扣除本金后,计算出平均年收益率。即 G ? 10 1.1?1.09 ???1.1 ? 10 2.34446 ? 1.08894
平均年收益率 ? 1.08894 ? 1 ? 8.894 %

例4.15 将例4.14中该企业某项投资10年间收益率整理为单变量值分组数据, 试求该项投资10年间平均年收益率。

按年收益率分组 /% 11 10 9

年本利率/% 111 110 109

频数/次 X^F 1 2 3 1.11000 1.21000 1.29503

8
7 合计 -

108
107

3
1 10

1.25971
1.07000 2.34446

根据式(4.16)计算,有

?F G?

?X

F

? 2.34446 ? 1.08894
10

2012-03-21(ZhousanShangwu)

《统计学教程》
第4章 数据分布特征的度量
? 3.对数均值

4.1 集中趋势的度量

将几何平均数计算公式等号两端同时取对数,几何平均数计算公式表 现出类似均值计算公式的形式。所以,几何平均数又被称为对数均值, 或对数平均数。 由式(4.15) 等号两端同时取对数,可得对数形式的简单几何平均数 计算公式。有
ln G ?

? ln X
N

(4.17)

由式(4.16) 等号两端同时取对数,可得对数形式的,具有类似加权 均值计算公式形式的加权几何平均数计算公式。有

? F ln X ln G ? ?F

(4.18)

? 4.1.6 均值、调和平均数和几何平均数的比较 ? 对于同一组数据,仅从数值比较的角度,有均值大于

等于几何平均数,几何平均数大于等于调和平均数, 即

H ?G? X

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

? 例4.16 有一组数据为4,5,6,7,8,6,7,8,9,8 ,请分别计算均

值、调和平均数和几何平均数。 解:分别计算如下:
X?
H?

?X
N
N

?
?

68 ? 6.8 10
10 ? 6.43 1.555159

?X

1

G ? N ? X ? 10 162570240 ? 6.62

? 【课后作业】 ? 考虑对任意的自然数n,三个平均数之间的关系

的证明。

? 4.1.7 均值、众数和中位数的比较 ? 在均值、众数和中位数这三个测度中,均值

是唯一的数值型测度。均值一般采用算术平均 方法计算的集中趋势测度,对极端数值的反应 比较敏感,在数据的分布出现偏倚时,均值受 到的影响最大。众数和中位数都是位置型的集 中趋势测度,其具体取值不受极端数值的影响。 其中众数是对应于最大频数的数值,中位数是 居于有序数据中间位置上的数值。

? 若数据的分布是对称的,有均值、众数和中位

数三个集中趋势测度的取值相等。

图4.1 对称分布

? 一般而言,若数据的分布是非对称的,众数仍

然处在数据分布的峰顶的位置上,均值和中位 数则偏向数据分布偏倚的一方,其中均值偏倚 程度往往要大于中位数。

? 当数据分布呈左偏态时,一般有均值的取值最

小,其次是中位数,众数的取值最大。在频数 分布图上,众数始终对应于峰顶,均值和中位 数偏在峰顶的左边,均值又在中位数左边。

图4.2 左偏分布

? 当数据分布呈右偏态时,一般有均值的取值最

大,其次是中位数,众数的取值最小。在频数 分布图上,众数还是处在对应于峰顶的位置, 均值和中位数偏在峰顶的右边,并且均值偏在 最右边。

图4.3 右偏分布

? 根据均值、众数和中位数之间的这种关系,通

过比较这三个集中趋势测度的具体取值,可以 反映数据的分布状态,是否存在偏态,是左偏 态还是右偏态,进而粗略地把握偏态的大致程 度。

《统计学教程》
第4章 数据分布特征的度量

4.1 集中趋势的度量

? 例4.17 根据第三章中例3.1 某学期某班35名学生的统计学考试成绩

的原始数据。 要求 计算该班35名学生的统计学考试成绩的均值、众数和中位数, 简要分析数据的分布状况。 解 由该班35名学生的统计学考试成绩均值、众数和中位数的具体取 值,可得出三者之间的数值比较关系,有

X ? 80 分 ? Me ? 82 分 ? M O ? 84 分
则认为该班35名学生的统计学考试成绩呈左偏态,偏倚的程度不是很 大,从均值角度来说,该班高分(超过均值80分)的同学较多,超过了 半数。因为按分数排序处在正中间位置上同学的分数为中位数82分,高 于均值80分的水平。

2012-03-19(ZhouyiShangwu)

4.2 离散程度的度量

《统计学教程》
第4章 数据分布特征的度量
?

4.2 离散程度的度量

4.2.1 异众比率 异众比率(Variation Ratio)是非众数所在组的频数之和占总频数 的比率,一般用 Vr 表示。
Vr ?

?F ?F ?F

MO

? 1?

?F

FM O

(4.19)

异众比率是用于评价众数的代表性的测度。异众比率取值在1到0之间, 一般用百分数表示。异众比率数值越大,越趋近于1,说明众数所在组 的频数占总频数的比率越低,众数的代表性越弱,反映数据的频数分布 不存在显著集中的态势,无法借助众数来反映数据的集中趋势;异众比 率数值越小,越趋近于0,说明众数所在组的频数占总频数的比率越高, 众数作为集中趋势测度的代表性越强。

《统计学教程》
第4章 数据分布特征的度量

4.2 离散程度的度量

? 例4.18 根据例4.1某品牌运动服装专卖店一批新品球衣的销售情况的

频数分布数据。 要求 试计算众数“SP09-05”球衣的异众比率。 解 由式(4.19),有该新品球衣的前日和当日销售情况众数的“SP0905”球衣的异众比率分别为
Vr ? 160 ? 88 72 ? ? 45 % 160 160

Vr ?

180 ? 93 87 ? ? 48.33 % 180 180

前日销售情况的异众比率为45%,当日销售情况的异众比率为48.33%, 说明这两天众数“SP09-05”球衣的销售量都超过50%,表明在此场合使 用众数“SP09-05”球衣作为该批新款球衣集中趋势的测度是比较有效的。

《统计学教程》
第4章 数据分布特征的度量
? 4.2.2 四分位差

4.2 离散程度的度量

四分位差(Quartile Deviation)为上四分位数与下四分位数的绝对 离差,也称为四分间距(Inter-Quartile Range),用 Qd 表示。计算公 式为 (4.20) Qd ? QU ? QL
式(4.20)中的 QU 和 QL分别为上四分位数与下四分位数。将原始数据 按照由小到大,由低到高排序后得到的有序数据中,上四分位数是处在 后四分之一位置上数据的数值;下四分位数是处在前四分之一位置上数 据的数值。 所以,也可以将上四分位数与下四分位数理解为是在计算了中位数的 基础上,将排序后的有序数据分为了大于和小于中位数的两个部分,然 后再在这两个部分中分别计算出来的中位数。四分位差反映了处在有序 数据中间位置上的50%的数据的绝对离差。因此,四分位差是与中位数 相联系的离散程度测度。

《统计学教程》
第4章 数据分布特征的度量

4.2 离散程度的度量

? 例4.19 仍采用例4.4中某学期某班35名学生考试成绩的原始数据。

要求 试计算该班35名学生的统计学考试成绩的四分位差。 解 有上四分位数与下四分位数的计算公式为

QU ? X 3? N ?1? QL ? X N ?1 解得
4

QU ? 88 分

QL ? 75 分

4

52,56,62,64,65,69,70,74,75,75,76,78,78,79,79, 81,82,82,83,84,84,84,84,86,87,87,88,89,89,90, 91,91,92,96,98 即可计算出考试成绩的四分位差为 Qd ? 88 ? 75 ? 13 分 该班35名学生的统计学考试成绩的四分位差为13分,说明处在中间位 置上的一半该班同学的分数最大差距为13分,这一差异数值较小,表明 82分的中位数对于集中趋势的代表性较好。

四分位间距
? ? ? ? ?

组距分组数据 (1)全部数据的中位数ME1 (2)数值较大部分的中位数ME2 (3)数值较小部分的中位数ME3 2 3 (4)四分位间距 Qd ? M e ? M 2

《统计学教程》
第4章 数据分布特征的度量

4.2 离散程度的度量

? 4.2.3 取值范围【极差】【全距】

取值范围(Value Area)为全体数据中最大数值与最小数值之差, 反映了数值变量取值的变动幅度。取值范围也称为全距,一般用 R 表示, 有

R ? Max?X ?? Min?X ?

(4.20)

当使用样本数据的最大数值与最小数值之差,来计算该组样本数值 变量取值区间,以反映总体变量取值的变动幅度时,一般称之为极差 (Range),用表示。即

? R ? Max?x?? Min?x?
【修正极差】

(4.21)

《统计学教程》
第4章 数据分布特征的度量
? 例4.20

4.2 离散程度的度量

某企业一车间甲乙两个生产小组的个人日产量件数数据如下 甲组:50,55,60,70,80,85,90 乙组:67,68,69,70,71,72,73 要求 试计算该车间甲乙两个生产小组的个人日产量的取值范围。 解 甲乙两个生产小组的均值都为70件,采用式(4.20),有 甲组: R ? 90 ? 50 ? 40(件) 乙组: R ? 73 ? 67 ? 6(件)

甲组的取值范围为40件,乙组的取值范围为6件,表明70件的均值对 于乙组个人日产量的集中趋势更具有代表性,或者说乙组个人日产量的 离散程度小,集中趋势更为显著。 取值范围的计算只使用了数值变量中的最大与最小两个数值,具有计 算简洁,意义明确,易于理解的特点,但是没有充分利用数据的全部信 息,是一个粗略的,简单的,尤其是容易受到极端数值影响的测度。

《统计学教程》
第4章 数据分布特征的度量

4.2 离散程度的度量

? 4.2.4 平均差【平均偏差】【平均离差】

平均差(Mean Deviation)是指全部变量值与其均值的离差的绝对值 的均值,也称为平均离差,用A.D.表示。
简单平均差计算公式为:

? X ?X A.D. ?
N

(4.22)

加权平均差计算公式为:

? X ?X A.D. ? ?F

F

(4.23)

平均差(Mean Difference)
n j ?1 2 MdX ? d ? ?? xi ? x j n ? n ? 1? j ?1 i ?1

《统计学教程》
第4章 数据分布特征的度量

4.2 离散程度的度量

? 例4.21 仍然采用例4.20中的数据。

要求 试计算该该车间甲乙两个生产小组的个人日产量的平均差。 解 已知均值为70件,由式(4.22) 表4.10 甲乙小组的个人日产量的平均差计算表 件
个人日产量 甲组 乙组 50 67 55 68 60 69 70 70 80 71 85 72 90 73 — —

X ?X
甲组 20 15 10 0 10 15 20 90 乙组 3 2 1 0 1 2 3 12

乙组: A.D. ? 12 ? 1.71 件 7 7 平均差测度同样表明乙组个人日产量的离散程度小,70件的个人日产 量均值对于乙组的集中趋势更具有代表性。

甲组:A.D. ? 90 ? 12.86 件

例4.22
? 采用例4.8中某学期某班35名学生统计学成绩

的组均值和频数数据,并已知均值为80分。

考分/分 60分以下 60-70 70-80 80-90 90-100 合计

组均值/分 54 65 76 85 93 —

人数/人 2 4 9 14 6 35

X ? X F/分

52 60 36 70 78 296

? X ? X F ? 296 ? 8.46. A.D. ? 35 ?F

《统计学教程》
第4章 数据分布特征的度量
? 4.2.5 方差和标准差

4.2 离散程度的度量

方差(Variance)是指全部变量值与其均值的离差的平方的均值。 方差以数据的重心——均值作为基准数值来度量数据分布的离散程度, 同时用平方的方式消除了变量值与均值离差数值正负相抵的问题,便于 数学上的处理,方差是正态分布等概率分布的重要参数,是度量数值变 量离散程度的基本测度。方差一般用 或2 表示。 V ?X ? ? 根据所拥有的数值变量数据的形式不同,方差的计算可以分为以下几 种方式。
1.简单方差计算公式 当拥有未分组的数据时,采用简单方差公式计算方差。

?2 ?

( X ? X )2 ? N

(4.24)

《统计学教程》
第4章 数据分布特征的度量

4.2 离散程度的度量

? 例4.23 再次仍然采用例4.20中某企业一车间甲乙两个生产小组的个

人日产量件数数据,并已知均值为70件。 要求 试计算该甲乙两个生产小组个人日产量的方差。 解 由式(4.24)有 表4.12 甲乙小组的个人日产量的方差计算表 件
个人日产量 甲组 乙组 50 67 55 68 60 69 70 70 80 71 85 72 90 73 490 490

?X ? X ?

2

甲组 400 225 100 0 100 225 400 1450

乙组 9 4 1 0 1 4 9 28

?2 甲组: ?

1450 ? 207 .14 件2 7

乙组: 2 ? ?

28 ? 4 件2 7

《统计学教程》
第4章 数据分布特征的度量
? 2.加权方差计算公式

4.2 离散程度的度量

当只具备已分组数据时,需要采用加权方差公式计算方差。 (1)当拥有单变量值分组数据时,加权方差计算公式为: ? ( X ? X )2 F 2 ? ? (4.25) F

?

例4.24 根据例4.7中某机床总装车间10个装配小组日完成产品台数数 据,并已知均值为6.8台。 要求 计算该机床总装车间装配小组日完成产品台数的方差。 解 由式(4.25) 7.6 ?2 ? ? 0.76 台2 10

日完成产 装配小组 品量 /台 /个 5 1 6 2

?X ? X ? F
2

/台2

3.24 1.28

7 8
合 计

5 2 10

0.2 2.88 7.6

《统计学教程》
第4章 数据分布特征的度量

4.2 离散程度的度量

? (2)当拥有的数据为具有组均值的组距分组时,加权方差计算公式

为:
?
? ?
2

? ?X
H j ?1

j H

? X ? Fj
2

?F
j ?1

(4.26)
j

? 式(4.26)中是采用各组的组均值与总体均值的离差的加权均值来反映

数据分布的离散程度。存在着一个各组的组均值与各组中各个变量的 实际取值之间的差异,只有在各个变量的实际取值等于各组的组均值 时,式(4.26)才等于式(4.25);当这两者的差距越大,式(4.26)与式 (4.25)之 间的 差 距也 就越 大, 并且有 式(4.26)计 算的 数值小 于 式 (4.25) 计算的数值。式(4.25)是与方差的定义一致的测度,而式 (4.26)只是式(4.25)近似计算。
?

? 式(4.27)所计算的实质是组间方差,或者称

为层间方差,它反映的只是各组(层)的组均 值与总均值之间离差平方的均值,缺失了对于 各组(层)内部各个数据与其组均值之间离差 平方的均值的度量。各组(层)内部各个数据 与其组均值之间离差平方称为组内方差,或者 称为层内方差,它是对各组组内变量离散程度 的测度。因此式(4.27)仅为方差所定义的全 部变量值与其均值的离差平方均值的一部分。

例 4.25
? 采用例4.8的表4.5中某学期某班35名学生统计

学考试成绩的组均值和频数数据,并已知均值 为80分。 ? 要求:计算该班35名学生统计学考试成绩的加 权方差。

例 4.25
考 分 / 分 60以下 组均 人数 值 / /人 分 54 2
?X ?

j

?X

2

F

1352

60—70 70—80 80—90 90—100
合 计

65 76 85 93 —

4 9 14 6 35

900 144 350 1014 3760

3760 2 ? ? ? 107 .43(分 ). 35
2

《统计学教程》
第4章 数据分布特征的度量

4.2 离散程度的度量

? (3) 当拥有的数据为不具有组均值的组距分组时,需要采用组中值近

似地替代组均值计算加权方差,这时计算公式为

? ?
2

~ ?X ?
H j ?1

j H

? X Fj
j

?

2

(4.27)

?F
j ?1

式(4.27)不仅存在式(4.26) 以各组的组均值近似替代各组中各个变 量的实际取值所产生的误差,而且还存在以各组的组中值近似替代各组 的组均值所产生的误差。所以式(4.27)也只能是对式(4.25)近似计算。

? 【课后作业】 ? 利用例4.8的表4.5的数据以及式(4.28)计算

某学期某班35名学生统计学考试成绩的加权方 差。

《统计学教程》
第4章 数据分布特征的度量
? 3.标准差

4.2 离散程度的度量

由于方差的量纲是变量原有量纲的平方,在实际使用时有所不便。因 此,人们常常采用具有与变量一致的量纲的测度,方差的算术平方根— —标准差。 标准差(Standard Deviation)为方差的算术平方根,即全部变量值 与其均值的离差的平方的均值的算术平方根。有简单标准差计算公式和 加权标准差计算公式。

??

( X ? X )2 ? N

(4.28)

??

( X ? X )2 F ?

?F

(4.29)

《统计学教程》
第4章 数据分布特征的度量
? 4.2.6 离散系数

4.2 离散程度的度量

离散系数(Coefficient of Variation)为同一总体的标准差与均值 的比值。 通过采用标准差除以同一数据的均值,不仅将分子分母量纲相同相互 约去,同时还剔除了均值数值水平,得到了一个没有量纲的相对数测度, 这就是离散系数。计算离散系数的主要目的就是消除标准差的量纲和数 值水平上的差异,使其成为一个抽象的,纯粹反映数据分布离散程度的 测度,一个具有广泛的直接的可比性的离散程度测度。从形式上看,离 散系数是一个相对的比值,一个相对数。 离散系数的计算公式为:

V? ?

?
X

(4.30)

离散系数一般用百分数表示。

《统计学教程》
第4章 数据分布特征的度量

4.2 离散程度的度量

? 例4.26 已知某公司A、B两种产品2005年的日产量及其标准差数据。

要求 试计算A、B两种产品2005年的日产量的离散系数,对该公司A、 B两种产品生产过程的均衡性进行比较分析。 解 采用式(4.30),有 表4.15 2005年某公司产品的日产量的离散系数计算表
产品 A B 均值 /吨 5 800 标准差 /吨 离散系数 /% 3 60 240 30

由此例可以看出,标准差的数值水平是由纯粹的数据分布离散程度 (可用离散系数表示),和数据分布集中趋势的中心数值(一般用均值 表示),这两者共同作用的结果。例如,A产品日产量的标准差3吨,等 于离散系数60%,乘上均值5吨。

? 基于离散系数,可以将两个总体离散程度的比

较分解为两个总体标准差之比与两个总体的均 值之比的商。例如本例中A产品的离散程度为B 产品离散程度的2倍,可以视为是由A产品的标 准差为B产品标准差的1/80和A产品的均值为B 产品均值的1/160,这两个因素共同作用的结 果。

《统计学教程》
第4章 数据分布特征的度量
? 4.2.7 标准化值

4.2 离散程度的度量

标准化值(Standard Score)是以变量值与其均值的差除以同一数据 的标准差的比值,也称为标准分数,或Z分数。其计算公式为:

Zi ?

Xi ? X

?

(4.31)

标准化值的分子为第i个变量值与其均值的差,一般称为数据的中心化, 表现为变量值与其均值的绝对距离。标准化值的分母为标准差,通过用 标准差除以中心化后的数据,来消除标准化值的量纲和绝对水平,剔除 不同的数据分布离散程度在量纲和数值水平上的差异,使离散程度不同 的数据之间具备了广泛的可比性。使数据具有了普遍的可加性和直接的 可比性。

《统计学教程》
第4章 数据分布特征的度量

4.2 离散程度的度量

? 例4.27 某中学有A、B两位同学期末考试5门功课的考试成绩如表4.16

所示。 要求 采用标准化值,对某中学A、B两位同学考试成绩进行评价。 解 根据式(4.31),计算出A、B两位同学考试成绩的标准化值总分。 表4.16 某中学A、B两位同学期末考试成绩的标准化值总分计算表
考试科目 数学 物理 化学 语文 英语 总分 原始成绩 /分 A B 90 84 88 78 66 84 76 78 80 80 400 404 均值 标准差 离差 /分 /分 A 85 10 5 82 20 6 60 30 6 65 25 11 75 25 5 367 — 33 /分 B -1 -4 24 13 5 37 标准化值 A B 0.50 -0.10 0.30 -0.20 0.20 0.80 0.44 0.52 0.20 0.20 1.64 1.22

《统计学教程》
第4章 数据分布特征的度量

4.2 离散程度的度量

? 例4.27 某中学有A、B两位同学期末考试5门功课的考试成绩如表4.16

所示。 要求 采用标准化值,对某中学A、B两位同学考试成绩进行评价。 解 根据式(4.31),计算出A、B两位同学考试成绩的标准化值总分。 表4.16 某中学A、B两位同学期末考试成绩的标准化值总分计算表
考试科目 数学 物理 化学 语文 英语 总分 原始成绩 /分 A B 90 84 88 78 66 84 76 78 80 80 400 404 均值 标准差 离差 /分 /分 A 85 10 5 82 20 6 60 30 6 65 25 11 75 25 5 367 — 33 /分 B -1 -4 24 13 5 37 标准化值 A B 0.50 -0.10 0.30 -0.20 0.20 0.80 0.44 0.52 0.20 0.20 1.64 1.22

《统计学教程》
第4章 数据分布特征的度量

4.2 离散程度的度量

? 例4.27 某中学有A、B两位同学期末考试5门功课的考试成绩如表4.16

所示。 要求 采用标准化值,对某中学A、B两位同学考试成绩进行评价。 解 根据式(4.31),计算出A、B两位同学考试成绩的标准化值总分。 表4.16 某中学A、B两位同学期末考试成绩的标准化值总分计算表
考试科目 数学 物理 化学 语文 英语 总分 原始成绩 /分 A B 90 84 88 78 66 84 76 78 80 80 400 404 均值 标准差 离差 /分 /分 A 85 10 5 82 20 6 60 30 6 65 25 11 75 25 5 367 — 33 /分 B -1 -4 24 13 5 37 标准化值 A B 0.50 -0.10 0.30 -0.20 0.20 0.80 0.44 0.52 0.20 0.20 1.64 1.22

《统计学教程》
第4章 数据分布特征的度量

4.2 离散程度的度量

? 例4.27 某中学有A、B两位同学期末考试5门功课的考试成绩如表4.16

所示。 要求 采用标准化值,对某中学A、B两位同学考试成绩进行评价。 解 根据式(4.31),计算出A、B两位同学考试成绩的标准化值总分。 表4.16 某中学A、B两位同学期末考试成绩的标准化值总分计算表
考试科目 数学 物理 化学 语文 英语 总分 原始成绩 /分 A B 90 84 88 78 66 84 76 78 80 80 400 404 均值 标准差 离差 /分 /分 A 85 10 5 82 20 6 60 30 6 65 25 11 75 25 5 367 — 33 /分 B -1 -4 24 13 5 37 标准化值 A B 0.50 -0.10 0.30 -0.20 0.20 0.80 0.44 0.52 0.20 0.20 1.64 1.22

《统计学教程》
第4章 数据分布特征的度量

4.2 离散程度的度量

? 例4.27 某中学有A、B两位同学期末考试5门功课的考试成绩如表4.16

所示。 要求 采用标准化值,对某中学A、B两位同学考试成绩进行评价。 解 根据式(4.31),计算出A、B两位同学考试成绩的标准化值总分。 表4.16 某中学A、B两位同学期末考试成绩的标准化值总分计算表
考试科目 数学 物理 化学 语文 英语 总分 原始成绩 /分 A B 90 84 88 78 66 84 76 78 80 80 400 404 均值 标准差 离差 /分 /分 A 85 10 5 82 20 6 60 30 6 65 25 11 75 25 5 367 — 33 /分 B -1 -4 24 13 5 37 标准化值 A B 0.50 -0.10 0.30 -0.20 0.20 0.80 0.44 0.52 0.20 0.20 1.64 1.22

【标准分】
? 语文高考原始分成绩比较集中,标准差在

11——15之间 ? 而数学、外语的标准差一般是在20——30之间, 也就是说如果考生的语文原始分能多得11—— 15分,标准分就要增加100分,而外语或数学 的原始分要多得20——30分,标准分才能增加 100分。显然,语文原始分更“值钱”,适当 重视语文科的学习,对于提高高考成绩是相当 有效的。

? 【课后作业】 ? 搜集关于高考分数由原始分到标准分的操作过



4.3 偏态和峰度的度量

《统计学教程》
第4章 数据分布特征的度量
? 4.3.1 偏态系数

4.3 偏态和峰度的度量

偏态(Skewness)是指数据分布偏倚的方向和程度。偏态系数是度量 数据分布偏离对称分布的方向和程度的测度。 偏态系数一般采用三阶中心矩与标准差三次方的比值来度量数据分布 的偏倚。有简单偏态系数计算公式为

? ?X ? X ? SK ?
?3?N
加权偏态系数计算公式为

3

(4.33)

? ?X ? X ? F SK ? ? ?? F
3 3

(4.34)

《统计学教程》
第4章 数据分布特征的度量
? 偏态系数采用标准

4.3 偏态和峰度的度量

差的三次方数值去除 三阶中心矩,消除三 阶中心矩在具体量纲 和均值水平上的不可 比性质,构造出一个 具有广泛可比性质的 度量数据分布的偏倚 的方向和程度的综合 测度。 图4.4 数据分布偏态的示意图 偏态系数的取值为0时,表示数据为完全的对称分布;为负数时,表 示数据为负偏态,或左偏态;偏态系数的取值为正数数时,表示数据为 正偏态,或右偏态。偏态系数的绝对数值越小,表示数据偏倚的程度越 小,绝对数值越大,表示数据偏倚的程度越大。

【皮尔逊偏度】
[对于只有一个众数的情形] X ? Mo S kp ? s 3? X ? M e ? S kp ? s 【经验公式X ? M o ? 3 ? X ? M e ?】

《统计学教程》
第4章 数据分布特征的度量

4.3 偏态和峰度的度量

? 4.3.2 峰度系数【峰度】【峰态系数】【峭度】

峰度(Kurtosis)是指数据分布平峰或尖峰的程度,也称为峰态。峰 度系数是度量数据分布的平峰或尖峰形态偏离正态分布的程度的测度。 峰度系数一般都采用四阶中心矩与标准差四次方的比值来度量数据平峰 或尖峰形态偏离正态分布的程度。有简单峰度系数计算公式为

? ?X ? X ? K?
?4?N

4

(4.34)

加权峰度系数计算公式为

? ?X ? X ? F K? ? ?? F
4 4

(4.35)

返回

《统计学教程》
第4章 数据分布特征的度量
?

4.3 偏态和峰度的度量

由于四阶中心矩也是一 个具有量纲的测度,其取 值也受到均值水平高低的 影响。所以,仍然采用标 准差的四次方数值去除四 阶中心矩,消除四阶中心 矩在具体量纲和均值水平 方面的局限性。 图4.5 数据分布峰度的示意图 峰度系数的取值为3时,表示数据的峰度与正态分布相一致【正态峰 度】;小于3时,表示数据为平峰分布;大于3时,表示数据为尖峰分 布。峰度系数偏离3的绝对差异越小,表示偏离正态分布的程度越小, 偏离3的绝对数值越大,表示偏离正态分布的程度越大。

《统计学教程》
第4章 数据分布特征的度量

4.3 偏态和峰度的度量

? 例4.28 采用第三章中例3.1某学期某班35名学生的统计学考试成绩的

各组均值数据,并已知均值为80分,标准差为10.36分。 要求 计算该班35名学生的统计学考试成绩的偏态系数和峰度系数。 解 采用式(4.32)和式(4.34),计算偏态系数和峰度系数。 表4.17 某学期某班35名学生考试成绩偏态系数和峰度系数计算表
组均值 考 分 /分 /分 60以下 60—70 70—80 80—90 90—100 合 计 54 65 76 85 93 — 人数 /人 2 4 9 14 6 35

?X

j

? X? F
3
3

?X

j

? X? F
4
4

/分 -35152 -13500 -576 1750 13182 -34296

/分 913952 202500 2304 8750 171366 1298872

? 34296 SK ? ? ?0.88 10.36 3 ? 35

K?

1298872 ? 3.22 4 10.36 ? 35

Excel 应用

《统计学教程》
第4章 数据分布特征的度量
?

Excel 应用

数据分布特征的测度的计算

例4.29 甲、乙两地区2005年度每个月份降水天数的数据如下: 甲地区:5,8,9,10,12,15,9,9,8,6,5,4 乙地区:2,5,6, 9,12, 7,6,6,4,3,3,2 要求 (1)应用Excel的“分析工具库”中“描述统计”工具,计算 该甲、乙两地区2005年度每个月份降水天数的均值、中位数、众数、标 准差、偏态系数和峰度系数等测度。

(2)采用调用Excel工作表函数和自编公式的方法,按照本章中介绍的 公式和方法,计算(1)中的测度,以及离散系数和标准化值。

? 描述统计中的标准差 ? STDEV ? STDEVP

偏态系数(偏斜度) n ? xi ? x ? SK ? ?? s ? (n ? 1)( n ? 2) ? ?
2

峰度系数(峰值) n( n ? 1) 3?n ? 1? ? xi ? x ? K? ? ? s ? ? (n ? 2)(n ? 3) (n ? 1)( n ? 2)( n ? 3) ? ?
4 2

? 计算标准化值 ? STANDARDIZE(X,均值,标准差)

《统计学教程》
第4章 数据分布特征的度量

本章小结

? 本章从集中趋势、离散趋势和偏态、峰度三个方面介绍了度量数据分

布特征的主要测度。其中集中趋势的测度有众数、中位数、均值、调和 平均数、几何平均数;离散趋势的测度有异众比率、四分位差、取值范 围、平均差、方差、标准差、离散系数和标准化值;度量数据分布偏态 和峰度形态的测度有偏态系数和峰度系数。
本章的重点是均值、方差、标准差、离散系数、偏态系数和峰度系数 等度量数值型数据分布特征的重要测度的概念、计算和分析,以及众数、 中位数等测度在数值型数据中的应用。

本章的难点有在数据为组距分组时,运用插值公式计算众数、中位数, 使用组均值和组中值计算加权均值、方差的意义;离散系数、标准化值、 偏态系数和峰度系数分析等。

小结与练习

【习题】
? 1、应从哪几方面对数据分布特征进行度量? ? 集中趋势、离散程度、偏度和峰度 ? 2、度量数据分布集中趋势的测度主要有哪些?

众数、中位数、均值、调和平均数、几何平均 数、对数平均数。 ? 3、均值的计算方法、数学性质,及其在度量 数据分布特征中的地位。 ? 4、均值、调和平均数和几何平均数的比较。

习题
? 5、如何利用均值、众数和中位数的数值特征

分析数据分布的偏态? ? 6、度量数据分布离散趋势的测度主要有那些? 异众比率、四分位差、极差、平均差、平均偏 差、方差和标准差、离散系数、标准化值。 ? 7、为什么要计算离散系数? ? 8、标准化值的意义和用途? ? 9、偏态系数和峰度系数的意义?

[习题]
? 12、
G ? 10 1.03 ?1.04 ?1.04 ?1.05 ?1.05 ?1.06 ?1.06 ?1.07 ?1.08 ?1.09 平均收益率=G -1= G ?(1? 2? 2? 2?1?1?1) 1.03 ?1.042 ?1.052 ?1.062 ?1.07 ?1.08 ?1.09 平均收益率 ? G-1 ?

END

2012-03-23(ZhouwuShangwu)

2012-03-23(ZhouwuWanshang)


相关文档

更多相关文档

统计学基础第四章 统计指标
统计学原理(第4章)
统计学原理 第四章 统计指标
统计学第四章 概率基础
统计学原理作业二(第4章)
统计学基础(第四章)
4统计学 第四章 统计数据的初步描述
生物统计学 第四章 统计推断
统计学原理 第二章 统计数据收集
统计学原理 第五章 5-1-(5.1-5.4)
统计学原理第四章
统计学原理 第三章
统计学原理 第一章 第一章 绪论
电脑版