统计学原理 第三章


?第3章 数据整理和频数分布

? 3.1 数据的审核和筛选 ? 3.2 数据的分组 ? 3.3 数据的频数分布

? 3.4 绝对数
? 3.5 数据的展示

3.1 数据的审核和筛选
? 3.1.1 数据的审核 ? 3.1.2 数据的筛选 ? 3.1.3 数据的排序

? 3.1.1 数据的审核 ? 1.原始数据 ? 原始数据(Raw Data)是指数据搜集所取得到的,未

经过数据分组和汇总的,反映个体特征的零散数据。 ? 数据审核(Data Auditing)是指在进行数据整理之前 对原始数据的审查和核对。 ? 原始数据包含了所有由调查登记获取的个体信息的初 级数据,经过数据整理的数据反映的是总体的综合数 量特征和分布状态,原始数据所反映的个体数值特征 消失或湮没在总体的综合数量特征和分布状态数值之 中了。

? 数据整理是按照数据分析的要求进行的,数据

分析思路和目的决定着数据整理分类或分组。

? 2.数据审核的内容 ? 统计数据的时效性,准确性、一致性三个方面

的标准就是数据审核的基本内容。 ? (1)统计数据的时效性审核。检查是否在规 定的统计调查时间内完成数据搜集,采集的数 据是否为规定的调查时点上,或规定的调查时 段内的数量特征。 ? (2)统计数据的准确性审核。从数据的完整 性、真实性和精确性角度进行审核。

? 检查调查对象中每一个单位是否不重复、不遗

漏地包含在统计调查的实际登记资料之中,或 抽样调查的抽样框不重复、不遗漏地包含统计 调查对象所有调查单位。检查是否每一个调查 单位的特征都无偏差、无失真、准确无误地反 映在登记资料中,以及抽样调查的抽样误差是 否有效控制在规定的许可范围内。 ? (3)统计数据的一致性审核。检查统计数据 在时间和空间上的连续性和可比性。

? 3.数据审核的方式 ? 数据审核一般有逻辑检查和技术检查两种方

式。 ? (1)逻辑审核(Logistic Auditing)是按照数据 审核的内容,采用逻辑分析的方法,检查原始 数据中各项数据是否合理的数据审核方式。逻 辑检查要求检查人员具备较强逻辑推理能力, 以及丰富的专业知识和数据审核经验。

? (2)技术审核(Technical Auditing)是按照数

据审核的内容,通过对调查数据原始登记表, 和其它原始登记材料进行机械性核对,来实施 的数据审核方式。 ? 填报单位是否存在漏报和重报,调查项目是否 填齐,所填内容是否符合填报要求,填报数据 有无错行、错栏问题,计量单位是否正确,各 栏之间的合计数、乘积数与相关分项数据是否 相符等。

人口调查表逻辑审核要点
? 一、基本要点 ? 姓名:未起名的新生婴幼儿应填写“C”+母亲

姓名 ? 与户主关系:同一户调查表中,不应无户主, 也不应多于一个户主。多于一个成员的家庭户, 除户主外的其他成员最少应有一位为亲属;集 体户,除户主外的其他成员通常应为非亲属。 ? 性别:只能填“1”或“2”码。

? 出生日期:应填满填8位数字码;前4位年份码

应不大于2010,不小于1879;第5、6位月份 码为01~12的数字;第7、8位日期码为01~ 31的数字;月份码为02时,日期码应为不大于 29的数字。

? 公民身份证号码:应填18位数字码(个别情况

最后一位空填)。第7至14位码应与“出生日 期”项相同;“性别”项为男性时,第17位码 应为奇数,否则为偶数。 ? 户口性质:只能填“1”、“2”或“9”码。 ? 文化程度:注意年龄与文化程度的关系,一般 是小年龄不应有高学历。 ? 婚姻状况:属已婚、丧偶、离婚的,出生不应 晚于1989年6月。 ? 流动原因:只能填“1”、“2”或“9”码。

? 二、流出人口信息调查表 ? 户籍地(A0):只能填写本村(居)委名称。 ? 流出日期(A8):不得早于出生日期。

? 三、流入人口信息调查表
? 现居住地(B0):只能填写本村(居)委名称。 ? 流入日期(B9):不得早于出生日期。

? 3.1.2 数据的筛选 ? 数据筛选(Data Filter)是指对已有数据的有

意识的过滤和挑选,滤去不需要的数据,选出 所需要的数据。 ? 从广义上讲,数据审核也是一种数据筛选。这 里所讲的数据筛选是指按照数据分析的要求所 确定的挑选数据标准,通过对现有数据的逐一 比较,从中挑选出一组数据,构成一个数据集 合的过程。 ? 数据的筛选的Excel演示。

? 3.1.3 数据的排序 ? 数据排序是指将一组数据按照大小、高低、优劣等顺

序进行依次排列的过程。依据数据在经过排序之后的 有序序列中的位置确定的测度称为顺序统计量(Order Statistics)。

? (1) ? ? ( 2) ? ...? ( n )

? 数据排序为计算取值范围、最大值、最小值等

总体参数提供了便利,有助于人们了解数据大 致的分布状态,数据排序也是有效地进行数据 分类或分组的前期准备。 ? 数据的排序的Excel演示。

3.2 数据的分组
? 3.2.1数据分组的意义 ? 3.2.2非数值型数据的分组 ? 3.2.3数值型数据的分组

? 3.2.4组中值

? 3.2.1 数据分组的意义 ? 数据分组(Data Grouping)就是根据研究现

象的特点和数据分析的目的,将原始数据按照 总体单位的某一特征分为不同的组别。经过数 据分组之后形成的分布在各个组里的数据称为 分组数据(Grouped Data)。作为数据分组标 准的这一特征称为分组标志。

? 数据分组既可以视为是按照分组标志将原始数

据分别归入各个不同的组里,又可以看成是按 照分组标志部分具有相同特征原始数据合并在 同一组中。在数据分组过程中,强调和突出了 原始数据中作为分组标志这一特征,同时忽略 和隐去了原始数据中的其它特征。 ? 按照统计研究的要求,科学地选择分组标志是 有效进行统计认识活动的基本前提。 ? 数据分组包括非数值型数据分组和数值型数据 分组。

? 例如:在以地区作为分组标志对全国职工的工

资收入数据进行分组后,人们看到的是按全国 各个地区分组的职工工资水平,突出了工资收 入在地区之间的差异,而职工工资在从业部门、 工作岗位、教育水平、工作年限、不同性别等 方面的差异未能得到显示。

1.统计分组 2.统计分组的作用:
?划分社会经济现象的类型

?反映社会经济现象的内部结构和比例关系
?揭示社会经济现象之间的相互依存关系

统计分组两个含义: 对总体而言----“分” 对个体而言----“和”

分组前

25%
分 组 后 33% 42%

统计分组的种类
? (1)简单分组与复合分组

对研究对象按一个标志进行分组,就叫简单

分组。多个简单分组构成平行分组体系。

简单分组
标 志 男性 按性别分组 女性 国有企业 按企业性质分组 独资企业 其他企业 大型企业 按规模分组 中型企业 人数(人) 比重(%)

小型企业

(2)品质标志分组和数量标志分组 品质标志 分组



志 男性

人数(人)

比重(%)

按性别分组

女性
大型企业

按产值分组

中型企业 小型企业

数量标志 分组

统计分组的程序与原则

选择分 组标志

确定分 组体系

划定组 间界限

科学性:
组间差异 大,组内 差异小。

完备性和互斥性: 每个单位均能且只 能归到某个组中。

选择分组标志
? 选择分组标志时,一般应考虑原则: ? (1)根据研究问题的目的和任务选择分组标

志; ? (2)在若干标志中,要抓住具有本质性的或 主要的标志作为分组的依据; ? (3)要考虑到现象所处的具体历史条件或经 济条件进行分析。

确定分组体系

分组体系

指同时使用两个以上标志分 组时,分组标志的组合形式。 各分组标志并列使用

平行分组体系

各分组标志交叉结合使用 交叉分组体系

平行分组体系

按性别分类
对教师 的分类

男性 女性

高级 共计7组 按职称分类 中级 2+3+2 初级 按年龄分类
青年

中年

交叉分组体系

按性别 分类
对教师 的分类

共计12组 男 2×3×2


按职称 分类 按年龄 分类

高级
中级 初级

青年 中年

?
? ? ?

男 生 本科学生组 女 生 理科学生组

?
? ? ?

男 生
专科学生组 女 生 高校学生

? ? ? ?

男 生 本科学生组 女 生 文科学生组

?
? ? ?

男 生
专科学生组 女 生

分布数列

将总体各单位按某个标志分成若干 组,列出各组的总体单位数或各组 在总体中所占的比重而形成的数列 分组标志的具体表现 各组的次数或频数 比率或频率
单项数列

构成要素

分 类

品质数列
变量数列 组距数列 等距数列

异距数列

变量数列的编制
单项数列

指每个组值只用一个具体的 变量值表现的数列
同时 具备

编制条件:

变量是离散变量 变量的不同取值个数较少

【例】己知某车间有24名工人,他们的日产量(件) 分别是:20,23,20,24,23,21,22,25,26,20, 21,21,22,22,23,22,22,24,25,21,22,21, 24,23.要求根据以上资料编制变量数列。

编制结果如下:
日产量(件)X 20 21 22 23 24 25 26 合计 工人数(人) f 3 5 6 4 3 2 1 24

变量数列的编制

指每个组的变量值用一个区 组距数列 间来表现的变量数列
编制条件:

变量是连续变量; 或:总体单位数较多,变量不同 取值个数也较多的离散变量。
等距数列 变量值变动区间的长度相等

异距数列 变量值变动区间的长度不完全相等

相关概念 指每组两端表示各组界限的变量值,各组 的最小值为下限,最大值为上限 每组变量值变动区间的长度,为上下限 之差

组限

组距

组中值

每组变量取值范围的中点数值
组中值=

上限 下限 ? 2

某地区100个百货商店 月销售额与流通费用情况
销售额(万元)
商店数 (个)

上组限U 50以下
50~100 100~200 200~300 300以上

如:组距d=U-L 10 14.2 =100-50=50(万元) 20 11.4
30 25 15 10.1 9.2 8.5

每百元商品销售额中 支付的流通费(元)

下组限L

如:组中值x=(U+L)/2 =(100+200)/2 =150(万元)

组限的表示方法
?对于离散变量,相邻组限可间断,也可重叠; ?对于连续变量,相邻组组限必须重叠; ?符合“上组限不计入”原则; ?首末两组可使用“××以下”及“××以上”

的开口组。

开口式组距数列组中值的计算:
先计算开口组的假定上、下限: 首组假定下限=首组上限-相邻组组距 末组假定上限=末组下限+相邻组组距

因此有:
首组 ? 首组上限 ? 首组假定下限 ? 首组 ? 相邻组组距 组中值 2 2 上限 末组 ? 末组下限 ? 末组假定上限 ? 末组 ? 相邻组组距 组中值 2 2 下限

? 数据分组包括非数值型数据分组和数值型数据

分组

? 3.2.2 非数值型数据的分组 ? 非数值型数据的分组也称为分类。定类数据和

定序数据都是对事物质的属性的描述,两者都 是一种分类性质的数据,只在分类划分的无序 和有序上存在差别。 ? 反映事物自然属性的非数值型数据的分组一般 比较简单,只要进行适当的细分或合并,以及 选择恰当的分组标志即可。

? 货物:农产品、工业品 ? 农产品:种植业产品、林业产品、渔业产品、

畜牧业产品 ? 种植业产品:水稻、小麦、玉米、棉花 ? 食品:无公害食品、绿色食品、有机食品、其 他食品

? 反映事物社会经济属性的非数值型数据的分组

一般比较复杂,往往是人们对事物数量特征进 行深入地统计分析之后形成的一种质的划分, 这种质的划分体现了人们认识活动对于事物由 量变到质变的把握,一般采用国家标准、行业 标准或者企业标准等标准化的形式确定下来, 并借助统计报表和统计调查方案等方式加以明 确,以此来规范和指导后续的统计活动。

? 【课后作业】: ? 搜集有关无公害食品、绿色食品、有机食品相

关知识,加深对食品安全的认识

BDC

? 产品等级:一等品、二等品、三等品 ? 产品等级:优质品、合格品 ? 产品质量检测标准

? 【课后作业】 ? 自己搜集资料,了解某一产品质量标准

? 在我国现行统计制度中,将城镇家庭分成收入

水平由低到高的七组,即最低收入户、低收入 户、中等偏下收入户、中等收入户、中等偏上 收入户、高收入户、最高收入户,属于定序数 据的分组。这七组的划分是将所有调查户依户 人均可支配收入由低到高排序,然后按照10%, 10%,20%,20%,20%,10%,10%的频数 比例依次分组,最后构成了我国城镇家庭分成 收入水平由低到高不同收入阶层的定性分组。

表3.1 2003年我国城镇居民家庭基本情况



最低 低收 中等 中等 收入户 入户 偏下户 收入户 平均每人全部年收入 2762.43 4209.16 5705.67 7753.86 平均每人可支配收入 2590.17 3970.03 5377.25 7278.75 平均每人消费性支出 2562.36 3549.28 4557.82 5848.02 项 目

中等 高收 最高 偏上户 入户 收入户 10463.66 14076.07 23483.95 9763.37 13123.08 21837.32 7547.31 9627.58 14515.68

资料来源:2004中国统计年鉴. 北京. 中国统计出版社 2004

? 人口年龄段: ? 00——14少年儿童人口数 ? 15——64劳动年龄人口数

? 65——老年人口数
?

? 老年抚养比是指人口中非劳动年龄人口数中老

年部分对劳动年龄人口数之比,用以表明每 100名劳动年龄人口要负担多少名老年人。老 年人口抚养比是从经济角度反映人口老化社会 后果的指标之一。也称为老龄人口抚养系数, 简称老年系数 。英文为 old-age dependency rate, 简写做ODC.

? 少年儿童抚养比 ? 也称少年儿童抚养系数。指某一人口中少年儿

童人口数与劳动年龄人口数之比。通常用百分 比表示。以反映每100名劳动年龄人口要负担 多少名少年儿童。

? 计算公式为: ? CDR=(A/B)×100% ? 其中:CDR为少年儿童抚养比;

? A为0~14岁少年儿童人口数;
? B为l5~64岁劳动年龄人口数。

? 复杂的非数值型数据分组大多建立在对隐含的

数值型数据进行科学分组的基础之上,由数量 界限的先行确定到定序或定类数据分组的产生, 反映了统计认识过程由量的分析到质的确定的 鲜明特征。因而,数值型数据分组构成了统计 分组研究的主要内容。

2012-03-09(Zhouwuwan)

3.2.3 数值型数据的分组
? 1.组距分组 ? (1)组距分组是数值型数据分组的基本形式。

数值型数据分组可以分为单变量分组和组距分 组。 ? 单变量分组是指每个分组只用一个变量值表示 的分组形式,又称为单项分组。单变量分组一 般在分组标志为离散变量,且变量的取值范围 不是太大的情况下使用。

? 组距分组是指每个分组用一个数据取值区间表

示的分组形式。组距分组适用于按连续变量分 组或变量的取值范围较大的离散变量的场合。 ? (2)组限。在组距分组中,各组之间的取值 界限称为组限,一般用L表示。其中大者为该 组数值变量可能取的最大数值,称之为上限 (Upper Limit)。小者为该组数值变量可能取 的最小数值,称之为下限(Low Limit)。 ? 在一个组距分组中,既有上限又有下限的组称 为闭口组,否则称为开口组。

? (3)组距。组距分组中,同一分组的上限与

下限之间的绝对距离称为组距(Class Width), 用d表示。一般有,组距=上限-下限。

? 2.等距分组 ? 组距分组有等距分组和异距分组之分。等距分

组是各组组距全都相等的组距分组,等距分组 中各组单位数的多少不会受到组距大小的影响, 便于直接比较各组次数的多少,研究次数分布 的特征。因此,等距分组是组距分组的基本方 法。

? 等距分组的具体步骤如下。 ? (1)计算取值范围(Value Area)。 ? (2)确定组数(经验公式)。

? (3)计算组距。
? (4)确定组限。 ? (5)将原始数据按照各自数值大小分配到各

组中。

(1)计算取值范围。 取值范围(Value Area)为全体数据中最大数值与最小数值之差, 反映了该组数值变量取值的变动幅度,一般用R表示,有

R ? Max?X ?? Min?X ?
(2)确定组数。 在进行数值型数据分组时,有一个计算组数的经验公式,即

(3.1)

H ? 1?

lg N lg 2

(3.2)

? 例如:数据的总数N为80时,采用经验公式计

算出组数为H=7,可考虑将该组数据分为7组。 ? 确定组数的目的是为了使数据恰当地分布在各 组中,数据过于集中和过于分散都有碍于对数 据分布特征的展示,不利于后续的分析研究。 ? 组距的确定还要根据实际情况,因地制宜地加 以确定。例如,在考试成绩的分析中,人们习 惯将其分为优、良、中、及格和不及格5组, 不论数据个数多少,分成这样5组较为适宜。

? (3)计算组距。 ? 由于取值范围是客观存在的,当组数确定之后,

组距也就随之确定了,两者之间成反比例关系。 设H为组数,d为组距,即有组距d=R/H 。为 了便于数据分组和组限的划定,组距一般取5, 10的整数倍。

? (4)确定组限。 ? 确定组限就是具体规定各组中变量可能取值

的上限和下限。确定组限的原则是“不重不 漏”,使每一数据都能够被分配到其中一组里, 并且只能分配到其中一组里。组限的具体形公 式有间断组限和重合组限,闭口组限和开口组 限。

? 间断组限是每一组的组限与邻组的组限都是间

断设置的。一般适用于离散变量数据的分组。 ? 年龄: ? 0——4 ? 5——9 ? 10——14

? 重合组限是每一组的组限与邻组的组限都是相

互重叠设置的。 ? 年龄: ? 0——5 ? 5——10 ? 10——15

? 在采用重合组限场合,为了贯彻“不重不漏”

原则,一般采用“下限在内,上限不在内”统 计惯例的处理方式。 ? 重合组限既适用于离散变量数据的分组,也适 用于连续变量数据分组,在各种场合能够适应 各种数据分组的需要,同时有利于组中值的计 算,所以重合组限在数据分组中得到了广泛的 应用。

? 闭口组限是既有上限又有下限的组限设置。由

闭口组限设置形成的数据分组称为闭口组。 ? 开口组限是缺少上限或者缺少下限的组限设 置。由开口组限设置形成的数据分组称为开口 组。

? (5)将原始数据按照各自数值大小分配到各

组中。 ? 组限确定之后,就可以将原始数据按照各自数 值大小分配到各组中。 ? 一般先按照分组标志对原始数据进行排序,然 后根据各组的组限水平,将经过排序之后的有 序数据进行分段,归入到各个组中。

? 在采用Excel等数据处理软件时,可以直接运

用有关数据筛选功能,完成数据的分组。

? 3.异距分组 ? 异距分组是各组组距不尽相等的组距分组。当

采用等距方式进行分组时,各组之间数据的数 量差距过大,一些分组中的数据过多或过少, 影响到对数据分布状态的观察和分析,可采取 缩小组距或扩大组距的方法,来拆分数据过多 的分组或合并数据过少的分组,这样形成的各 组组距不尽相等的组距分组就是异距分组。

? 3.2.4 组中值 ? 组中值(Class Midpoint)是指组距分组中处在各组取

值范围中点位置上的数值。 ? 组中值是一个代表性的数值,用来代表该组数据取值 的一般水平。 ? 在缺乏原始数据,仅拥有已经过分组整理后的数据情 况下,只能采用组中值取代组平均数,作为一个代表 性的数值,进行各种数据分析。 ? 组中值作为代表性数值所隐含的假定前提是该组数据 呈均匀分布,或者对称分布。在该组数据明显偏离均 匀分布,或者对称分布时,使用组中值作为该组数据 取值代表性数值存在着较大偏误。

2012-03-09(Zhouwushangwu)

? (1)重合组限分组的组中值计算。 ? 在采用重合组限设置的组距分组中,组中值为

本组的上限与本组下限之和除以2。有 ? 组中值= ? (上限+下限)/2 (3.3)

重合组限
表3.2 2003年我国按年龄和性别分人口数及组中值

年龄 /岁 0- 5 5-10 10-15 ?? 85-90 90-95 95+ 总计

组中值 /岁 2.5 7.5 12.5 ?? 87.5 92.5 97.5 —

人口数 /人 女 28468 36934 53021 男 34509 44193 59219 合计 62977 81127 112240

?? ?? ?? 2357 1330 3687 703 323 1026 134 63 197 617098 643400 1260498

? (2)间断组限分组的组中值计算。 ? 在采用间断组限设置的组距分组中,计算组

中值需要将以上一组的下限与本组的下限之和 除以2。即有 ?组中值=(上组下限+本组下限 )/2 (3.4)

间断组限
表3.3 2003年我国按年龄和性别分人口数及组中值

年龄 /岁 0- 4 5-9 10-14 …… 85-89 90-94 95+ 总计

组中值 /岁 2.5 7.5 12.5 ?? 87.5 92.5 97.5 —

人口数 /人 女 28468 36934 53021 ?? 2357 703 134 男 34509 44193 59219 ?? 1330 323 63 合计 62977 81127 112240 ?? 3687 1026 197

617098 643400 1260498

? (3)开口组组中值的计算 ? 计算开口组组中值,需先确定其缺少的下限或

上限。一般以邻组组距近似地作为本组的组距, 来确定其下限或上限,进而计算出开口组组中 值。开口组组中值的计算仍然要区分重合组限 设置间断组限设置两种情况。

? 重合组限设置开口组组中值的计算 ? 缺少下限组的组中值=该组上限-邻组组距/2 ? 缺少上限组的组中值=该组下限+邻组组距/2

(3.5)

? 间断组限设置开口组组种值的计算 ? 缺少下限组的组中值=邻组下限-邻组组距/2 ? 缺少上限组的组中值=该组下限+邻组组距/2

(3.6)

重合组限
表3.4 2003年我国按年龄和性别分人口数及组中值

年龄 /岁 0- 5 5-10 10-15 ?? 85-90 90-95 95+ 总计

组中值 /岁 2.5 7.5 12.5 ?? 87.5 92.5 97.5 —

人口数 /人 女 28468 36934 53021 男 34509 44193 59219 合计 62977 81127 112240

?? ?? ?? 2357 1330 3687 703 323 1026 134 63 197 617098 643400 1260498

3.3 数据的频数分布
? 3.3.1 频数与频数分布 ? 频数与频数分布是在数据分组基础形成的概念。

频数与频数分布总是在具体的分组设置前提下 的对总体数据分布特征的描述。 ? 频数(Frequence)是落在某一特定分组中的 数据个数,也称为次数。频数有两点要素,一 是具体的数据分组,一是落在该组中的数据个 数。

? 频数分布(Frequence Distribution)是由各组

的频数组成的一个数组。一般需要用统计图或 统计表的形式将频数分布展示出来,以便更加 直观和全面地了解和把握总体的频数分布特征。 ? 比例(Proportion)各组数据个数(频数)占 数据总数(各组频数之和)的比重,为频数的 相对形式,又称为频率,一般用百分数表示。 显然有,各组比例之和等于100%。

表3.5 2001-2003年我国按性别分人口数及构成

年份 2001 2002 2003

年底总人口 /万人 127627 128453 129227

人口数 /万人 男 女 65672 61955 66115 62338 66556 62671

比重 /% 男 51.46 51.47 51.50 女 48.54 48.53 48.50

本表各年人口未包括香港、澳门特别行政区和台湾省的人口数据。 资料来源:2004中国统计年鉴. 北京. 中国统计出版社 2004

? 【课后作业】 ? 把表3.5的数据更新

统计分组

表3.5 2001-2003年我国按性别分人口数及构成

年份 2001 2002 2003

年底总人口 /万人 127627 128453 129227

人口数 /万人 男 女 65672 61955 66115 62338 66556 62671

比重 /% 男 51.46 51.47 51.50 女 48.54 48.53 48.50

本表各年人口未包括香港、澳门特别行政区和台湾省的人口数据。 资料来源:2004中国统计年鉴. 北京. 中国统计出版社 2004
分配在各组的单位数及其相对形式

? 3.3.2 累积频数 ? 累积频数(Cumulative Frequence)按照各

组数据取值范围高低的次序,逐组依次累加得 到的一组频数。累积频数表明了在某一数值水 平以上,或以下总共包含的数据个数。

? 依据逐组累加次序是从最低的数据取值范围组

依次向较高组进行,还是从最高的数据取值组 依次向较低组进行,可以将累积频数分为向下 累积和向上累积。从最高的数据取值组开始, 依次向较低组进行累加所形成的累积频数称为 向下累积频数,表明了各组下限以上的数据个 数之和;从最低的数据取值组开始,依次向较 高组进行累加所形成的累积频数称为向上累积 频数,表明了各组上限以下总共包含的数据个 数。

? 同样,可以用数据总的个数分别去除各组的累

积频数,得到各组累积频数的相对数值,以相 对的形式来描述累积频数。

? 3.3.3 异距分组与标准组距频数 ? 由于异距分组中各组组距不尽相等,各组频数

之间不具有直接的可比性,不能直接用来描述 数据的分布特征,需要进行标准化处理。

? 一般可以用某一组组距作为标准组距,将各组

不等组距频数,换算为统一的,以标准组距为 组距条件下的,标准化了的标准组距频数。即 ? 组距标准化系数=标准组距/该组组距 ? 标准组距频数=该组频数× ? =该组频数×组距标准化系数

? 还可以通过计算频数密度,来进行异距分组的

标准化,即 ? 频数密度=该组频数/该组组距 ? 显然,所谓频数密度是单位组距作为标准组距, 即标准组距为1的情况下的标准组距频数。

《统计学教程》
第3章 数据整理和频数分布

3.3 数据的频数分布
校正后的数据

某班35名学生的统计考试成绩 考 分 组 距 人 数 结构 频数密度 (分) (分) (人) (%) (%) 50—70 20 6 17.143 0.3 70—80 10 9 25.714 0.9 80—90 10 14 40.000 1.4 90—100 10 6 17.143 0.6 合计 — 35 100.000 3.2 (次数)(频率) 结构 标准组距频数 结构 (%) (人) (%) 9.375 3 9.375 28.125 9 28.125 43.750 14 43.750 18.750 6 18.750 100.000 32 100.000
标准组组距为 10分
6 *10 / 20 ? 3

标准组组距为 分 1

6 / 20 ? 0.3

9 / 10 ? 0.9

9 *10 / 10 ? 9

? Excel 应用

统计分组的要点和基本概念: 非数值型数据分组 统计分组 数值型数据分组 单变量分组 等距分组

组距分组
异距分组

基本概念:R、d、H、组中值; 间断组距、重合组距、开口组、闭口组、标准组距; 频数、频数分布、频率、累积频数、累积频率。

3.4 绝对数

? 3.4.1 绝对数的概念 ? 绝对数(Absolute Data)【总量指标】【绝

对指标】是反映总体绝对规模和绝对水平的测 度,是通过数据汇总直接得到的测度。绝对数 数值的大小与界定的总体的范围有直接的联系, 两者呈同方向变化。 ? 数据整理的结果就是产生总体及其各分组的绝 对数。就数值型数据而言,数据整理的成果表 现为两个方面,一方面是数据个数的频数,反 映数据分布状态和数据值的总规模;另一方面 是数据值的总值,反映数据值的总水平。

? 由数据整理形成绝对数是基础数据,其它数据

都是在绝对数基础上衍生出来的派生数据。 ? 在经济管理中,绝对数是反映现象在一定时间、 地点、条件下的总规模和总水平的综合数据, 有着特别重要的地位。一个国家、地区或单位 的基本情况通常要通过绝对数来反映。

? 国内生产总值、总人口数、国土面积、主要工

业产品产量等都是反映一国国情和国力的基本 数据,绝对数是制定国民经济政策、编制计划 进行企业经营管理的重要依据。

? 综合国力(National Power)是衡量一个国家

基本国情和基本资源最重要的指标, 也是衡量 一个国家的经济、政治、军事、技术实力的综 合性指标。

? 【课后作业】 ? 搜集综合国力相关资料

? 3.4.2 绝对数的种类 ? 1.总值【总体标志总量】和频数【总体单位

总量】。 ? 总值(Total Value)为总体内某一数字变量所 有数据的取值之和。总值是说明总体某一数量 特征总水平的数据。【GDP】 ? 频数为总体内所有数据个数之和。频数是说明 总体分布状态及其规模大小的数据。【总人口】

? 2.时期数据和时点数据 ? 时期数据(Period Data)是反映事物及其现象

在某一指定时间区段内的发展过程中的累计总 量的数据。如:总产量、投资总额、企业的利 税总额等。 ? 时点数据(Point Data)是反映事物及其现象 在某一指定瞬间状态下的具体水平的数据,如 耕地面积数、企业总数、商品库存额等。

? 三点区别: ? ㈠ 时期数据体现的时间概念是一个时间区间,

时点数据的时间概念是一个瞬间时点; ? ㈡ 时期数据具有累加性,时点数据不具有累加 性; ? ㈢时期数据的数值大小与时间长短直接相关, 其数值大小直接受现象活动时间长短的制约; 而时点数据与时间间隔长短没有直接的关系。

? 3.截面数据和时间序列数据。 ? 截面数据(Cross-Sectional Data)在相同的

时期内或相同的时点上搜集的数据,反映同一 时间上的变量在不同空间上的差异。例如,同 一年份不同国家和地区国内生产总值数据,或 者全国各个省市自治区的国内生产总值数据等。 ? 时间序列数据(Time-Sectional Data)在同一 空间上,不同的时期或不同的时点的数据,反 映变量在不同时间上的变动。例如,我国各年 国内生产总值数据,人口数据等。

《统计学教程》
第3章 数据整理和频数分布

3.4 绝对数
亿元
合 计 97314.8 105172.3 117251.9

表3.6 2001-2003年我国国内生产总值
年份 2001 2002 2003 第一产业 15411.8 16117.3 17092.1 第二产业 48750 52980.2 61274.1 第三产业 33153 36074.8 38885.7

本表按当年价格计算。 资料来源:2004中国统计年鉴. 北京. 中国统计出版社 2004

? 面板数据(Panel Data),是截面数据与时间序

列数据 综合起来的一种数据类型。其有时 间序列和截面两个维度,当这类数据按两个维 度排列时,是排在一个平面上,与只有一个维 度的数据排在一条线上有着明显的不同,整个 表格像是一个面板,所以把panel data译作“面 板数据 ”。但是,如果从其内在含义上讲 ,把 panel data译为“时间序列—截面数据” 更能 揭示这类数据的本质上的特点。也有译作“平 行 数 据 ” 或 “ TS-CS 数 据 ( Time Series Cross Section)”。

? 如:某一年,北京、上海、重庆、天津的

GDP分别为10、11、9、8 ? (单位亿元)。这就是截面数据,在一个时 间点处切开,看各个城市的不同就是截面数 据。 ? 如:2000、2001、2002、2003、2004各 年的北京市GDP分别为8、9、10、11、12 (单位亿元)。这就是时间序列,选一个城 市,看各个样本时间点的不同就是时间序列。

? 如:2000、2001、2002、2003、2004各

年中国所有直辖市的GDP分别为: ? 北京市分别为8、9、10、11、12; ? 上海市分别为9、10、11、12、13; ? 天津市分别为5、6、7、8、9; ? 重庆市分别为7、8、9、10、11(单位亿 元)。 ? 这就是面板数据。

? 3.4.3 绝对数的计量单位【量纲】 ? 绝对数是反映总体绝对规模和绝对水平的数据,

都具有具体计量单位。例如,人口用人、万人, 长度用厘米、米、千米,重量用克、千克、吨 等。

? 计量单位是绝对数数值的尺度,数量的度量工

具。计量单位和绝对数数值是绝对数的缺一不 可的两个组成要素,两者有机结合在一起,共 同反映总体绝对规模和绝对水平。计量单位又 称为量纲。

? 绝对数的计量单位都为有名数,可分为实物单

位、货币单位及时间单位三种。据此,绝对数 也可相应分为实物量数据、价值量数据和劳动 量数据。 ? 关于倍数

2012-03-14(Zhousanshangwu)

? 无名数和有名数(也称复合名数)。 ? (1)无名数: %、‰、倍数(分子值超过分母值)、

成数(将分母抽象化为10) ? (2)有名数(复合名数):由分子、分母的计量单位 复合而成的。 ? 全员劳动生产率:万元/人表示; ? 人口密度:人/平方公里表示; ? 手机(电话、私人汽车等)的普及程度:台/百户 (部/百户、辆/万户)等

? 多重单位: ? 电功公式: ? Q=U^2/R*t =UIt =I^2*R*t

? 比热容(specific heat capacity)又称比热容量,

简称比热(specific heat),是单位质量物质的 热容量,即使单位质量物体改变单位温度时的 吸收或释放的内能。比热容是表示物质热性质 的物理量。通常用符号c表示。比热的单位是 复合单位。 ? 在国际单位制中,能量、功、热量的主单位统 一为焦耳,温度的主单位是开尔文,因此比热 容的主单位为J/(kg· K),读作“焦[耳]每千克 开[尔文]”

? 1、实物单位。 ? 实物单位(Goods Unit)实物单位是指根据现

象的自然或物理属性而规定的计量单位。也称 为使用价值量单位。具体有自然单位,例如总 人口数按“人”;度量衡单位,例如煤产量以 “吨”或“标准吨”;以及双重单位、多重单 位和复合单位,例如货运量以“吨公里”等。

? 采用实物单位为计量单位的绝对数称为实物量

数据,也称为使用价值量数据。 ? 实物数据的特点是能够直接地反映事物的具体 内容,但综合能力差。不同的实物具有不同的 使用价值;不同的使用价值无法直接汇总,从 而不能全面和概括地反映复杂总体的总规模或 总水平。

? 2、货币单位。 ? 货币单位(Monetary Unit)是指以货币作为价

值尺度对社会财富和劳动成果进行计算的计量 单位。货币单位又称为价值量单位。如国内生 产总值、总成本、销售总额等。 ? 采用货币单位为计量单位的绝对数称为货币量 数据,也称为价值量数据。

? 与实物量数据相反,价值量数据的突出特点就

是它隐去了现象的具体物质内容,具有很强的 综合能力。在实际使用时要充分注意它的这个 特点,尤其要防止使用不当混淆事物的本质特 征。

? 3、时间单位 ? 时间单位(Time Unit)一般用劳动时间的长短

来度量,一般以复合单位的形式出现。如工时、 工日等。 ? 工时:[work hours; hours of labour] 一小时所 做正常工作量的劳动计量单位。工人工作一小 时为一个工时,是工业上计算工人劳动量的时 间单位。主要应用于劳动经济学领域。

? 工日:按照我国劳动法的规定,一个工作日的

工作时间为8小时,简称“工日”。 ? 工程计量的时统计人工费的一个依据,比如修 一间房子,有5个工人,每天如此,修了一个 星期7天,那么总工日就是35个(5人*7天), 一天的工日就是5个(1天*5人)。

2012-03-12(ZhouyiShangwu)

3.5 数据的展示

统计表的形式与构成
? 一、统计表的一般形式 ?

统计表一般为开栏式表格。左右两侧不封口,上 下两端画粗实线,除标题行与合计行以细实线区分外, 行与行之间一般不画线(复合分组时可以画线),表内 各栏目之间用实线隔开,表体为比例协调的长方形 [10:7]。

统计表一般由表头、表体【行标题、列标题、数据】 、表脚【附注】三个部分构成。

例:
表头
2006年我国土地状况
计量单位:万公顷 按用途特征分类 耕地 森林 内陆水域面积 草地 #可利用草地 其他 合计 资料来源:中国统计年鉴 面积 13004 17491 1747 40000 31333 23758 96000 比重(%) 13. 54 18.22 1.82 41.67 32.64 24.75 10000

表体

表脚

统计表的结构
? 【表头】表号

标题(包括何时、何地、何事) 总 标 目(单位) 纵标目 ××. ×× ×. ×× ┋ ┋ ××. ×× 纵标目 ××. ×× ×. ×× ┋ ┋ ××. ××

横标目的 总标目 横标目 ┋ ┋ ┋ 合 计

总标目 纵标目 ××× ×× ┋ ┋ ××× 纵标目 ××× ×× ┋ ┋ ×××

备注: (数据来源,一些标注)

从统计表的内容来看,由主词和宾词两个部分组成。主词 是统计表所说明的总体,总体的各组或各组的名称。宾词是用 于说明主词的各种指标。 ? 某地区1999年工业总产值按轻重工业分组表
?

工业总产值

项目

产值(亿元) 3059.7 3105.7 6264.4

比重(%) 68.84 51.16 100.00

纵栏 标题

横 行 标 题

轻工业 重工业 合计

指标 数值

主词

宾词

统计表的种类
? 一、空表和实表 ? 1、空表:是指没有填写指标数值的统计表。 ? 2、实表:是指已经填写指标数值的统计表。

统计表的分类
? 按其用途不同,统计表可分为调查表、整理表

(又称汇总表)和分析表。
?

附表2-4

地下水饮用水水源地水质状况调查表

浓度:mg/L

水源地名称:

水源地编码:

一般化学指标

毒理学指标

细菌学

放射性指标

代 码

名 称

浓 度

代 名 码 称

浓 度

代 名 码 称

浓 度

代 码

名 称

浓 度

(河流基本情况普查)汇总表目录
汇总表目录
序号 1 2 3 4 表号 H101表 H102表 H103表 H104表 普查表名称 河流汇总表 水文站和水位站情况汇总表 实测和调查最大洪水情况汇总 表 湖泊汇总表

? H101表 ? 问卷调查与汇总表

? 分析表 ? 一般情况下,分析表主要是指对被审计单位财

务信息执行分析程序的记录。例如,记录对被 审计单位本年各月收入与上一年度的同期数据 进行比较的情况,记录对差异的分析等。

时间序列表

将变量所取值按时 间顺序排列

序列表
地域序列

统计表 类型
定性分布

将变量所取值按 地域排列

按性质分类

分类表
频数分布 按数值分类

《统计学教程》
第3章 数据整理和频数分布

3.5 数据的展示

按其表述的内容不同, 统计表可分为时间分组表、空间分组表和时 空分组结合表。

统计表的种类
主词未经过任何分组,反映出总体各单位的名称或 按时间顺序简单排列,或同时反映以上内容的统计 表。分时间分组表、空间分组表和特征分组表。 主词按照一定标志分组的统计表,也称简单分组表。 主词按照两个或两个以上的标志层叠分组所形成的 统计表。分为平等分组表、复合分组表和不规则分 组表。

简单表

分组表 复合表

简单表、分组表、复合表

1、简单表(我国三个城市的人口数(1990年7月1日0时)

城 市

人口数(人)

较1982年7月1日 0时增长% 17.21 13.15 12.50

北京市 天津市 上海市

10819407 8785402 13341896

简单分组表【单标志分组表】:只按一个特征或标志分组。

表2-8 某医院用良种疗法矫治假性近视的近期有效率
矫治方法 观察人数 近期有效人数 近期有效率%

新医疗法
眼保健操

32
32

16
9

50.0
28.1

简单分组表 我国某年国内生产总值
按三次产业分 国内生产总值 (亿元) 14883 52982 34522 102398 比上年增长率(%)

第一产业 第二产业 第三产业 合 计

2.9 9.9 7.3 8.0

复合表【多标志分组表】:按两个或两个以上特征或标志结合 起来分组。

表2-9 某省某工厂 1994、1998年四项检测指标异常检出率
检测指 1994年 标 受检人数 异常人数 55 血压 519 44 心率 519 TTT? 519 36 GPT? 519 20 检出率(%) 10.16 0.48 6.94 3.85 1998年 受检人数 582 582 582 582 异常人数 38 39 23 16 检出率(%) 6.52 6.70 3.95 2.75

?:TTT(麝香草酚浊度试验), ?:GPT(谷丙转氨酶)。 (丁建生等. 中国卫生统计 1999; 16(3):166 )

复合表 某年末某地区人口资料
按城乡及性别 人口数(万人) 分组 城镇人口 男性人口 女性人口 增长率(%) (与上年比)

农村人口 男性人口 女性人口
合 计

按月工资分 组 300以下 300~400 400~500 500~600 600~700 700以上

按性别分(人) 小计 4 16 22 15 10 5 男 1 6 10 11 8 4 女 3 10 12 4 2 1

按级别分 小计 4 16 22 15 10 5 技工 0 2 4 5 8 5 学徒工 4 14 18 10 2 0

合计

72

40

32

72

24

48

对宾词栏的简单分组

按月工资 分组

按级别分(人) 总 计 技工 小计 男 女 学徒工 小计 男 女

对宾词栏的交叉分组

? 3.统计表的绘制

原则:科学、实用、简练、美观 ? (1)统计表的表头 ? 应用较少的文字准确地概括出统计表的基本内 容,必须满足时间、地点、和什么数据的3W 要求。一般来说,根据具体情况和实际需要, 统计表的表头还包括表号、制表时间、计量单 位等内容。
?

? (2)统计表的标题 ? 统计表的行标题和列标题分别位于统计表的第

一行和第一列,所表示的内容包括所研究问题 的类别、分组标志、变量名称和数据所属的空 间或时间。

? (3)统计表的表式 ? 统计表一般是两端开口式,表的 左右两边不封

口。统计表是由纵横直线垂直交叉而组成的长 方形表格,表的上下两端的横线应以粗线绘制, 其他线段均用细线。各列间用细线分开,除行 标题和总计栏外,其他各行之间一般不需要再 用线条分隔。

? (4)统计表的计量单位 ? 统计表上应标明数据的计量单位。如果表中所

有数据属同一计量单位,可将计量单位标在表 的右上方;否则,应在行标题或列标题分别标 明,或专门列出一行或一列加以分别标明。
?

? (5)统计表的填表要求 ? 统计表中数字应填写整齐,对准位数。一般是

右对齐,对于小数应按小数点对齐,且小数点 的位数应统一。当数字为0或小可略而不计时, 要写上0,不得留空;当缺少某项资料时,用 “?”表示;不应有数字时用符号“—”表示; 上、下、左、右数字相同,必须如实写出,不 得用“同上”、“同左”或“?”等符号。 ? 一般统计表内要列出合计数,方便核对和使用。

? (6)统计表的的注释 ? 统计表的下端加注说明或注解,包括统计资料

来源以及调查方法等。

? 如果统计表中指标有一定的计算关系,可以用

算式表示。如果栏目较多,可以加以编号:一 般主词的计量单位栏用(甲)、(乙)、(丙)…… 等次序编号,宾词各栏用(1)、(2)、 (3)………等次序编号。

职工人数 企 业 (人) 数 男 女 计
(甲) 1 2 3 4

工 五年以下 男
5

龄 五至十年 计
7

十年以上 计
10


6


8


9


11


12


13

(乙)

某集团总公司下属单位2005年9月销售情况如下
单位
一公司 二公司 甲 三公司

工人 数
320 470 580

销售额 完成销 单位 (万元) 售%
250 360 410 90 102 95 丙 一公司 二公司 三公司

工人数
80 100 130

完成销 (万元) 售% 销售额
70 90 100 103 101 99

四公司
五公司 一公司

760
840 800

980
720 980

125
105 106 丁

四公司
一公司 二公司

180
620 910

130
650 1000

100
100 104

二公司
乙 三公司 四公司 五公司

820
1450 1260 1780

720
5420 1440 1990

93
110 115 118

三公司
四公司 合计

1100
1300 13500

1250
1500 18060

105
120

根据上述资料:1、按计划完成程度分组整理出一个统计 表;2、按企业的工人数分组表明企业人数与工人劳动生 产率之间的关系。

按计划完成程度分组 销售额 (万元) 1850 5100 4490 2060 13500 1480 5250 8850 2480 18060

计划完成程度%

企业数(个) 工人数

90——100 100——110 110——120 120以上 合计

4 9 3 2 18

? 通过按计划完成程度的分组可以看出: ? 该总公司有四个企业没有完成销售计划,有九

个企业的计划完成程度在100 ~ 110%之间。 有三个企业的计划完成程度在110 ~ 120%之 间。有二个企业的计划完成程度在120%以上。

按企业工人人数分组 销售额 (万元) 1280 5330 6890 1000 5460 11600 劳动 生产率 0.781 1.024 1.684

职工人数

企业数

工人数

500人以下 500——1000 1000人以上

6 7 5

合计

18

13500

18060

1.338

? 通过按职工人数的分组后,计算的工人劳动生

产率说明企业的职工人数少,规模小,劳动生 产率低。反之则高。

某洗衣机厂第一季度生产洗衣机情况统计表
2006年3月制

项目
台数 月份

计划生产 台数
116000 40000 36000

合计 一月份 二月份

实际生产 台数 125200
42000 40000

完成计划 的百分数

107.9% 105% 111.1%

三月份

40000

43200

108%

统计表的审核
? 一、统计表外观形式的审核: ? 1、完整性与恰当性审核。审核表头、表体、表脚各部

分所应具备的内容是否有遗漏,表述与位置是否恰当。 ? 2、规范性审核。审核各类文字字体、字号是否符合要 求,表格线是否规范。 ? 3、美观性审核。审核表体是否为开栏式,是否为长方 形,长与宽的比例协调与否;表头、表体、表脚是否 协调;全表与周围文本、图示是否协调。

? 二、统计表内容结构的审核 ? 1、目的性审核。审核分组标志的选择及组别

的划分、指标项目的设置是否能体现统计研究 的目的和任务要求。 ? 2、完整性审核。审核分组体系是否完备,指 标项目是否全面,有无遗漏。 ? 3、系统性审核。审核各个组别、各个指标项 目是否分别依序而排。 ? 4、简明性审核。审核分组体系与指标项目的 设置是否过于繁杂,能否简化。

? 三、表中数值的审核 ? 1、审核数值的填写是否规范、录入是否无误。 ? 2、审核数值的计算结果是否正确。通过重新

计算或验算平衡项目之间的关系来进行检查。

不良统计表的修改举例
表 2-15 第三组病人各年存活及死亡情况
年份 (1) 1964 1965 1966 1967 1968 合计 病例数 (2) 17 13 15 15 12 72 存活数 (3) 9 8 8 9 8 42 住院期死 亡总例数 (4)=(2)-(3) 8 5 7 6 4 30 急性期 死亡数 (5) 7 4 6 6 4 27

(原表)

住院期总病 急性期病 死率(%) 死率(%) (6)=(4)/(2) (7)=(5)/(2) 47.1 41.2 38.5 30.8 46.7 40.0 40.0 40.0 33.3 33.3 41.7 37.5

表 2-16 1964~1968 年急性心肌梗塞患者的病死率 年份 1964 1965 1966 1967 1968 合计 病例数 17 13 15 15 12 72 死亡例数 住院期 急性期 8 7 5 4 7 6 6 6 4 4 30 27

(修改表)

病死率(%) 住院期 急性期 47.1 41.2 38.5 30.8 46.7 40.0 40.0 40.0 33.3 33.3 41.7 37.5

? 3.5.2 统计图 ? 1.非数值型数据的统计图 ? 非数值型数据通常使用的统计图有条形图和饼

图。

? (1)条形图(Bar Chart)是以一簇宽度相等、

相互分离的条状图形的长度(或高度)来表示 频数分布的统计图。当以条状图形的高度来表 示频数分布特征时,条形图也称为柱形图。条 形图中条状图形的长度(或高度)所表示的数 据可以是频数,也可以是频数的相对比例,还可 以是事物具体的数值水平等。

? 条形图图形为落在一个直角坐标系中的条状或

柱状图形。这个直角坐标系可以是两维的,也 可以是三维的。相应的条状或柱状图图形为平 面和立体的。这个直角坐标系原点的具体数值 可以为0,也可以为其他特定数值,需要根据 实际情况而定。

《统计学教程》
第3章 数据整理和频数分布

3.5 数据的展示

图3.1 2003年我国按性别分人口数柱形图

《统计学教程》
第3章 数据整理和频数分布

3.5 数据的展示

图3.2是根据表3.6中我国2003年国内生产总值数据绘制的条形图

图3.2 2003年我国国内生产总值条形图

(2)饼图(Pie Chart)是以同一圆形内一簇扇形的面积的大小来表示 数值分布的统计图。 图3.2是根据表3.6中我国2003年国内生产总值数据绘制的饼图。

图3.3 2003年我国国内生产总值饼图

3.5 数据的展示
? 条形图 ? 环形图 ? 雷达图

? 2、 数值型数据的统计图 ? 数值型数据常用的有直方图和折线图。适用

于非数值型数据的条形图和饼图,同样也可适 用于数值型数据。

? (1)直方图(Histogram)是以各组的组距为宽, 以各

组的频数为高, 在直角坐标系的第一象限依次绘制一 系列矩形来表示频数分布状态的统计图。 ? 直方图与条形图的本质区别在于直方图的矩形宽度是 数值型数据分组的组距,并且在直方图的直角坐标系 中直接标明了每一分组的上限和下限。所以,直方图 的矩形一般是连续的方式相继排列,不同于条形图一 般是以间断的方式分隔排列。 ? 对于异距分组,绘制直方图时应以各组的实际组距为 宽,以相应的标准组距频数,或频数密度为高。

? 直方图

? (2)折线图(Line Graph)是将各组的组中

值和频数在直角坐标系的点,用一条折线联系 起来,以反映频数分布状态的统计图。 ? 折线图从最低数值组的下限减去二分之一最低 数值组组距的位置起点,终点为最高数值组的 上限加上二分之一最高数值组组距的位置,从 而使折线图中的折线与直角坐标系的横轴所围 的面积同直方图的矩形所围的面积相等。

? 折线图也可以在直方图的基础上绘制,用直线

依次连接直方图各矩形顶边的中点,并在直方 图的左右两端各延伸一个假定分组,使折线在假 定分组的中点位置与横轴相交,绘制出折线图。 ? 对于异距分组的折线图绘制,类似于异距分组 的直方图的绘制,应在相应的标准组距频数, 或频数密度的基础上绘制,或者在已经完成的 直方图的基础上绘制。

Excel 应用

? 数值型数据的整理:某学期某班学生的考试成绩数据

的整理 ? 例3.1 某学期某班35名学生的统计学考试成绩的原始 数据如下: ? 92,87,75,74,65,91,98,78,84,83,78, 96,62,84,76,52,69,84,81,88,70,91, 89,87,75,79,82,86,79,82,64,90,56, 84,89。 ? 要求 对该班学生的统计学考试成绩,采用重合组限和 开口组限设置进行等距分组、计算组中值和频数分布, 编制统计表和统计图。

? 第一步,计算取值范围 ? 第二步,确定组数和组距 ? 第三步,计算频数分布(COUNTIF)

? 第四步,计算组中值
? 第五步,编制统计表,见表3.8. ? 第六步,绘制统计图。根据表3.8中频数数据,

绘制直方图和折线图。

《统计学教程》
第3章 数据整理和频数分布

Excel 应用

表3.8 某学期某班35名学生的统计学考试成绩

考分 /分 60 以下 60—70 70—80 80—90 90—100 合计

组中值 /分 55 65 75 85 95 —

人 数 比 重 累计人数 累计比重 /% /人 /% /人 2 5.71 2 5.71 4 11.43 6 17.14 9 25.71 15 42.86 14 40.00 29 82.86 6 17.14 35 100.00 35 100.00 — —

? 消除直方图矩形之间的间隔。右键单击图中矩

形,通过“数据系列”命令中“选项”对“重 叠比例”和“间距宽度”进行重置来实现。 ? 缩小坐标轴字体,先用鼠标左键双击“分类 轴”,调出“坐标轴格式”对话框,然后选中 “字体”选项卡。 ? 调整和补充计量单位等有关文字说明,可单击 选中需要为其添加文本框的图表,再在“绘图” 工具栏上,单击“文本框”按钮,在需要的地 方添加适当的文字和数字。

? 折线图

《统计学教程》
第3章 数据整理和频数分布

Excel 应用

图3.13 直方图

《统计学教程》
第3章 数据整理和频数分布

Excel 应用

图3.14 在直方图基础上绘制的折线图

《统计学教程》
第3章 数据整理和频数分布

Excel 应用

图3.15 折线图

小结与练习

? 本章的主要内容是数据整理,频数分布和数据

展示。数据分组是数据整理的基础,在数据分 组的基础上对各组和全部数据进行汇总。所有 数据都可以计算出频数及其频数分布;数值型 数据还可以计算出反映总体及其分组的绝对水 平数值,称为总值。频数和总值均为绝对数。 组中值是数值型数据组距分组中处在各组取值 范围中点位置上的代表性数值。统计表和统计 图是展示数据整理成果,反映数据分布特征和 帮助人们进行统计分析的有利工具。

? 本章的重点是数值型数据的等距分组。包括等

距分组中组距、组数和各组上限、下限的确定, 频数、频数分布和总值数值的汇总,组中值的 计算,组距分组统计表和直方图、折线图的绘 制等。 ? 本章的难点是数值型数据分组中组距、组数的 确定,频数、频数分布概念的把握,以及各种 绝对数的区分和应用。

? ? ? ? ? ? ? ? ? ? ?

思考题: 1、什么是数据的审核,具体有什么内容和方式? 2、非数值型数据分组和数值型数据分组有那些差别? 3、简述数值型数据分组的具体方式有那些? 4、怎样确定等距分组中组距、组数和各组上限、下限? 5、频数、频数分布的概念和意义。 6、组中值的意义和计算方法。 7、绝对数的概念、种类和计量单位。 8、统计表的构成和绘制要求。 9、直方图、折线图的概念和绘制方法。 10、

END


相关文档

更多相关文档

管理统计学-第三章.
统计学原理第三章 统计整理
统计学原理 第三章 统计整理
统计学基础第三章 统计整理
统计学第三章 统计指标
统计学第三章
《统计学原理》第3章 统计整理
统计学--第三章统计数据处理
统计学基础(第三章)
统计学第三章作业及答案
统计学原理 第五章 5-1-(5.1-5.4)
统计学原理 第二章 统计数据收集
统计学原理 第一章 第一章 绪论
统计学原理 第四章 4
统计学原理 第五章 5-2-(5.5我国的物价指数)
电脑版