文档库 最新最全的文档下载
当前位置:文档库 › 资料的统计处理和结果分析

资料的统计处理和结果分析

资料的统计处理和结果分析
资料的统计处理和结果分析

资料的统计处理和结果分析

在采用各种各样的研究学习方法后,学生们获取了各种研究资料和信息。这里的资料不仅包

括研究所需的数量型资料,而且包括大量非数量型的文字背景资料。然而,如果这些资料未经整

理就进行分析,是没有实际的应用价值和科学意义的。

对所获取的数量型资料进行分析,主要是采取统计学上的一些方法。对非数量型资料进行分析,则可以采用概念、判断、推理、归纳、演绎等方式进行分析研究。

统计学(Statistics)是研究统计原理和方法的科学。在对数据进行统计处理时,涉及的内容包括

三部分:描述统计、推断统计和实验设计。

描述统计是指对所搜集的大量数字资料进行整理、概括,寻找数据的分布特征,用以反映研

究对象的内容和实质的统计方法。例如,对原始数据资料用归组、列表、图示等方法加以归纳、

整理,为进一步处理数据资料做好准备工作。计算集中量指标(如算术平均数、中位数)来反映数据

的集中趋势;计算差异量数指标(如标准差、百分位距)来反映数据的离散程度;计算相关量数指标(如相关系数)来反映数据的相关程度。描述统计可使无序而庞杂的数字资料成为有序而清晰的信息

资料。

推断统计是指根据来自样本的数据推断总体的性质,并标明可能发生的误差,以对随机现象

作出估计、推断的统计方法。例如,对总体参数值(如总体平均数,总体标准差)的估计,推断统计

可根据已知材料,去估计、推测未知的可能性大小。

实验设计是指研究者为揭示自变量与因变量的关系,验证假设之前所制定的实验计划。内容

包括研究步骤的制定、抽样、实验变量及实验条件的控制、对结果的统计处理方法等。

对所获取的资料进行定性与定量分析后,得到的结果可以给出结论。但结论必须从事实出发,事实求是,切忌"可能"、"或许"之类不确定性的语句,否则就失去了研究的价值,因为花费了大量

的劳动,最后得到的是一个不确定性的结论,是不会令人满意的,这也就是失败的、不成功的研究。必须注意到,有时根据收集到的资料而得出的结论并不完全符合预先的假设,甚至与假设相反,这是完全正常的,决不能为了验证假设而制造出一个不符合资料分析的、不实事求是的"结论"。结论必须有理论的概括、分析,而不是对资料简单的、表面的、粗浅的描述。

数量型资料的描述统计

(一)图表制作

为了将数据更加直观、清晰地展现出来,并从中得出有关结论,可以采用绘制统计图表的方法,对统计数据进行归类,将研究对象按不同特征进行区分,将有关数据划分到各个类别中,以简洁明了的形式显示出研究对象的数量特征,并由此作进一步分析、综合、比较,从而揭示出事物间的联系及变化规律,得出分析结果。

1.统计图表编制要求

统计图表的绘制,要求格式规范,重点突出,简明易懂。

(1)图表号和标题

图表号指图表的编号,当论文中的统计表或图形不止一个时,应将其分别依次编号,如表1、表2、图1、图2等;当在论文中涉及有关图表的内容时,只需标明"见表×"或"见图×"即可,而不必具体

写出图表的完整标题。

标题是指统计图表的名称,图表名称既要能准确、贴切地表达图表的主要内容,又要简明扼要,不宜太长。统计表的表号和标题通常位于统计表格上方中间位置处,图号和标题一般放在图的下方中间处。

(2)分类标志

统计图表的分类标志是指对资料进行统计分类时所依据的特征。图表中各项的分类要层次分明、项目安排合理、合乎逻辑顺序,归类分组时应严密完整,做到各项目无遗漏,不交叉重复。

(3)数据

数据是统计图表的核心内容,必须认真仔细地逐一核对,确保准确无误,数据排列要求整齐,有单位的量,要注明单位,以便于阅读、计算。数字一般采用阿拉伯数字表示。

2.统计图表类型

(1)统计表

表格形式是表达统计资料数量关系的一种重要方法。统计表的内容要求中心明确、重点突出,尽可能避免编制内容过多、过于庞大复杂的表格。

根据分类所依据的研究对象的分组情况,可以把统计表分为简单表、分组表和复合表。研究对象不分组的统计表称为简单表,如表5-1;研究对象按一个标志分组的统计表,称为分组表,如表5-2;研究对象按两个或两个以上标志分组的统计表,称为复合表,如表5-3

根据数据分类所依据的研究对象特征的数目,可把统计表分为单项表(如表5-1)、二项表(如表5-2)等,特征越多,表格越复杂。

一般,统计表左侧第一竖列注明所要研究的对象,统计表的第一横行说明研究对象的有关指标(加人数、平均值、百分比、成绩、技能、年级等)。有时依据具体情况可作适当调整,总之要使统计表能直观、形象地表达研究结果,使人一目了然。

(2)统计图

除了以表格形式表现统计资料外,统计图也是很直观的表示方法,常见的有线状图、条形图、饼状图和散点图。

线状图是以坐标系中曲线的形状、斜率变化,位置高低等来表现统计资料。线状图可以形象、直观地显示出事物的变化发展趋势。研究对象中不同的各组可以用不同颜色或线型的线条表示。

条形图是在直角坐标系中,用相同宽度长条的不同长短来表示数量资料的多少,还可在同一张图表中用不同颜色或阴影的条形表示研究对象中不同的各组,能直观地进行数量多少的对比。如果用柱形代替条形就得到柱形图,其原理与条形图相同。统计数量刻度比例要合适,并在适当位置作必要说明,如图例、单位等。饼状图是以圆形代表研究对象的整体,用以圆心为共同顶点的各个不同扇形显示各组成部分在整体中所占的比例,要注明各扇形所代表的项目的名称(可用图例表示)及其所占百分比。

散点图是在坐标系中点出各个分析数据的相关位置,直观地显示出一组数据的分布情况。

3.统计图表的应用

利用统计图表可以直观、形象地描述课题研究结果。根据数据资料的性质和研究的目的任务,可以绘制不同形式的统计表或统计图。

绘制统计表格是最为常用的方法之一,大多数情况下均可采用该法进行描述。例如,某学生采用两种不同方法由实验室制取氯气,比较了两种方法中对酸的利用率结果(见表5-2),由此得出结论--方法二中酸的利用率大大提高了。

条形图一般适用于内容较为独立,缺乏连续性的数量资料,用来表示有关数量的多少,特别适合于对各数量进行对比。例如,某小组对地铁二号线运营初期,一号线和二号线的客流量进行了统计,其结果见图5-l。

图5-l显示,地铁二号线的日均客流量无论是平时,还是国庆节假日,均小于地铁一号线。特别是平时,地铁一号线的客流量竞相当于地铁二号线的6倍。

线状图适用于内容有连续性、表现出一定变化趋势和发展动态的数量资料。例如,要表现某地铁线路每天客流量的变化情况,就宜采用线状图表示(见图5-2),图5-2显示每一周周末客流量比平时明显增加。

饼状图适用于内容无连续性的资料,一般显示总体中各组成成份所占比例大小。例如,有人对高中生异性交往心理进行研究,对于"异性之间是否存在纯友谊"这一问题的调查结果见图5-3。

图5-3显示绝大多数同学相信异性间存在纯友谊。

(二)统计分析

当人们开始接触数学或把数学作为研究自然现象的工具时,人们觉得数学有一个显著的特点,就是确定性。例如,二加一等于多少?直角三角形中的三边关系为何?人们可以得到肯定而确切的唯一结论。这时,人们用数字来描述一些事物,有直观、简洁、客观的效果。

我们通常用来对数据进行描述性统计的数学量有均值(有时也称为数学期望)、方差(或称标准差)、百分比(定为不确定值时用概率)、中位数、众数,下面我们用几个例子来说明一

例如,某班学号为l一8号的学生研究性课程成绩如表5-4所示。

这里我们用到了均值与方差两个概念。均值就是我们平时意义上所说明的算术平均数,如果我们将八名学生的调查报告成绩看成一个数组位为xl,x2,…,x8,均组位为z的话,

我们可以看到,方差等于数值中每一项与平均值的差的平方的均值,即方差的大小由数值中的各项与平均值的偏差情况来决定,偏差越大说明该数组的两极分化情况越严重,离散程度越大。当然,在这里大家可能注意到我们求平方偏离值"平均"值,而不求偏离值的"平均"值,原因在于:偏离值有正、有负,在相加的过程中,不应让它们互相抵销,而应让每一次偏离值(不管是正是负)都被考虑进去,故可考虑偏离值的平方值,并求平均值。

在我们的研究中,这两个数学量是最常用的,但我们也经常用到百分比概念,比如,上例中调查报告成绩中90分以上的占了50%,80-89分的占了25%,80分以下的占了25%,这也大致地反映了分数在各个分数档的分布情况。再者我们也经常用到中位数,即将数值依大小顺序依次排列排在最中间的一个或两个数,上例为92和89,这通常作为与平均数对照的一种辅助描述数值的量。而众数是指在一个数值中出现得最多的数,例如,数值4l,37,29、,37,4l,37,30中的众数为37,它通常用于票数统计等方面。

我们用以上的例子简单地介绍了在对数量型资料进行描述性统计时常用的一些数学量。但还有一种情况,当数量为非确定性数量,即概率时,我们也同样可用以上量。

例如,某射手射击时分别射中一些环数的概率如表5-5所示。

即平均值为每一个可能情况乘上发生概率的和,当数据中有概率时我们通常将平均值称为该数值的数学期望。

然而,我们做研究,统计数据很多时候并不是仅仅要做出描述,更多时候我们需要在对数据分

析的基础上对数值所描述的一些事物将来的发展、变化及变化的趋势做出预测,这就是数量型资料的推断统计。

非数量型资料的统计分析

与数量型资料相比,非数量型资料在统计分析中所占的比重相对较小,然而,非数量型资料的作用却是不可或缺的。正如机器人无法代替人类一样,人类的世界不能全部为冷冰冰的数字所量化,人类依旧需要用自身所独有的语言文字来获取一定的信息资料,于是我们对非数量型资料的统计分析进行一番探讨也就很有其必要性。

(一)非数量型资料的分类

要对非数量型资料进行统计分折,首先要了解它的分类。一般可将非数量型资料分为五类:1.事例

事例即反映一定现象的各种实例。比如,某校曾经就《校园网站的现状和发展研究》做过一个课题,在对多个校园网站进行调查后,他们发?quot;C1assaver"网是由几个从交大毕业、平均年龄只有23岁的年轻人所建立,不到一年注册用户数已突破10万。这就可以作为证明校园门户网站需要一个年轻化的领导班子,从而使其充满青春活力的一个事例。

事例作为非数量型资料的一种,首先要具有真实性,也就是说,它必须是发生的真实情况,因为真实性是对所有统计资料(包括数量和非数量)的最基本要求。除此之外,事例还具有自身的特性:①代表性。所谓"以事实说话",我们不可能穷尽所有的事例,所以,事例的代表性愈强,愈典型,由此所说明的结论也就更具有说服力。这也是我们在议论文写作教学中要求学生尽量避免举特例的原因;

②包容性。由于我们所运用的事例一般多为个别的,而所得的结论却是一般原理,从个别到一般,事例的包容性则显得很重要。

2.实录

实录主要包括对教学活动和访问座谈的真实记录。比如我们对一堂公开课或一次师生座谈的记录。实录可以通过现场录音或笔录加以获得。

在选用实录时,必须注意以下几点:①所选用的实录必须能真实地反映本意和全貌,也就是说不可根据对话过程中的片言只语进行断章取义;②考虑到对象的情感和心理因素。由于实录是现场的记录,如果调查对象意识到自己的言行会受到记录,往往会感到紧张或故意迎合,从而使实录的过程变"作秀",无法获得真实的结果。这也就需要实录者能调节现场的气氛,或干脆不让对方知道自己在做实录。

3.轶事

所谓轶事主要是指与研究对象有关的、但鲜为人知的事情。轶事既然是鲜为人知的,那么,很有可能涉及到研究对象个人的生活。因此,在使用时,首先,要注意其真实性,切不可杜撰。其次,使用时要得到对方的允许。再次,措词表达要考虑到对方的承受能力。否则,很有可能会使对方感到权利受到了侵犯,甚至对薄公堂。

4.场景

场景是指在一定的场合下,置身其中的人的表现、作为、态度等。行为教育工作者,往往可以通过特定的场合对学生进行适时?quot;身教",让学生在真切的体验中受到启发,从而受到事半功倍的效果。

比如,在学生看了一个有关贫困山区的孩子上不了学的记录片后,教师适时地说:"与这些山区的孩子相比,你们是幸福的,所以,更应该努力学习,珍惜幸福的生活。"学生听后,都会会心地点头。

场景的选用要注意适时性,即学生在适当的时候获得了真实的感动和真切的体验。

5.档案

它是指已经记载、并有案可查的史料或事实。我们在议论文写作中引用各种资料便属于此。由于档案所记载的是不同的时代、历史条件下的事实,因此我们在选用中必须结合当时的时代条件,从适当的角度有所参照。

以上所说的五类非数量型资料在实际生活中往往是互相渗透,相互结合,我们应根据它们各自的特性加以整理、分析。

(二)非数量型资料的统计分析

在获得了各类非数量型资料以后,下一步所要做的就是对这些非数量型资料进行整理、分析,从而得出一定的结论。这种分析可以从广度和深度两方面加以拓展。

1.从广度方面拓展

所谓从广度方面的拓展是指运用所获得的非数量型资料从适当的角度去获得结论。比如,有一个课题"网上聊天为什么会如此受青少年的欢迎",在做这个课题时,我们做了以下资料工作:首先,在我们的生活中不乏这样的事例,一些学生整天沉迷于"网上聊天",有的甚至为寻网友,不惜离家出走,而这些学生多为性格孤僻之人。这些是较为极端的事例。其次,在与多名学生的访谈中,我们发现他们上网聊天多因感到寂莫无聊或不堪学习重负,想找人倾诉。再次,我们发现,在互联网未进入我们生活时,学生的业余时间多是与邻家的伙伴或同窗、兄弟姐妹一起度过的。由此,我们可以说"网上聊天"的广受欢迎与现在的青少年不堪学习重压,日益感到孤独有关。在这个例子中,我们分别运用了事例、实录及与档案史料相比较,从不同的角度加以说明来得出结论,从而使结论更为厚实可靠。

在对非数量型资料从广度方面进行拓展时,有几点必须加以注意。其一,所获得的各类材料往往可以被用来从不同角度说明问题,但是所得到的结论必须是从材料中得出的,而不是为了证明某个事先作出的判断,而用材料来生搬硬套。其二,正如前文所说,各类资料自身具有一定的适用性和局限性,这是在使用它们时必须注意的。

2.从深度方面拓展

所谓从深度方面的拓展是指运用一定的因果分析方法,逻辑推理形式,对资料的成因作更深入的挖掘,以下将介绍几种较为简单的方法;

其一,求异法。所谓求异法,是指在其他情况均相同时,增加一种新的情况,从而出现某个事实,由此这个情况可能就是该事实产生的原因。我们曾让一些对经济较感兴趣的学生做过一次实验。在学校附近的一个饮食摊一直生意不好,而它却地处繁华的市中心,这似乎令人费解。于是,我们的学生就建议摊主在做生意时穿上洁白的褂子,换下油腻腻、脏兮兮的外衣,从此生意兴隆。一样的食品,一样的地点,一样的人,只是多了件白大褂,生意就兴旺了。可见,这件白大褂在生意上起了至关重要的作用。我们的学生也因此明白了现代营销学上一个重要的道理:在市场上的产品质量相差无几时,产品的附加值是决定其销量的重要因素。这是求异法运用的一个实例。

从哲学的角度看,求异法可以被认为是寻找事物主要矛盾的一种方法。在教育科研实践中,它可以被广泛使用。比如,教育工作者发现学生出现了新情况,可以用此法及时发现原因,"对症下药",还可以控制一些条件,从而避免不必要的后果。

其二,共变法。所谓共变法是指在其他条件不变的情况下,如果一个现象出现了,另一个现象也出现了,前者变化了,后者也变化,那么,前者就是后者产生的原因或部分原因。儿童心理学上曾经有这样一个实验,让一个学龄前孩子看一张图片,图片的内容是一个孩子(假设为孩子自己)和一只小狗,要求以"一天"为题说话。第一次,这个孩子的答案积极、乐观。一个月后,他的父母开始不断争吵,于是同样的题目,孩子的答案中出现消极因素。两个月后,他的父母离异,这个孩子的答案则变得完全消极、悲观。由此可见,父母关系是影响孩子生活态度的原因之一。

以上介绍了两种对非数量型资料向深度拓展的方法,除此之外,还有求同法、剩余法等,这里不加赘述。

16种常用的数据分析方法汇总

一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。 A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。

@2017.3.16-统计学-计量资料的统计描述方法

计量资料的统计描述方法 怎样表达一组数据? 描述计量资料的常用指标— A 、描述平均水平(中心位置): 均数X 、中位数和百分位数、几何均数G 、众数(mode ) B 、描述数据的分散程度: 标准差、四分位数间距、 变异系数、方差、全距 (一)均数mean 和标准差standard deviation 1. (算术)均数X 均数是描述一组计量资料平均水平或集中趋势的指标。 *直接计算公式: 应用条件:适用于对称分布,特别是正态分布资料。 2. 中位数(median )M 和百分位数(percentile ) A.中位数M 是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 应用条件: 12n X X X X X n n +++== ∑L

用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算: n 为奇数时-- n 为偶数时-- 9人数据:12,13,14, 14, 15, 15, 15, 17, 19天 B.百分位数 是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。中位数是第百分50位数。 四分位数间距(quartile range ) =第25百分位数(P25)~第75百分位数(P75)。 四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。 ) (天1552 19===+X X M 88451 22221415214.5() M X X X X ?? ==== ???+如果只调查了前八位中学生,则: +(+)(+)天

百分位数计算(频数表法): X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距 n :总例数f x :所在组段频数 注:有的教材X= r ; L f ∑=C 例:求频数表的第25、第75百分位数(四分位数间距) 组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25 L 2565~ 15 34 P 25在此 68~ 25 59 71~ 26 85∑f 75 L 7574~ 19 104 P 75在此 77~ 15 119 80~ 10 129 83~85 1 130 合计 130 ① 确定Px 所在组段: P 25所在的组段:n X %=130×25%=32.5, 65~组最终的累积频数=34,32.5落在65~组段内;

统计学教案习题06分类资料的统计描述

第六章 分类资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 绝对数。 2. 相对数常用指标:率、构成比、比。 3. 应用相对数的注意事项。 4. 率的标准化和动态数列常用指标:标准化率、标准化法、时点动态数列、时期动态数列、绝对增长量、发展速度、增长速度、定基比、环比、平均发展速度和平均增长速度。 (二)熟悉内容 1. 标准化率的计算。 2. 动态数列及其分析指标。 二、教学内容精要 (一) 绝对数 绝对数是各分类结果的合计频数,反映总量和规模。如某地的人口数、发病人数、死亡人数等。绝对数通常不能相互比较,如两地人口数不等时,不能比较两地的发病人数,而应比较两地的发病率。 (二)常用相对数的意义及计算 相对数是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数大小,如率、构成比、比等。 常用相对数的意义及计算见表6-1。 表6-1 常用相对数的意义及计算 常用相对数 概念 表示方式 计算公式 举例 率 (rate ) 又称频率指标,说明一定时期内某现象发生的频率或强度 百分率(%)、千分率 (‰)等 单位时间内的发病率、患病 率,如年(季)发病率、时 点患病率等 构成比 (proportion ) 又称构成指标,说明某一事物内部各组成 部分所占的比重或分布 百分数 疾病或死亡的顺位、位次或所占比重 比 (ratio ) 又称相对比,是A 、B 两个有关指标之 比,说明A 是B 的若干倍或百分之几 倍数或分数 ①对比指标,如男:女 =106.04:100 ②关系指标,如医护人员:病床数=1.64 ③计划完成指标,如完成计划的130.5% (三) 应用相对数时应注意的问题 1. 计算相对数的分母一般不宜过小。 2. 分析时不能以构成比代替率 容易产生的错误有 (1)指标的选择错误如住院病人只能计算某病的病死率,不能认为是某病的死亡率; (2)若用构成指标下频率指标的结论将导致错误结论,如 某部队医院收治胃炎的门诊人数中军人的构成比最高,但不一定军人的胃炎发病率最高。 %100?=单位总数 可能发生某现象的观察数 发生某现象的观察单位率%100?= 观察单位总数 同一事物各组成部分的位数某一组成部分的观察单构成比B A = 比

医学统计学第3版,02计量资料的统计描述试题

第二章 计量资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉内容 连续型变量的频数分布图:等距分组、不等距分组。 二、 教学内容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range )。 min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

总结资料分析中的主要统计指标

总结资料分析中的主要统计指标 在资料分析题中,经常会出现增长速度、发展速度、平均增长速度、平均发展速度等指标的计算。而对于非统计专业的人来说,正确区分上述几个指标存在一定的难度。 上述几个指标的计算区分如下: 1.发展速度 发展速度是以相除方法计算的动态比较指标,计算公式为: 基期数值 报告期数值发展速度= 发展速度一般用百分数表示,当比例数较大时,则用倍数表示较为合适。 2.增长速度 增长速度则是以相减和相除结合计算的动态比较指标,其计算公式为: 计算结果若是正值,则叫增长速度,也可叫增长率;若是负值,则叫降低速度,也可叫降低率。例:某企业2014年产值为666亿元,2015年为888亿元。则2015年产值比2014年的增长速度为:%100666 666888?-,也可用倍数表示。 由上可知: 1-=发展速度增长速度 3.平均发展速度

平均发展速度是反映所计算指标在计算期间内逐期变化发展的平均程度。计算方法一般采用几何平均法: n a a a a a a n n 1 1201-= 平均发展速度=n a a n 0 4.平均增长速度/平均增长率 直接用国家统计局网站上的解释: 我国计算平均增长速度有两种方法: 一种是习惯上经常使用的“水平法”,又称几何平均法,是以间隔期最后一年的水平同基期水平对比来计算平均每年增长(或下降)速度; 另一种是“累计法”,又称代数平均法或方程法,是以间隔期内各年水平的总和同基期水平对比来计算平均每年增长(或下降)速度。在一般正常情况下,两种方法计算的平均每年增长速度比较接近;但在经济发展不平衡、出现大起大落时,两种方法计算的结果差别较大。 除固定资产投资用“累计法”计算外,其余均用“水平法”计算。从某年到某年平均增长速度的年份,均不包括基期年在内。如建国四十三年的平均增长速度是以1949年为基期计算的,则写为1950-1992年平均增长速度,其余类推。 其实上述两种计算方法,也就是平均发展速度的两种计算方法。 平均增长速度的计算公式: 110 -=-=n a a n 平均发展速度平均增长速度 5.累计增长率

分类资料的统计分析(doc 24页)

第十章分类资料的统计分析 A型选择题 1、下列指标不属于相对数的是() A、率 B、构成比 C、相对比 D、百分位数 E、比 2、表示某现象发生的频率或强度用 A 构成比 B 观察单位 C 相对比 D 率 E 百分比 3、下列哪种说法是错误的() A、计算相对数尤其是率时应有足够数量的观察单位数或观察次数 B、分析大样本数据时可以构在比代替率 C、应分别将分子和分母合计求合计率或平均率 D、相对数的比较应注意其可比性 E、样本率或构成比的比较应作假设检验 4、以下哪项指标不属于相对数指标( ) A.出生率 B.某病发病率 C.某病潜伏期的百分位数 D.死因构成比 E.女婴与男婴的性别比 5、计算麻疹疫苗接种后血清检查的阳转率,分母为( ). A.麻疹易感人群 B.麻疹患者数 C.麻疹疫苗接种人数 D.麻疹疫苗接种后的阳转人数 E.年均人口数 6、某病患者120人,其中男性114人,女性6人,分别占95%与5%,则结论为( ).

A.该病男性易得 B.该病女性易得 C.该病男性、女性易患率相等 D.尚不能得出结论 E.以上均不对 7、某地区某重疾病在某年的发病人数为0α,以后历年为1α,2α,…,n α,则该疾病发病人数的年平均增长速度为( )。 A.1...10+++n n ααα B. 110+??n n ααα C.n n 0 α α D.n n 0 α α -1 E. 10 -a a n 8、按目前实际应用的计算公式,婴儿死亡率属于( )。 A. 相对比(比,ratio ) B. 构成比(比例,proportion ) C. 标准化率(standardized rate ) D. 率(rate ) E 、以上都不对 9、某年某地乙肝发病人数占同年传染病人数的9.8%,这种指标是 A .集中趋势 B .时点患病率 C .发病率 D .构成比 E .相对比 10、构成比: A.反映事物发生的强度 B 、反映了某一事物内部各部分与全部构成的比重 C 、既反映A 也反映B D 、表示两个同类指标的比 E 、表示某一事物在时间顺序上的排列

统计学复习资料分析

《统计学》 第一章 一、填空题 1、统计是、和的统一体,是统计工作的成果,是 统计工作的经验总结和理论概括。 2、统计研究的具体方法主要有、、和。 3、统计工作可划分为、、和四个阶段。 4、随着的改变,总体和是可以相互转化的。 5、标志是说明,指标是说明。 6、可变的数量标志和所有的统计指标称为,变量的具体数值称为。 7、变量按分,可分为连续变量和离散变量,职工人数、企业数属于变量; 变量按分,可分为确定性变量和随机变量。 8、社会经济统计具有、、、等特点。 9、一个完整的统计指标应包括和两个基本部分。 10、统计标志按是否可用数值表示分为和;按在各个单位上的具体表 现是否相同分为和。 11、说明特征的名称叫标志,说明特征的名称叫指标。 12、数量指标用表示,质量指标用或平均数表示。 13、在统计中,把可变的和统称为变量。 14、由于统计研究目的和任务的变更,原来的变成,那么原来的指标 就相应地变成标志,两者变动方向相同。 二、是非题 1、统计学和统计工作的研究对象是完全一致的。 2、运用大量观察法,必须对研究对象的所有单位进行观察调查。 3、统计学是对统计实践活动的经验总结和理论概括。 4、一般而言,指标总是依附在总体上,而总体单位则是标志的直接承担者。 5、数量指标是由数量标志汇总来的,质量指标是由品质标志汇总来的。 6、某同学计算机考试成绩80分,这是统计指标值。 7、统计资料就是统计调查中获得的各种数据。 8、指标都是用数值表示的,而标志则不能用数值表示。 9、质量指标是反映工作质量等内容的,所以一般不能用数值来表示。 10、总体和总体单位可能随着研究目的的变化而相互转化。 11、女性是品质标志。 12、以绝对数形式表示的指标都是数量指标,以相对数或平均数表示的指标都是质量指标。

资料的统计分析

第十二章资料的统计分析 第二节集中量数分析 一、集中量数也称集中趋势,它是一组数据的代表值,代表着现象的一般水平,别的数值围绕着它的周围。 常用的集中数有:算术平均数、中位数、众数。 二、算术平均数:是以总体各单位数值之和除以总体单位总数的商。即, 各单位的标志数值之和 算术平均数= 总体单位总数 (一)简单算术平均数法: X1+X2+…X n ∑X X = = n n 其中,符号X代表算术平均数;X1,X2,…X n分别代表各个具体的标志数值,n表示总体单位数(即总体中个案的数目),∑表示将各个具体的标志数值相加求和。 (二)加权算术平均数: X1f1+ X2f2+…X n f n ∑Xf X = = f1+ f2 +…f n∑f 其中,f为权数,即变量在总体中出现的次数。 1、由单项分组资料求算术平均数。 ∑Xf X = ∑f 2、由组距分组资料求算术平均数。 先计算出组中距,然后再使用加权算术平均数的公式进行计算。 组中值的符号为:X mid 下组限+上组限 X mid = 2 由组距分组资料计算算术平均数的公式就变为: ∑f X mid X = ∑f

三、中位数 中位数是把调查到的数据资料按照标志值大小顺序排列,处于中央位置的标志值表示中间位置的平均数,也称位置平均数。 (一)由原始资料计算中位数 原始资料是以单项标志值形式表现的。先把各个标志值按照大小顺序排列,然后用总体单位数加1除以2,即n+1 ,就可以求出中位数的位次。 2 (二)对经过资料计算中位数 1、由单项分组资料求中位数。 n+1 中位数的位次= 2 2、由组距分组资料计算中位数。 ∑f 由组距分组资料计算中位数,应先用 2 公式确定中位数所在组的位置,然后再用下限公式计算中位数的值。下限公式为: ∑f-cf m -1 M d= ×i+L f m 为中位数所在组以下的累计次其中,M d为中位数,f m为中位数所在组的次数,cf m -1 数,∑f为累计数,i为中位数所在组的组距,L为中位数所在组的下限。 四、众数 众数是指在一组数据中重复次数最多的标志值。 (一)从单项分组数据资料中计算众数 一般采用直接观察法即可。 (二)从组距分组资料中计算众数 一种是组中值法,另一种是摘补法。 L+U 其公式为:众数= 2 其中,L代表众数所在组的组下限,U代表众数所在组的组上限。

统计学计量的统计描述方法

计量资料的统计描述方法 怎样表达一组数据? 描述计量资料的常用指标— A、描述平均水平(中心位置): 均数X、中位数和百分位数、几何均数G、众数(mode) B、描述数据的分散程度: 标准差、四分位数间距、变异系数、方差、全距 (一)均数mean和标准差standard deviation 1. (算术)均数X 均数是描述一组计量资料平均水平或集中趋势的指标。 *直接计算公式: 应用条件:适用于对称分布,特别是正态分布资料。 2. 中位数(median)M和百分位数(percentile) A.中位数M 是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 应用条件: 用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算: n为奇数时-- n为偶数时-- 9人数据:12,13,14, 14, 15, 15, 15, 17, 19天 B.百分位数 是将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数

值即为第X 百分位数。中位数是第百分50位数。 四分位数间距(quartile range ) = 第25百分位数(P25)~第75百分位数(P75)。 四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。 百分位数计算(频数表法): X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距 n :总例数 f x :所在组段频数 注:有的教材X= r ; L f =C 例:求频数表的第25、第75百分位数(四分位数间距) 组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25 L 25 65~ 15 34 P 25在此 68~ 25 59 71~ 26 85 ∑f 75 L 75 74~ 19 104 P 75在此 77~ 15 119 80~ 10 129 83~85 1 130 合 计 130 ① 确定Px 所在组段: P 25所在的组段:n X %=130×25%=32.5, 65~组最终的累积频数=34,32.5落在65~组段内; P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段 ② 确定Px 所在组段的X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65.90 P 75=74+3x[(130x75%-85)/19]=74.66

现存统计资料分析的研究范例

课题:教育研究方法(现存统计资料分析)专业:高等教育学 姓名:季红波

现存统计资料分析 【本节学习目标】通过对以下内容的学习使学生掌握以下主要内容并且能够在实践中运用所学的知识。 1.现存统计资料分析的概念。 2.现存统计资料分析的主要步骤。 3.现存统计资料分析的效度和信度。 【教学流程】 一、现存统计资料分析的概述 在社会科学研究中,人们也常常运用各种现存的统计资料来进行自己的研究。这种现存的统计资料,既可以为研究提供历史背景材料,又可以成为研究本身的数据和资料的一种来源。后一种情况下,研究就被称作现存统计资料分析。 具体来说: 现存统计资料分析(analyzing existing statistics):是指利用官方或准官方的统计资料来进行研究的一种方式,它所用的资料是经过统计汇总的资料。 特点:现存统计资料分析所用的资料是经过统计汇总的资料 注意:现存统计资料的分析与二次分析有一个相似的方面,这就是他们所用的资料都是别人已收集好的。只是二次分析所用的是原始数据资料,而现存统计资料的研究者则是利用那种以频数、百分比等统计形式出现的聚集资料。 统计资料来源:官方统计资料,民间统计资料,其他(民意调查)

我国有价值的统计资料介绍: 我国最有价值的统计资料是由国家统计局编辑的《中国统计年鉴》、以及诸如《中国社会统计资料》、《中国人口统计年鉴》、《中国城市统计年鉴》、《中国教育统计年鉴》这样的分支统计资料,它们既包括各省和各主要城市的资料,也包括不同年代的资料。 美国有价值的统计资料介绍: 在美国,质量最佳的资料是由美国商业部每年出版的《美国统计摘要》。此外,《美国年鉴》以及联邦机构所公布的数据资料,对于社会科学研究来说也是十分有用的。 国际范围内的统计资料: 国际范围内的统计资料主要由联合国提供。它的《人口年鉴》每年都提供各国重大的统计资料。比如出生率、死亡率、人口自然增长率等有关人口的统计资料。而联合国的其他出版物则提供各种分类的统计资料。 此外,一些专门的研究机构,特别是调查研究及民意测验机构,也可以提供巨大的数据资料。比如,美国的盖洛普民意调查中心,每年都公布他们的各种调查结果。就是在各种社会科学的专业刊物以及学术著作中,也有各种各样的统计资料,利用他们同样也能进行社会科学研究。 使用官方统计资料应注意的问题: 一是应该对统计资料的内容、对象、范围、特点等等都具有清楚明确的认识。二是:对于各种统计指标、比率和数字的实际含义、他

智慧树知 到《商务统计数据分析》章节测试答案1

智慧树知到《商务统计数据分析》章节测试答案 第一章 1、大数据的类型都有哪些? 传统企业数据 机器和传感器数据 社交数据 答案:传统企业数据 ,机器和传感器数据 ,社交数据 2、用真实数据计算出来的正确答案,不一定就是事实的真相。 对 错 答案:对 3、下列选项中属于本门课所介绍的数据思维是? 选择性偏差 因果关系偏差 回忆性偏差 答案:选择性偏差 ,因果关系偏差 ,回忆性偏差 4、数据分析报告中只需要写出分析过程中发现的问题以及产生问题的原因,不需要给出合理的解决方案。 对

错 答案:错 5、一个好的背景介绍包含以下哪些方面? 行业概述 当前发展状况 存在的问题和研究目的 答案: 行业概述 , 当前发展状况 , 存在的问题和研究目的 第二章 1、八爪鱼采集器的采集原理是内置浏览器,通过模拟人浏览网页的行为,对网页内容进行全自动提取。 对 错 答案:对 2、八爪鱼采集器的客户端支持Windows和Mac电脑。 对 错 答案:错

3、八爪鱼采集器的采集方式只有本地采集。 对 错 答案:错 4、数据采集过程中的详情页采集,通常没有链接。 对 错 答案:错 5、多页面数据采集一般需要翻页循环和列表循环进行嵌套。对 错 答案:对 第三章 1、在Excel中时间是小数,如0.5代表中午12点。 对 错 答案:对 2、vlookup函数中的最后一个参数,谁表示精确匹配。 1 2 答案:0

3、要查找带有“喜欢“的字符串,可以用下列哪个通配符式子进行匹配?“喜欢” “喜欢” “?喜欢?” “?喜欢” 答案:“*喜欢*” 4、Datedif函数中第一个参数表示 起始时间 结束时间 时间类型 答案:起始时间 5、查找“爱”在字符串“我爱商务统计数据分析”中的位置用哪个函数?len find left mid 答案:find 第四章 1、定量数据可以转化为定性数据。 对 错 答案:对

统计数据分析

1 《统计数据分析基础教程》1读书笔记 SPSS 部分 一、 知识准备 1、 定性变量(qualitative variable )—P5 也称离散变量或分类变量,如:民族、党派等。为方便计算机处理标示的值并无算术上的意义。 2、 定序变量—P5 也称有序变量,如:等级、职称等。为方便计算机处理标示的值有大小、先后的递推关系,数值之间无相互的倍率关系。 3、 定量变量(quantitative variable )—P5 也称有序变量,如:成绩、身高等。值之间有大小与倍率关系。 4、 调查对象—P6 调查所要面对的对象。 5、 个体—P6 调查对象的观点。 6、 总体—P6 所有潜在调查对象的观点集合。 7、 样本—P6 被调查对象的集合。 8、 普查—P6 对所有潜在调查对象的调查。 9、 简单随机抽样—P7 总体中所有个体均有同等机会被抽取到样本中。 10、 方便样本—P7 采用简单的随机方法获得的样本。 1 叶向著,中国人民大学出版社2010年2月第一版

2 11、 抽样误差—P7 抽样产生的样本中,个体特征的比例与总体中的比例差异带来的。 12、 未响应误差—P7 抽中的个体没有回应其观点。 13、 响应误差—P7 个体回应的观点并非其真实的。 14、 抽样调查—P7 从总体中选取部分个体进行的调查。 15、 问卷—P8 向调查对象发出的问题集合。 16、 系统抽样—P8 将所用样本循环排列,根据样本量与总体量的比率确定一个“间距”,再随机选取一个开始点,以此点开始等间距抽取下一个。 17、 分层抽样—P9 先把总体按某些特征分类,然后再在各类中按简单随机法抽取样本。 18、 整群抽样—P9 先把整体划分为无规律特征的“群”,让后随机地抽出“群”来。 19、 多级抽样—P9 在抽出的“群”中再次抽“群”。 20、 目的抽样—P9 调查人员主观选择调查对象方法。 21、 方便抽样 貌似随机实际非随机的选择调查对象方法。 22、 判断抽样—P9 调查者主观选择获取样本的方法。 23、 定额抽样—P9 在各分类中按比例的个数采用方便抽样或判断抽样法进行的抽样。 24、 雪球抽样—P9 由被调查对象推荐下一个被调查对象的方法。

资料分析-统计表1

(一) 根据下面的统计表回答第1—5题。 我国人口形势及预测 1.预测我国人口总数到哪一年,将接近14亿人 A. 2000 B. 2010 C. 2020 D.无法确定 2.预测我国2000年城镇与乡村人口的比例为: A. 1∶1 B. 1∶1.5 C. 1∶1.67 D. 1∶2 3.分析数据请指出,我国城镇人口从哪个时期起将达到总人口的1/3 A. 20世纪初期 B. 20世纪中期 C. 20世纪末期 D. 21世纪初期 4.预测我国进入二十一世纪,人口增长率将可以控制在什么水平以内? A. 8% B. 10% C. 12% D. 15% 5.分析城镇人口与乡村人口的变化,预测我国人口形势将有什么变化? A.人口老龄化 B.人口增长过快 C.人中死亡率降低 D.人口城市化速度加快 (二) 请根据统计表回答6~10题: 产品计划完成情况统计表

6.实际产量最大的是哪种产品? A.氢氧化铝 B.普通铝锭 C.拉丝铝 D.稀土铝 7.计划产量与实际产量差异最大的是哪种产品? A.普通铝锭 B.稀土铝 C.电工铝 D.拉丝铝 8.计划产值与实际产值差异最大的是哪种产品? A.稀土铝 B.拉丝铝 C.普通铝锭 D.电工铝 9.普通铝锭的实际产值比计划产值增加了多少? A. -20% B. -10% C. 80% D. -80% 10.下列哪种说法不正确? A.普通的铝锭的产量减少了,产值也减少了 B.拉丝铝的产量增加了,产值也增加了 C.电工铝的产量增加了,产值也增加了 D.氢氧化铝产量没变,产值也没变 (三) 根据下表,回答11~15题: 某园2000年乡镇企业产品出口行业分类 11.2000年乡镇中,产值最高的行业为: A.轻工 B.食品 C.机械 D.化工 12.2000年乡镇企业中,出口值占全部行业产值一半以上的行业为:

2020智慧树,知到《商务统计数据分析》章节测试完整答案

2020智慧树,知到《商务统计数据分析》 章节测试完整答案 智慧树知到《商务统计数据分析》章节测试答案 第一章 1、大数据的类型都有哪些? 答案:传统企业数据,机器和传感器数据,社交数据 2、用真实数据计算出来的正确答案,不一定就是事实的真相。 答案:对 3、下列选项中属于本门课所介绍的数据思维是? 答案:选择性偏差,因果关系偏差,回忆性偏差 4、数据分析报告中只需要写出分析过程中发现的问题以及产生问题的原因,不需要给出合理的解决方案。 答案:错 5、一个好的背景介绍包含以下哪些方面? 答案:行业概述,当前发展状况,存在的问题和研究目的 第二章 1、八爪鱼采集器的采集原理是内置浏览器,通过模拟人浏览网页的行为,对网页内容进行全自动提取。 答案:对 2、八爪鱼采集器的客户端支持Windows和Mac电脑。 答案:错 3、八爪鱼采集器的采集方式只有本地采集。

4、数据采集过程中的详情页采集,通常没有链接。 答案:错 5、多页面数据采集一般需要翻页循环和列表循环进行嵌套。 答案:对 第三章 1、在Excel中时间是小数,如0.5代表中午12点。 答案:对 2、vlookup函数中的最后一个参数,谁表示精确匹配。 答案:0 3、要查找带有“喜欢“的字符串,可以用下列哪个通配符式子进行匹配? 答案:“*喜欢*” 4、Datedif函数中第一个参数表示 答案:起始时间 5、查找“爱”在字符串“我爱商务统计数据分析”中的位置用哪个函数? 答案:find 第四章 1、定量数据可以转化为定性数据。 答案:对 2、Excel中的quartile函数可以用来求中位数。

3、在实际工作中一般求方差都是计算样本方差,用函数var即可。 答案:对 4、下面哪个函数可以计算出极差 答案:max()-min() 5、在3、5、3、 6、8这组数据中,众数是 答案:3 第五章 1、对于一个定量变量,可以采用以下哪种图形进行描述 答案:直方图 2、对于一个定性变量,可以采用以下哪种图形进行描述 答案:柱状图 3、当只有一个连续型变量时,非常适合绘制箱线图 答案:错 4、堆积柱状图可以展示一个定性变量与一个定量变量的交叉频数 答案:对 5、箱线图最大的用处是分组对比 答案:对 第六章 1、回归模型的建立才是重点,模型结果无所谓,也不用解读。

资料分析统计术语

第一章列式读材料 第一节统计术语 题型综述: 统计术语: ◆基期(基础时期)、现期(现在时期) 如果研究“和2012 年相比较,2013 年的某量发生某种变化”,则2012 年为基期,2013 年为现期;如果研究“和2013 年8 月相比较,2013 年9 月的某量发生 某种变化”,则2013 年8 月为基期,2013 年9 月为现期。 “2011 年某商品价格上涨 6.8%,2012 年该商品价格上涨了 6.2%...” “2011 年某商品价格上涨6.8%,说明; “2012 年该商品价格上涨了6.2%,说明。 ◆现期量、基期量 ※注:基期对应的量叫做基期量;现期对应的量叫做现期量; ◆增长量 增长量是指社会经济现象在一定时期内增长(或减少)的量,即指与基期量比较, 现期量比基期量多(或少)多少。 【判别特征】(现在)……比(过去)……增长(下降)某个具体值 增长量=现期量-基期量 【例1】某校2014 年毕业人数为1000 人,2015 年毕业人数为1200 人,则该校2015 年的增长量为人。 1

【例2】某校2014 年毕业人数为2500 人,2015 年毕业人数为2200 人,则该校2015 年的减少量为人。 ◆增长率 增长率指的是现期量与基期量的差值(即增长量)与基期量之间的比较,即指在 基期量的基础上增长了多大的幅度。 增长速度(增速)、增长幅度(增幅):一般情况下,均与增长率相同。 【判别特征】(现在)……比(过去)……增长/下降……;增幅/减幅为…… 增长率(增幅、增速)=增长量÷基期量=(现期量-基期量)÷基期量=现期量÷基期 量-1 【例1】某校去年招生人数2000 人,今年招生人数为2400 人,则今年的增幅为? 【例2】某校去年招生人数2400 人,今年招生人数为1800 人,则今年的减幅为? 【常考点1】已知基期量和增长率求现期量 现期量= 基期量(1 + r) 【例】2012 年前三个季度其他经济类型单位职工月平均工资为1800 元,同比增 长了15.6%,若保持这样的增长速度,则2013 年前三个季度我国其他经济类型 单位职工月平均工资为。 【常考点2】已知现期量和增长率求基期量 基期量= 现期量(1 + r) 【例】2012 年前三个季度其他经济类型单位职工月平均工资为1800 元,同比增长了15.6%,则2011 年前三个季度,我国其他经济类型单位职工月平均工资为。 【常考点3】增长率计算 已知增长量和基期量,求增长率 2

常用统计数据分析软件

常用统计数据分析软件 一、SAS统计软件 SAS 是英文Statistical Analysis System的缩写,翻译成汉语是统计分析系统,最初由美国北卡罗来纳州立大学两名研究生开始研制,1976 年创立SAS公司, 2003年全球员工总数近万人,统计软件采用按年租用制,年租金收入近12亿美元。SAS系统具有十分完备的数据访问、数据管理、数据分析功能。在国际上, SAS被誉为数据统计分析的标准软件。SAS系统是一个模块组合式结构的软件系统,共有三十多个功能模块。SAS是用汇编语言编写而成的,通常使用SAS 需要编写程序, 比较适合统计专业人员使,而对于非统计专业人员学习SAS比较困难。 SAS是美国SAS(赛仕)软件研究所研制的一套大型集成应用软件系统,具有比较完备的数据存取、数据管理、数据分析和数据展现的系列功能。尤其是它的创业产品—统计分析系统部分,由于具有强大的数据分析能力,一直是业界中比较著名的应用软件,在数据处理方法和统计分析领域,被誉为国际上的标准软件和最具权威的优秀统计软件包,SAS系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等。 SAS系统具有比较灵活的功能扩展接口和强大的功能模块,在BASE SAS的基础上,还可以增加如下不同的模块而增加不同的功能:SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)、SAS/QC(质量控制模块)、SAS/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)等等。 SAS提供的绘图系统,不仅能绘各种统计图,还能绘出地图。SAS提供多个统计过程,每个过程均含有极丰富的任选项。用户还可以通过对数据集的一连串加工,实现更为复杂的统计分析。此外,SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。 二、SPSS统计软件 SPSS是英文Statistical package for the social science 的缩写,翻译成汉语是社会学统计程序包,20世纪60年代末由美国斯坦福大学的三位研究生研制,1975年在芝加哥组建SPSS 总部。SPSS系统特点是操作比较方便,统计方法比较齐全,绘制图形、表格较有方便,输出结果比较直观。SPSS是用FORTRAN语言编写而成。适合进行从事社会学调查中的数据分析处理。 20世纪80年代以前,SPSS统计软件主要应用于企事业单位。1984年SPSS总部首先推出了世界第一套统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的先河,从而确立了个人用户市场第一的地位。 同时SPSS公司推行本土化策略,目前已推出9个语种版本。SPSS/PC+的推出,极大地扩充了它的应用范围,使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据深入分析、使用灵活方便、功能设计齐全等方面给予了高度的评价与称赞。目前已经在国内广泛流行起来。它使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要是掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件进行各种数据分析,为实际工作服务。

6.计量资料的统计推断—t检验

6 计量资料的统计推断-t检验 t检验是以t分布为理论依据的假设检验方法,常用于正态总体小样本资料的均数比较,t检验统计量有三个不同的形式,适用于单因素设计的三种不同类型:①单个样本的均数与已知总体均数比较的检验,适用于单组设计,给出一组服从正态分布的定量观测数据和一个标准值(总体均值)的资料。②配对t检验,适用于配对设计。③成组t检验,适用于完全随机设计的两均数比较。 SPSS中使用菜单Analyze →Compore Means作t检验,Compore Means的下拉菜单如表6-1所示。 表6-1 Compore Means下拉菜单 Means…分层计算… One-Sample T Test…单样本t检验… Independent-Samples T Test…独立样本t检验… Paired-Sample T Test…配对t检验… One-Way ANOV A…单因素方差分析… 6.1 计量资料的分层计算 Means过程可以对计量资料分层计算均数、标准差等统计量,同时可对第一层分组进行方差分析和线性趋势检验。 例6-1某学校测得不同年级、不同性别的12名学生的身高(cm),数据见表6-2。试用SPSS的Means过程分别计算不同年级、不同性别学生身高的均数和标准差。 表6-2 12名学生的身高(cm) 解年级:1=“初一”、2=“高一”,性别:1=“男”、2=“女”。 选择Analyze→Compare Means→Means命令,弹出Means对话框,如图6-2。在变量列表中选中身高,送入Dependent(因变量)框中;选中年级,送入Independent(自变量),确定第一层依年级分组,单击Next按钮,选中性别,送入Independent,确定第二层依性别分组;单击OK。输出结果如图6-3所示。 在Means对话框单击Options(选项)按钮,弹出Means:Options对话框,可以选择要计算的统计量,默认Mean、Number of cases、Standard Deviation;在Statistics for First Layer中,可对第一层分组作方差分析(Anova table and eta)和线性趋势检验(Test for linearity)。

相关文档