文档库 最新最全的文档下载
当前位置:文档库 › 数据的统计描述和分析

数据的统计描述和分析

数据的统计描述和分析
数据的统计描述和分析

第十章 数据的统计描述和分析

数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是以概率论为基础的一门应用学科。

数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息的数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。

面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统计的最基本方法。

我们将用Matlab 的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。

§1 统计的基本概念

1.1 总体和样本

总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品及废品分类),学校全体学生的身高。

总体中的每一个基本单位称为个体,个体的特征用一个变量(如x )来表示,如一件产品是合格品记0=x ,是废品记1=x ;一个身高170(cm )的学生记170=x 。 从总体中随机产生的若干个个体的集合称为样本,或子样,如n 件产品,100名学生的身高,或者一根轴直径的10次测量。实际上这就是从总体中随机取得的一批数据,不妨记作n x x x ,,,21 ,n 称为样本容量。

简单地说,统计的任务是由样本推断总体。

1.2 频数表和直方图

一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对这组数据的一个初步整理和直观描述。

将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图。

若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助Matlab 这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。 例1 学生的身高和体重

(i)数据输入

数据输入通常有两种方法,一种是在交互环境中直接输入,如果在统计中数据量比较大,这样作不太方便;另一种办法是先把数据写入一个纯文本数据文件data.txt中,格式如例1的表格,有20行、10列,数据列之间用空格键或Tab键分割,该数据文件data.txt存放在matlab\work子目录下,在Matlab中用load命令读入数据,具体作法是:load data.txt

20 个数据的矩阵。

这样在内存中建立了一个变量data,它是一个包含有10

为了得到我们需要的100个身高和体重各为一列的矩阵,应做如下的改变:

high=data(:,1:2:9);high=high(:)

weight=data(:,2:2:10);weight=weight(:)

(ii)作频数表及直方图

用hist命令实现,其用法是:

[N,X] = hist(Y,M)

数组(行、列均可)Y的频数表。它将区间[min(Y),max(Y)]等分为M份(缺省时M设定为10),N返回M个小区间的频数,X返回M个小区间的中点。

hist(Y,M)

数组Y的直方图。

对于例1的数据,编写程序如下:

load data.txt;

high=data(:,1:2:9);high=high(:);

weight=data(:,2:2:10);weight=weight(:);

[n1,x1]=hist(high)

%下面语句与hist命令等价

%n1=[length(find(high<158.1)),...

% length(find(high>=158.1&high<161.2)),...

% length(find(high>=161.2&high<164.5)),...

% length(find(high>=164.5&high<167.6)),...

% length(find(high>=167.6&high<170.7)),...

% length(find(high>=170.7&high<173.8)),...

% length(find(high>=173.8&high<176.9)),...

% length(find(high>=176.9&high<180)),...

% length(find(high>=180&high<183.1)),...

% length(find(high>=183.1))]

[n2,x2]=hist(weight)

subplot(1,2,1)

hist(high)

subplot(1,2,2)

hist(weight)

计算结果略,直方图如下图所示:

什么规律。要想从数值上给出更确切的描述,需要进一步研究反映数据特征的所谓“统计量”。直方图所展示的身高的分布形状可看作正态分布,当然也可以用这组数据对分布作假设检验。

例2 统计下列五行字符串中字符a 、g 、c 、t 出现的频数

1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg

2.cggaggacaaacgggatggcggtattggaggtggcggactgttcgggga

3.gggacggatacggattctggccacggacggaaaggaggacacggcggacataca

4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagctta

5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggc

解 把上述五行复制到一个纯文本数据文件shuju.txt 中,放在matlab\work 子目录

下,编写如下程序:

clc

fid1=fopen('shuju.txt','r');

i=1;

while (~feof(fid1))

data=fgetl(fid1);

a=length(find(data==97));

b=length(find(data==99));

c=length(find(data==103));

d=length(find(data==116));

e=length(find(data>=97&data<=122));

f(i,:)=[a b c d e a+b+c+d];

i=i+1;

end

f

he=[sum(f(:,1)) sum(f(:,2)) sum(f(:,3)) sum(f(:,4))...

sum(f(:,5)) sum(f(:,6))]

fid2=fopen('pinshu.txt','w');

fprintf(fid2,'%8d %8d %8d %8d %8d %8d\n',f');

fclose(fid1);fclose(fid2);

我们把统计结果最后写到一个纯文本文件pinshu.txt 中,在程序中多引进了几个变量,是为了检验字符串是否只包含a 、g 、c 、t 四个字符。

1.3 统计量

假设有一个容量为n 的样本(即一组数据),记作),,,(21n x x x x ,需要对它进

行一定的加工,才能提出有用的信息,用作对总体(分布)参数的估计和检验。统计量就是加工出来的、反映样本数量特征的函数,它不含任何未知量。

下面我们介绍几种常用的统计量。

(i )表示位置的统计量—算术平均值和中位数 算术平均值(简称均值)描述数据取值的平均位置,记作x ,

∑==n

i i x n x 1

1 (1) 中位数是将数据由小到大排序后位于中间位置的那个数值。

Matlab 中mean(x)返回x 的均值,median(x)返回中位数。

(ii )表示变异程度的统计量—标准差、方差和极差

标准差s 定义为

2112)(11????

??--=∑=n i i x x n s (2) 它是各个数据与均值偏离程度的度量,这种偏离不妨称为变异。 方差是标准差的平方2s 。

极差是),,,(21n x x x x =的最大值与最小值之差。

Matlab 中std(x)返回x 的标准差,var(x)返回方差,range(x)返回极差。

你可能注意到标准差s 的定义(2)中,对n 个)(x x i -的平方求和,却被)1(-n 除,这是出于无偏估计的要求。若需要改为被n 除,Matlab 可用std(x,1)和var(x,1)来实现。

(iii )中心矩、表示分布形状的统计量—偏度和峰度

随机变量x 的r 阶中心矩为r

Ex x E )(-。

随机变量x 的偏度和峰度指的是x 的标准化变量Dx Ex x /)(- 的三阶中心矩和四阶中心矩: ()[](),)()()()(2/33

31x D x E x E x D x E x E -=???

????????? ??-=ν ()[]

().)()()()(24

42x D x E x E x D x E x E -=???

????????? ??-=ν 偏度反映分布的对称性,01>ν称为右偏态,此时数据位于均值右边的比位于左边的多;01<ν称为左偏态,情况相反;而1ν接近0则可认为分布是对称的。 峰度是分布形状的另一种度量,正态分布的峰度为3,若2ν比3大得多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可以用作衡量偏离正态分布的尺度之一。

Matlab 中moment(x,order)返回x 的order 阶中心矩,order 为中心矩的阶数。skewness(x)返回x 的偏度,kurtosis(x)返回峰度。

在以上用Matlab 计算各个统计量的命令中,若x 为矩阵,则作用于x 的列,返回一个行向量。

对例1给出的学生身高和体重,用Matlab 计算这些统计量,程序如下:

clc

load data.txt;

high=data(:,1:2:9);high=high(:);

weight=data(:,2:2:10);weight=weight(:);

shuju=[high weight];

jun_zhi=mean([high weight])

zhong_wei_shu=median(shuju)

biao_zhun_cha=std(shuju)

ji_cha=range(shuju)

pian_du=skewness(shuju)

feng_du=kurtosis(shuju)

统计量中最重要、最常用的是均值和标准差,由于样本是随机变量,它们作为样本的函数自然也是随机变量,当用它们去推断总体时,有多大的可靠性就与统计量的概率分布有关,因此我们需要知道几个重要分布的简单性质。

1.4 统计中几个重要的概率分布

1.4.1 分布函数、密度函数和分位数

随机变量的特性完全由它的(概率)分布函数或(概率)密度函数来描述。设有随机变量X ,其分布函数定义为x X ≤的概率,即}{)(x X P x F ≤=。若X 是连续型随机变量,则其密度函数)(x p 与)(x F 的关系为

?∞-=x

dx x p x F )()(.

分位数是下面常用的一个概念,其定义为:对于10<<α,使某分布函数α=)(x F 的x ,成为这个分布的α分位数,记作αx 。

我们前面画过的直方图是频数分布图,频数除以样本容量n ,称为频率,n 充分大时频率是概率的近似,因此直方图可以看作密度函数图形的(离散化)近似。

1.4.2 统计中几个重要的概率分布

(i )正态分布

正态分布随机变量X 的密度函数曲线呈中间高两边低、对称的钟形,期望(均值)

μ=EX ,方差2σ=DX ,记作),(~2σμN X ,σ称均方差或标准差,

当1,0==σμ时称为标准正态分布,记作)1,0(~N X 。正态分布完全由均值μ和方差2σ决定,它

的偏度为0,峰度为3。

正态分布可以说是最常见的(连续型)概率分布,成批生产时零件的尺寸,射击中弹着点的位置,仪器反复量测的结果,自然界中一种生物的数量特征等,多数情况下都服从正态分布,这不仅是观察和经验的总结,而且有着深刻的理论依据,即在大量相互独立的、作用差不多大的随机因素影响下形成的随机变量,其极限分布为正态分布。

鉴于正态分布的随机变量在实际生活中如此地常见,记住下面3个数字是有用的: 68%的数值落在距均值左右1个标准差的范围内,即

68.0}{=+≤≤-σμσμX P ;

95%的数值落在距均值左右2个标准差的范围内,即

95.0}22{=+≤≤-σμσμX P ;

99.7%的数值落在距均值左右3个标准差的范围内,即

997.0}33{=+≤≤-σμσμX P .

(ii )2χ分布(Chi square)

若n X X X ,,,21 为相互独立的、服从标准正态分布)1,0(N 的随机变量,则它们的平方和∑==n i i X

Y 12服从2χ分布,记作)(~2n Y χ,n 称自由度,它的期望n EY =,

方差n DY 2=。

(iii )t 分布

若)1,0(~N X ,)(~2n Y χ,且相互独立,则n Y X

T /=服从t 分布,记作

)(~n t T ,n 称自由度。t 分布又称学生氏(Student)分布。

t 分布的密度函数曲线和)1,0(N 曲线形状相似。理论上∞→n 时,)1,0()(~N n t T →,实际上当30>n 时它与)1,0(N 就相差无几了。

(iv )F 分布

若)(~12n X χ,)(~22n Y χ,且相互独立,则2

1//n Y n X F =服从F 分布,记作),(~21n n F F ,),(21n n 称自由度。

1.4.3 Matlab 统计工具箱(Toolbox\Stats)中的概率分布

Matlab 统计工具箱中有20种概率分布,这里只对上面所述4种分布列出命令的字符:

norm 正态分布; chi2 2

χ分布;

t t 分布 f F 分布

工具箱对每一种分布都提供5类函数,其命令的字符是:

pdf 概率密度; cdf 分布函数; inv 分布函数的反函数;

stat 均值与方差; rnd 随机数生成

当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数就行了,如:

p=normpdf(x,mu,sigma) 均值mu 、标准差sigma 的正态分布在x 的密度函数 (mu=0,sigma=1时可缺省)。

p=tcdf(x,n) t 分布(自由度n )在x 的分布函数。

x=chi2inv(p,n) 2χ分布(自由度n )使分布函数F(x)=p 的x(即p 分位数)。

[m,v]=fstat(n1,n2) F 分布(自由度n1,n2)的均值m 和方差v 。

几个分布的密度函数图形就可以用这些命令作出,如:

x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);

plot(x,y,x,z),gtext('N(0,1)'),gtext('N(0,2^2)')

分布函数的反函数的意义从下例看出:

x=chi2inv(0.9,10)

x =

15.9872

如果反过来计算,则

P=chi2cdf(15.9872,10)

P =

0.9000

1.5 正态总体统计量的分布

用样本来推断总体,需要知道样本统计量的分布,而样本又是一组与总体同分布的随机变量,所以样本统计量的分布依赖于总体的分布。当总体服从一般的分布时,求某个样本统计量的分布是很困难的,只有在总体服从正态分布时,一些重要的样本统计量(均值、标准差)的分布才有便于使用的结果。另一方面,现实生活中需要进行统计推断的总体,多数可以认为服从(或近似服从)正态分布,所以统计中人们在正态总体的假定下研究统计量的分布,是必要的与合理的。

设总体),(~2σμN X ,n x x x ,,,21 为一容量n 的样本,其均值x 和标准差s 由式(1)、(2)确定,则用x 和s 构造的下面几个分布在统计中是非常有用的。

),(~2

n N x σμ 或 )1,0(~/N n x σμ

- (3) ).1(~)1(222

--n s n χσ (4)

)1(~/--n t n

s x μ (5) 设有两个总体),(~221σμN X 和),(~222σμN Y ,及由容量分别为1n ,2n 的两个样本确定的均值y x ,和标准差21,s s ,则

)1,0(~//)()(22212121N n n y x σσμμ+--- (6) )2(~//)

()(212

21221-++---n n t n s n s y x μμ (7)

其中2)1()1(212222112-+-+-=n n s n s n s , )1,1(~//2122

222121--n n F s s σσ (8) 对于(7)式,假定21σσ=,但它们未知,于是用s 代替。在下面的统计推断中我们要反复用到这些分布。

§2 参数估计

利用样本对总体进行统计推断的一类问题是参数估计,即假定已知总体的分布,通常是),(~2σμN X ,估计参数的分布,如2

,σμ。参数估计分点估计和区间估计两种。

2.1 点估计

点估计是用样本统计量确定总体参数的一个数值。评价估计优劣的标准有无偏性、最小方差性、有效性等,估计的方法有矩法、极大似然法等。

最常用的是对总体均值μ和2σ方差(或标准差σ)作点估计。让我们暂时抛开评价标准,当从一个样本按照式(1)、(2)算出样本均值x 和方差2s 后,对μ和2σ(或σ)一个自然、合理的点估计显然是(在字母上加^表示它的估计值) x =μ?,22?s =σ, s =σ? (9)

2.2 区间估计

点估计虽然给出了待估参数的一个数值,却没有告诉我们这个估计值的精度和可信程度。一般地,总体的待估参数记作θ(如2

,σμ),由样本算出的θ的估计量记作θ?,人们常希望给出一个区间]?,?[2

1θθ,使θ以一定的概率落在此区间内。若有 αθθθ-=<<1}??{2

1P ,10<<α (10) 则]?,?[21θθ称为θ的置信区间,2

1?,?θθ分别称为置信下限和置信上限,α-1称为置信概

率或置信水平,α称为显著性水平。

给出的置信水平为α-1的置信区间]?,?[2

1θθ,称为θ的区间估计。置信区间越小,估计的精度越高;置信水平越大,估计的可信程度越高。但是这两个指标显然是矛盾的,通常是在一定的置信水平下使置信区间尽量小。通俗地说,区间估计给出了点估计的误差范围。

2.3 参数估计的Matlab 实现

Matlab 统计工具箱中,有专门计算总体均值、标准差的点估计和区间估计的函数。对于正态总体,命令是

[mu,sigma,muci,sigmaci]=normfit(x,alpha)

其中x 为样本(数组或矩阵),alpha 为显著性水平α(alpha 缺省时设定为0.05),返回总体均值μ和标准差σ的点估计mu 和sigma ,及总体均值μ和标准差σ的区间估计muci 和sigmaci 。当x 为矩阵时返回行向量。

Matlab 统计工具箱中还提供了一些具有特定分布总体的区间估计的命令,如expfit ,poissfit ,gamfit ,你可以从这些字头猜出它们用于哪个分布,具体用法参见帮助系统。

§3 假设检验

统计推断的另一类重要问题是假设检验问题。在总体的分布函数完全未知或只知其形式但不知其参数的情况,为了推断总体的某些性质,提出某些关于总体的假设。例如,提出总体服从泊松分布的假设,又如对于正态总体提出数学期望等于0μ的假设等。假设检验就是根据样本对所提出的假设做出判断:是接受还是拒绝。这就是所谓的假设检验问题。

3.1 单个总体),(2σμN 均值μ的检验

原假设(或零假设)为:00:μμ=H 。

备选假设有三种可能:

01:μμ≠H ;01:μμ>H ;01:μμ

3.1.1 2

σ已知,关于μ的检验(u 检验)

在Matlab 中u 检验法由函数ztest 来实现,命令为

[h,p,ci]=ztest(x,mu,sigma,alpha,tail)

其中输入参数x 是样本,mu 是0H 中的0μ,sigma 是总体标准差σ,alpha 是显著性水平α(alpha 缺省时设定为0.05),tail 是对备选假设1H 的选择:1H 为0μμ≠时用tail=0(可缺省);1H 为0μμ>时用tail=1;1H 为0μμ<时用tail=-1。输出参数h=0表示接受0H ,h=1表示拒绝0H ,p 表示在假设0H 下样本均值出现的概率,p 越小0H 越值得怀疑,ci 是0μ的置信区间。

例3 某车间用一台包装机包装糖果。包得的袋装糖重是一个随机变量,它服从正态分布。当机器正常时,其均值为0.5公斤,标准差为0.015公斤。某日开工后为检验包装机是否正常,随机地抽取它所包装的糖9袋,称得净重为(公斤):

0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512 问机器是否正常?

解 总体σ已知,)015.0,(~2μN x ,μ未知。于是提出假设5.0:00==μμH 和5.0:1≠μH 。

Matlab 实现如下:

x=[0.497 0.506 0.518 0.524 0.498...

0.511 0.520 0.515 0.512];

[h,p,ci]=ztest(x,0.5,0.015)

求得h=1,p=0.0248,说明在0.05的水平下,可拒绝原假设,即认为这天包装机工作不正常。

3.1.2 2

σ未知,关于μ的检验(t 检验)

在Matlab 中t 检验法由函数ttest 来实现,命令为

[h,p,ci]=ttest(x,mu,alpha,tail)

例4 某种电子元件的寿命x (以小时计)服从正态分布,2,σμ均未知.现得16只元件的寿命如下:

159 280 101 212 224 379 179 264

222 362 168 250 149 260 485 170

问是否有理由认为元件的平均寿命大于225(小时)?

解 按题意需检验

225:,225:100>=≤μμμH H ,

取05.0=α。Matlab 实现如下:

x=[159 280 101 212 224 379 179 264 ...

222 362 168 250 149 260 485 170];

[h,p,ci]=ttest(x,225,0.05,1)

求得h=0,p=0.2570,说明在显著水平为0.05的情况下,不能拒绝原假设,认为元件的平均寿命不大于225小时。

3.2 两个正态总体均值差的检验(t 检验)

还可以用t 检验法检验具有相同方差的2个正态总体均值差的假设。在Matlab 中由函数ttest2实现,命令为:

[h,p,ci]=ttest2(x,y,alpha,tail)

与上面的ttest 相比,不同处只在于输入的是两个样本x,y (长度不一定相同),而不是一个样本和它的总体均值;tail 的用法与ttest 相似,可参看帮助系统。

例 5 在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,试验是在同一平炉上进行的。每炼一炉钢时除操作方法外,其它条件都可能做到相同。先用标准方法炼一炉,然后用建议的新方法炼一炉,以后交换进行,各炼了10炉,其得率分别为

1°标准方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3 2°新方法 79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1 设这两个样本相互独立且分别来自正态总体),(21σμN 和),(22σμN ,221,,σμμ均未知,问建议的新方法能否提高得率?(取05.0=α。)

解 (i )需要检验假设

0:210=-μμH ,0:211<-μμH .

(ii)Matlab 实现

x=[78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3]; y=[79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1];

[h,p,ci]=ttest2(x,y,0.05,-1)

求得h=1,p=2.2126×10-4。表明在05.0=α的显著水平下,可以拒绝原假设,即认

为建议的新操作方法较原方法优。

3.3 分布拟合检验

在实际问题中,有时不能预知总体服从什么类型的分布,这时就需要根据样本来检验关于分布的假设。下面介绍2χ检验法和专用于检验分布是否为正态的“偏峰、峰度检验法”。

3.3.1 2χ检验法

0H :总体x 的分布函数为)(x F ,

1H : 总体x 的分布函数不是).(x F

在用下述2χ检验法检验假设0H 时,若在假设0H 下)(x F 的形式已知,但其参数值未知,这时需要先用极大似然估计法估计参数,然后作检验。

2χ检验法的基本思想如下:将随机试验可能结果的全体Ω分为k 个互不相容的事件k A A A A ,...,,,321 ),,2,1, ,,,(1k j i j i A A A

j i k i k =≠Φ=Ω=∑=。

于是在假设0H 下,我们可以计算)(i i A P p =(或)(??i i A P p =),k i ,...,2

,1=。在n 次试验中,事件i A 出现的频率n f i /与i p (i p

?)往往有差异,但一般来说,若0H 为真,且试验的次数又甚多时,则这种差异不应该很大。基于这种想法,皮尔逊使用 ∑=-=k i i np i np i

f 12)(2χ????

? ??∑=-=k i i p n i p n i f 1?2)?(2χ或 (11) 作为检验假设0H 的统计量。并证明了以下定理。

定理 若n 充分大,则当0H 为真时(不论0H 中的分布属什么分布),统计量(11)总是近似地服从自由度为1--r k 的2

χ分布,其中r 是被估计的参数的个数。

于是,若在假设0H 下算得(11)有

),1(22--≥r k a χχ 在显著性水平α下拒绝0H ,否则就接受。

注意:在使用2

χ检验法时,要求样本容量n 不小于50,以及每个i np 都不小于5,而且i np 最好是在5以上。否则应适当地合并i A ,以满足这个要求。

例6 下面列出了84个伊特拉斯坎(Etruscan )人男子的头颅的最大宽度(mm ),试检验这些数据是否来自正态总体(取)1.0=α。

141 148 132 138 154 142 150 146 155 158

150 140 147 148 144 150 149 145 149 158

143 141 144 144 126 140 144 142 141 140

145 135 147 146 141 136 140 146 142 137

148 154 137 139 143 140 131 143 141 149

148 135 148 152 143 144 141 143 147 146

150 132 142 142 143 153 149 146 149 138

142 149 142 137 134 144 146 147 140 142

140 137 152 145

解 编写Matlab 程序如下:

clc

x=[141 148 132 138 154 142 150 146 155 158 ...

150 140 147 148 144 150 149 145 149 158 ...

143 141 144 144 126 140 144 142 141 140 ...

145 135 147 146 141 136 140 146 142 137 ...

148 154 137 139 143 140 131 143 141 149 ...

148 135 148 152 143 144 141 143 147 146 ...

150 132 142 142 143 153 149 146 149 138 ...

142 149 142 137 134 144 146 147 140 142 ...

140 137 152 145];

min(x),max(x) %求数据中的最小数和最大数

hist(x,8) %画直方图

fi=[length(find(x<135)),...

length(find(x>=135&x<138)),...

length(find(x>=138&x<142)),...

length(find(x>=142&x<146)),...

length(find(x>=146&x<150)),...

length(find(x>=150&x<154)),...

length(find(x>=154))] %各区间上出现的频数

mu=mean(x),sigma=std(x) %均值和标准差

fendian=[135,138,142,146,150,154] %区间的分点

p0=normcdf(fendian,mu,sigma) %分点处分布函数的值

p1=diff(p0) %中间各区间的概率

p=[p0(1),p1,1-p0(6)] %所有区间的概率

chi=(fi-84*p).^2./(84*p)

chisum=sum(chi) %皮尔逊统计量的值

x_a=chi2inv(0.9,4) %chi2分布的0.9分位数

求得皮尔逊统计量chisum=1.9723,7.7794

)4()127(21.021.0==--χχ,故在水平0.1下接受0H ,即认为数据来自正态分布总体。

3.3.2 偏度、峰度检验(留作习题1)

3.4 其它非参数检验

Matlab 还提供了一些非参数方法。

3.4.1 Wilcoxon 秩和检验

在Matlab 中,秩和检验由函数ranksum 实现。命令为:

[p,h]=ranksum(x,y,alpha)

其中x ,y 可为不等长向量,alpha 为给定的显著水平,它必须为0和1之间的数量。p 返回产生两独立样本的总体是否相同的显著性概率,h 返回假设检验的结果。如果x 和y 的总体差别不显著,则h 为零;如果x 和y 的总体差别显著,则h 为1。如果p 接近于零,则可对原假设质疑。

例7 某商店为了确定向公司A 或公司B 购买某种产品,将B A ,公司以往各次进货的次品率进行比较,数据如下所示,设两样本独立。问两公司的商品的质量有无显著差异。设两公司的商品的次品的密度最多只差一个平移,取05.0=α。

A :7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5

B :5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3

解 分别以B A μμ、记公司B A 、的商品次品率总体的均值。所需检验的假设是 B A H μμ=:0,B A H μμ≠:1.

Matlab 实现如下:

a=[7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5];

b=[5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3];

[p,h]=ranksum(a,b)

求得p=0.8041,h=0,表明两样本总体均值相等的概率为0.8041,并不很接近于零,且h=0说明可以接受原假设,即认为两个公司的商品的质量无明显差异。

3.5 中位数检验

在假设检验中还有一种检验方法为中位数检验,在一般的教学中不一定介绍,但在实际中也是被广泛应用到的。在Matlab 中提供了这种检验的函数。函数的使用方法简单,下面只给出函数介绍。

3.5.1 signrank 函数

signrank Wilcoxon 符号秩检验

[p,h]=signrank(x,y,alpha)

其中p 给出两个配对样本x 和y 的中位数相等的假设的显著性概率。向量x ,y 的长度必须相同,alpha 为给出的显著性水平,取值为0和1之间的数。h 返回假设检验的结果。如果这两个样本的中位数之差几乎为0,则h=0;若有显著差异,则h=1。

3.5.2 signtest 函数

signtest 符号检验

[p,h]= signtest(x,y,alpha)

其中p 给出两个配对样本x 和y 的中位数相等的假设的显著性概率。x 和y 若为向量,二者的长度必须相同;y 亦可为标量,在此情况下,计算x 的中位数与常数y 之间的差异。alpha 和h 同上。

习 题 十

1. 试用偏度、峰度检验法检验例6中的数据是否来自正态总体(取1.0=α)。

2. 下面列出的是某工厂随机选取的20只部件的装配时间(分):

9.8,10.4,10.6,9.6,9.7,9.9,10.9,11.1,9.6,10.2,10.3,9.6,9.9,11.2,10.6,9.8,10.5,10.1,10.5,9.7。设装配时间的总体服从正态分布,是否可以认为装配时间的均值显著地大于10(取05.0=α)?

3.下表分别给出两个文学家马克﹒吐温(Mark Twain)的八篇小品文及斯诺特格拉斯(Snodgrass )的10篇小品文中由3个字母组成的词的比例。

马克﹒吐温 0.225 0.262 0.217 0.240 0.230 0.229 0.235 0.217 斯诺特格拉斯 0.209 0.205 0.196 0.210 0.202 0.207 0.224 0.223

0.220 0.201

设两组数据分别来自正态总体,且两总体方差相等。两样本相互独立,问两个作家所写的小品文中包含由3个字母组成的词的比例是否有显著的差异(取05.0=α)?

第2章统计数据的描述

第2章统计数据的描述——练习题 ●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型; (2)用Excel制作一张频数分布表; (3) 绘制一张条形图,反映评价等级的分布。 解:(1)由于表中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。 (2)频数分布表如下: 服务质量等级评价的频数分布 服务质量等级家庭数(频数)频率% A1414 B2121 C3232 D1818

E1515 合计100100 (3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→条形图→选择子图表类型→完成(见Excel练习题。即得到如下的条形图: 700716728719685709691684705718 706715712722691708690692707701 708729694681695685706661735665 668710693697674658698666696698 706692691747699682698700710722 694690736689696651673749708727 688689683685702741698713676702 701671718707683717733712683692 693697664681721720677679695691 713699725726704729703696717688 (1)利用计算机对上面的数据进行排序;

SAS数据的描述性统计分析答案

实验一数据的描述性统计分析 一、选择题 1、以下( B )语句对变量进行分组,在使用前需按分组变量进行排序? 以下( C )语句可对变量进行分类,在使用前不必按分类变量进行排序? 用( A )语句可以选择输入数据集的一个行子集来进行分析? (A)WHERE语句(B)BY语句(C)CLASS语句(D)FREQ语句2、排序过程步中必须用什么语句对变量进行排序?( A ) (A)BY语句(B)CLASS语句(C)WHERE语句 3、如果要对数据集中的数据进行正态性检验,需要使用哪个过程?( B )(A)MEANS (B)UNIV ARIATE (C)FREQ 4、用UNIV ARIATE过程进行数据分析,要求此过程输出茎叶图、正态概率图等,应在语句中加上什么选项?(plot ) 5、用UNIV ARIATE过程进行数据分析,在输出结果中哪个统计量是对样本均值 为零的T检验的概率值?( A ) (A)T: Mean (B)Prob>|S| (C)Sgn Rank (D)Prob>|T| 二、假设某校100名女生的血清总蛋白含量(g/L)服从均值为75,标准差为3的正态分布,试产生样本数据,并利用SAS软件解决下面问题: 1、计算样本均值、方差、标准差、极差、四分位极差、变异系数、偏度、峰度; 2、画出直方图(垂直条形图); 3、画出茎叶图、盒形图和正态概率图; 4、试进行正态性检验。 Data N; DO i=1to100; x=75+3*normal(12345); output; end; proc print; run; proc univariate data=N; var x; run; proc gchart data=N; block x; run; proc univariate data=N plot; var x;

描述性统计分析报告--Descriptive Statistics菜单详解

第六章:描述性统计分析-- Descriptive Statistics菜单详解 描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程的特色是产生频数表;Descriptives过程则进行一般性的统计描述;Explore过程用于对数据概况不清时的探索性分析;Crosstabs 过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。 本章讲述的四个过程在9.0及以前版本中被放置在Summarize菜单中。 §6.1 Frequencies过程 频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图,圆图等统计图。 和国内常用的频数表不同,几乎所有统计软件给出的均是详细频数表,即并 不按某种要求确定组段数和组距,而是按照数值精确列表。如果想用Frequencies过程得到我们所熟悉的频数表,请先用第二章学过的Recode过程产生一个新变量来代表所需的各组段。 6.1.1 界面说明 Frequencies对话框的界面如下所示:

该界面在SPSS中实在太普通了,无须多言,重点介绍一下各部分的功能如下:【Display frequency tables复选框】 确定是否在结果中输出频数表。 【Statistics钮】 单击后弹出Statistics对话框如下,用于定义需要计算的其他描述统计量。 现将各部分解释如下:

利用Excel进行数据整理和描述性统计分析

实训一利用Excel进行数据整理和描述性统计分析 一、实训目的 目的有三:(1)掌握Excel中基本的数据处理方法;(2)学会使用Excel进行统计分组;(3)学会使用Excel计算各种描述性统计指标,能以此方式独立完成相关作业。 二、实训要求 1、已学习教材相关内容,理解数据整理中的统计计算问题;理解描述性统计指标中的统计计算问题;已阅读本次实训指导书,了解Excel中相关的计算工具。 2、准备好一个统计分组问题、准备好一个或几个描述性统计指标计算问题及相应数据(可用本实训所提供问题与数据)。 3、以Word文件形式(其中的统计表和统计图用Excel制作)提交实训报告(含:实训过程记录、疑难问题发现与解决记录(可选))。此条为所有实训所要求。 三、实训内容和操作步骤 (一)问题与数据 有顾客反映某家航空公司售票处售票的速度太慢。为此,航空公司收集了解100位顾客购票所花费时间的样本数据(单位:分钟),结果如下表。

航空公司认为,为一位顾客办理一次售票业务所需的时间在五分钟之内就是合理的。上面的数据是否支持航空公司的说法顾客提出的意见是否合理请你对上面的数据进行适当的分析,回答下列问题。 (1)对数据进行等距分组,整理成频数分布表,并绘制频数分布图(直方图、折线图、饼图)。 (2)根据分组后的数据,计算中位数、众数、算术平均数和标准差。 (3)分析顾客提出的意见是否合理为什么 (4)使用哪一个平均指标来分析上述问题比较合理 答:(1): 2:

从表中我们可以得到中位数为众数为1平均数为标准差为 (3):合理,虽然他的平均数是<5属于正常范围,但是依旧有将近20%的购票时间>5分钟属于超过正常范围,那就是速度太慢了。平均数不能代表一切。 所以顾客提出的理由是正确的,购票太慢的现象确实存在。 (4):平均数比较合理,它能较好的反映购票的大概时间。比较有代表性! 实训二用Excel数据分析功能进行统计整理 和计算描述性统计指标 一、实训目的 学会使用Excel数据分析功能进行统计整理和计算各种描述性统计指标,能以此方式独立完成相关作业。 二、实训要求 1、已学习教材相关内容,理解统计整理和描述性统计指标中的统计计算问题;已阅读本次实验导引,了解Excel中相关的计算工具。 2、准备好一个统计分组问题、准备好一个或几个数字特征计算问题及相应数据(可用本实验导引所提供问题与数据)。 3、以Word文件形式(其中的统计表和统计图用Excel制作)提交实训报告(含:实训过程记录、疑难问题发现与解决记录(可选))。此条为所有实训所要求。 三、实训内容和操作步骤

第四章统计数据的描述

第四章统计数据的描述 (一)判断题 1、以最低限度为任务提出的计划指标,计划完成程度以不超过100%为好。() 2、全国人均国民生产总值,属于强度相对数。() 3、标志总量是指总体单位某一数量标志值的总和。() 4、在计算相对指标时,分子、分母可以互换的相对指标唯一只有强度相对数。() 5、某企业工人劳动生产率,计划提高5%,实际提高10%,则劳动生产率的计划完成程度为%。() 6、权数的实质是各组单位数占总体单位数的比重。() 7、在算术平均数中,若每个变量值减去一个任意常数a,等于平均数减去该数a。() 8、各个变量值与其平均数离差之和可以大于0,可以小于0,当然也可以等于0。() 9、各个变量值与任意一个常数的离差之和可以大于0,可以小于0,当然也可以等于0。 () 10、各个变量值与其平均数离差的平方之和一定等于0。() 11、各个变量值与其平均数离差的平方之和可以等于0。() 12、各个变量值与其平均数离差的平方之和为最小。() 13、已知一组数列的方差为9,离散系数为30%,则其平均数等于30。() 14、交替标志的平均数等于P。() 15、对同一数列,同时计算平均差和标准差,两者数值必然相等。() 16、平均差和标准差都表示标志值对算术平均数的平均距离。() 17、某分布数列的偏态系数为,说明它的分布曲线为左偏。() (二)单项选择题 1、某种商品的年末库存额是()。 A. 时期指标和实物指标

B. 时点指标和实物指标 C. 时期指标和价值指标 D. 时点指标和价值指标 2、绝对指标的基本特点是计量单位都是() A. 无名数 B. 有名数 C. 复名数 D. 无名数和有名数 3、相对指标数值的表现形式有() A. 无名数 B. 有名数 C. 复名数 D. 无名数和有名数 4、相对指标数值的大小() A. 随总体范围扩大而增大 B. 随总体范围扩大而减小 C. 随总体范围缩小而减小 D. 与总体范围大小无关 5、人口自然增长率,属于() A. 结构相对数 B. 比较相对数 C. 强度相对数 D. 比例相对数 6、平均数反映了总体分布的()。 A. 集中趋势 B. 离中趋势 C. 长期趋势

数据的统计描述和分析.doc

第十章 数据的统计描述和分析 数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是以概率论为基础的一门应用学科。 数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息的数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统计的最基本方法。 我们将用Matlab 的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。 §1 统计的基本概念 1.1 总体和样本 总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品及废品分类),学校全体学生的身高。 总体中的每一个基本单位称为个体,个体的特征用一个变量(如x )来表示,如一件产品是合格品记0=x ,是废品记1=x ;一个身高170(cm )的学生记170=x 。 从总体中随机产生的若干个个体的集合称为样本,或子样,如n 件产品,100名学生的身高,或者一根轴直径的10次测量。实际上这就是从总体中随机取得的一批数据,不妨记作n x x x ,,,21Λ,n 称为样本容量。 简单地说,统计的任务是由样本推断总体。 1.2 频数表和直方图 一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对这组数据的一个初步整理和直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图。 若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助Matlab 这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。 例1 学生的身高和体重

描述性统计分析-Eviews

主讲人:刘莎莎 第三讲 描述性统计分析
一、 序列窗口下的描述性统计分析
知识点 1:如何以建立组对象的方式将数据导入到 Eviews 中去(第二种导入数 据的方式) 。 知识点 2:如何在序列窗口下实现简单描述性统计量和直方图,将直方图和正态 分布曲线叠加在一起,从而更直观地观察数据的分布特征。 (如何将 EViews 图形 复制粘贴到 word 中) 知识点 3:如何在序列窗口下实现描述性统计量的假设检验 知识点 4:如何实现将单序列按某一变量分类后再进行描述性统计分析(本案例 的分类变量是该天是星期几) 知识点 5:如何实现将单序列按某一变量分类后再进行假设检验 知识点 6:如何画上证综指日对数收益率的 QQ 图 知识点 7:如何估计数据的经验分布函数的参数 案例数据说明:2003 年 1 月 6 日-2009 年 6 月 26 日上证综指日对数收益率。
二、序列组窗口下的描述性统计分析
知识点 1:如何通过打开 excel 文件的方式将数据导入到 Eviews 中去。 (第三种 导入数据的方式) 。 知识点 2:如何实现多变量的描述性统计量 知识点 3:如何实现多变量描述性统计量的假设检验 案例数据说明:国家统计调查队分别在两个地区调查了 10 个家庭的收入 知识点 4:如何计算当前序列组的相关系数矩阵,协方差矩阵

主讲人:刘莎莎
案例数据说明:1983-2000 年我国粮食生产与相关投入的数据,变量包括粮食产 量(单位:万吨)、农业化肥施用量(单位:万千克)、粮食播种面积(单位: 公顷)
附注:描述性统计量的计算公式
标准差(Std.Dev.)的计算公式是:
s=
2 ( y ? y ) ∑ t t =1
T
T ?1
其中,
yt 是观测值, y 是样本平均数。
偏度(Skewness)的计算公式是:
1 T yt ? y 3 S = ∑( ) T t =1 s
其中,
yt 是观测值, y 是样本平均数,s 是样本标准差,T 是样本容量。对
称分布的偏度是零,比如正态分布。
峰度(Kurtosis)的计算公式是:
1 T yt ? y 4 S = ∑( ) T t =1 s
其中,
yt 是观测值, y 是样本平均数,s 是样本标准差,T 是样本容量。
正态分布的峰度值是 3。

多组和分类数据的描述性统计分析

§3.2多组和分类数据的描述性统计分析17 ?盒子图 盒子图能够直观简洁地展现数据分布的主要特征.我们在R 中使用boxplot()函数作盒子图.在盒子图中,上下四分位数分别确定中间箱体的顶部和底部,箱体中间的粗线是中位数所在的位置.由箱体向上下伸出的垂直部分为“触须”(whiskers),表示数据的散布范围,其为1.5倍四分位间距内距四分位点最远的数据点.超出此范围的点可看作为异常点(outlier). §3.2多组和分类数据的描述性统计分析 在对于多组数据的描述性统计量的计算和图形表示方面,前面所介绍的部分方法不能够有效地使用,例如许多函数都不能直接对数据框进行操作.这时我们需要一些其他的函数配合使用. 1.图形表示: ?散点图:前面介绍的plot,可直接对数据框操作.此时将绘出数据框中所对应的所有变量两两之间的散点图.所做图框中第一行的散点图是以第一个变量为纵坐标,分别以第二、三...个变量为横坐标的散点图.这里数据举例说明. library(DAAG);plot(hills) ?盒子图:前面介绍的boxplot,亦可直接对数据框操作,其在同一个作图区域内画出各组数的盒子图.但是注意,此时由于不同组数据的尺度可能差别很大,这样的盒子图很多时候表达出来不是很有意义.boxplot(faithful).因此这样做比较适合多组数据具有同样意义或近似尺度的情形.例如,我们想做某一数值变量在某个因子变量的不同水平下的盒子图.我们可采用类似如下的命令: boxplot(skullw ~age,data=possum),亦可加上参数horizontal=T,将该盒子图横向放置. boxplot(possum$skullw ~possum$sex,horizontal=T) ?条件散点图:当数据集中含有一个或多个因子变量时,我们可使用条件散点图函数coplot()作出因子变量不同水平下的多个散点图,当然该方法也适用于各种给定条件或限制情形下的作图.其调用格式为 coplot(formula,data)比如coplot(possum[[9]]~possum[[7]] possum[[4]]),或 coplot(skullw ~taill age,data=possum); coplot(skullw ~taill age+sex,data=possum)

数据的描述性统计分析

统计分析往往是从了解数据的基本特征开始的。描述数据分布特征的统计量可分为两类:一类表示数量的中心位置,另一类表示数量的变异程度(或称离散程度)。两者相互补充,共同反映数据的全貌。 这些内容可以通过SPSS中的“Descriptive Statistics”菜单中的过程来完成。 1 频数分析 (Descriptive Statistics - Frequencies) 频数分布分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各 种统计量来描述数据的分布特征。 下面我们通过例子来学习单变量频数分析操作。 1) 输入分析数据 在数据编辑器窗口打开“data1-2.sav”数据文件。 2)调用分析过程 在主菜单栏单击“Analyze”,在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上,在出现的次菜单里单击“Frequencies”项,打开如图3-4所示的对话框。 图3-4 “Frequencies” 对话框 3)设置分析变量 从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。在这里我们选“三化 螟蚁螟[虫口数]”变量进入“Variable(s):”框。 4)输出频数分布表

Display frequency tables,选中显示。 5)设置输出的统计量 单击“Statistics”按钮,打开图3-5所示的对话框,该对话框用于选择统计量: 图3-5 “Statistics”对话框 ①选择百分位显示“Percentiles Values”栏: Quartiles:四分位数,显示25%、50%和75%的百分位数。 Cut points for 10 equal groups:将数据平分为输入的10个等份。 Percentile(s)::用户自定义百分位数,输入值0—100之间。选中此项后,可以利用“Add”、“Change”和 “Remove”按钮设置多个百分位数。 ②选择变异程度的统计量“Dispersion”:(离散趋势) Std.deviation标准差 Minimum 最小值 Variance 方差 Maximum 最大值 Range 极差 S.E.mean均值标准误 ③选择表示数据中心位置的统计量“Central Tendency”:(集中趋势) Mean 均值 Median 中位数 Mode 众数 Sum 算术和

第2章统计数据的描述

第二章统计数据的描述 一、单项选择题 1.下列中,最粗略、计量层次最低的计量尺度是() A.间隔尺度 B.顺序尺度 C.比例尺度 D.列名尺度 2.将全国人口按“民族”划分为汉、白、彝、回、藏…..,这里使用的计量尺度是() A.比例尺度 B.列名尺度 C.间隔尺度 D.顺序尺度 3.某个人对某一事物的态度可以划分为非常同意、同意、保持中立、不同意、非常不同意,这里使用的计量尺度是() A.列名尺度 B.间隔尺度 C.顺序尺度 D.比例尺度 4.下列中,计量层次的最高、最精确的计量尺度是() A.比例尺度 B.间隔尺度 C.顺序尺度 D.列名尺度 5.下列调查方式中,只能调查一些最基本、最一般现象的调查方式是() A.抽样调查 B.重点调查和典型调查 C.统计报表 D.普查 6.实际中应用最为广泛的一种调查方式是() A.重点调查 B.统计报表 C.普查 D.抽样调查 7.某城市拟对占全市储蓄额4/5的几个大储蓄所进行调查,以了解全市储蓄的一般情况,则这种调查方式是() A.抽样调查 B.典型调查 C.重点调查 D.普查 8.一次性调查是指() A.只做过一次的调查 B.调查一次以后不再调查 C.间隔一段时间在进行一次调查 D.只隔一年就进行一次的调查 9.在统计分析中,对累积的次数分配用得最直接的是() A.供给曲线 B.需求曲线 C.洛伦茨曲线 D.边际需求曲线 10.专门用来衡量和反映收入分配平均程度的统计指标是() A.基尼系数 B.可决系数 C.相关系数 D.离散系数 11.一般认为,基尼系数在()之间是比较恰当的。

A.0.1— —0.4 C.— —0..8 12.一般认为,基尼系数等于( )是收入分配不公平的警戒线。 A.0.2 B.0.6 C. 利用公式计算众数的基本假定之一是众数组的频数在该组内呈( ) A.正态分布 分布 C.均匀分布 D.偏态分布 14.计算中位数时,假定中位数所在组的频数在该组内呈( ) A.左偏分布 B.正态分布 C.右偏分布 D.均匀分布 15.反映数据分布集中趋势的最主要的测度值是( ) A.众数 B.中位数 C.均值 D.几何平均数 16.各个变量值与均值的离差之和( ) A.大于0 B.小于0 C.等于0 D.等于一个不为0的常数 17.各个变量值与均值的离差平方和( ) A.为最大 B.为最小 C.为0 D.为一个不为0的常数 18.下列中,专门用来衡量众数代表性大小的离散程度测度值是( ) A.异众比率 B.四分位差 C.方差或标准差 D.极差 19.下列中,专门用来衡量中位数代表性大小的离散程度测度值是( ) A.方差和标准差 B.内距 C.异众比率 D.平均差 20.下列中,适用于列名数据的集中趋势测度值是( ) A.众数 B.中位数 C.均值 D.几何均值 21.描述数据离散程度最简单的测度值是( ) A.平均差 B.方差和标准差 C.极差 D.四分位差 22.经验法则表明,当一组数据呈对称分布时,大约有95%的数据在( )范围之内。 A.σ±X B.σ2±X C.σ3±X D.σ4±X 23.用来对两组数据的差异程度进行比较的统计分析指标是( ) A.基尼系数 B.标准差系数 C.相关系数 D.可决系数 24.测定数据分布偏斜程度需要计算( )

描述性统计分析

描述性统计分析 作者:清华大学中国企业研究中心阅读次数:24704次发布日期:2005-07-04 在数据分析的时候,一般首先要对数据进行描述性统计分析(Descriptive Analysis),以发现其内在的规律,再选择进一步分析的方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。 (1)数据的频数分析:在数据的预处理部分,我们曾经提到利用频数分析和交叉频数分析来检验异常值。此外,频数分析也可以发现一些统计规律。比如说,收入低的被调查者用户满意度比收入高的被调查者高,或者女性的用户满意度比男性低等。不过这些规律只是表面的特征,在后面的分析中还要经过检验。 (2)数据的集中趋势分析:数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。各指标的具体意义如下: 平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。 中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。 众数:是指在数据中发生频率最高的数据值。 如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之

间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。

(3)数据的离散程度分析:数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。 (4)数据的分布:在统计分析中,通常要假设样本的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度;而峰度衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。 (5)绘制统计图:用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易的绘制各个变量的统计图形,包括条形图、饼图和折线图等。 示例SIM手机描述性统计分析 为简化起见,我们只分析SIM手机用户满意调查中的两个变量:“总体感知质量”和“总体满意度”变量。 (1)数据的频数分析 用SPSS软件的频数分析可以很容易地画出两个变量的频数图:

数据的统计描述和分析

第十章数据的统计描述和分析 数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是以概率论为基础的一门应用学科。 数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息的数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统计的最基本方法。 我们将用Matlab的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。 §1 统计的基本概念 1.1 总体和样本 总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品及废品分类),学校全体学生的身高。 总体中的每一个基本单位称为个体,个体的特征用一个变量(如)来表示,如一件产品是合格品记,是废品记;一个身高170(cm)的学生记。 从总体中随机产生的若干个个体的集合称为样本,或子样,如件产品,100名学生的身高,或者一根轴直径的10次测量。实际上这就是从总体中随机取得的一批数据,不妨记作,称为样本容量。 简单地说,统计的任务是由样本推断总体。 1.2 频数表和直方图 一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对这组数据的一个初步整理和直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图。 若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助Matlab这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。 例1 学生的身高和体重 身高体重身高体重身高体重身高体重身高体重 172 75 171 62 166 62 160 55 155 57 173 58 166 55 170 63 167 53 173 60 178 60 169 55 168 67 168 65 175 67 176 64 168 50 161 49 169 63 171 61 178 64 177 66 169 64 165 52 164 59 173 74 172 69 169 52 173 57 173 61 166 70 163 57 170 56 171 65 169 62 170 58 172 64 169 58 167 72 175 76 164 59 166 63 169 54 167 54 167 47 168 65 165 64 168 57 176 57 170 57 158 51 165 62 172 53 169 66 169 58

关于描述性统计分析

关于描述性统计分析 作者:记忆de&#…文章来源:csdn blog 点击数:156 更新时间:2007-2-12 在数据分析的时候,一般首先要对数据进行描述性统计分析(Descriptive Anal ysis),以发现其内在的规律,再选择进一步分析的方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。 (1)数据的频数分析:在数据的预处理部分,我们曾经提到利用频数分析和交叉频数分析来检验异常值。此外,频数分析也可以发现一些统计规律。比如说,收入低的被调查者用户满意度比收入高的被调查者高,或者女性的用户满意度比男性低等。不过这些规律只是表面的特征,在后面的分析中还要经过检验。 (2)数据的集中趋势分析:数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。各指标的具体意义如下: 平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。 中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。 众数:是指在数据中发生频率最高的数据值。 如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之

间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。 (3)数据的离散程度分析:数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。 (4)数据的分布:在统计分析中,通常要假设样本的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度;而峰度衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。 (5)绘制统计图:用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易的绘制各个变量的统计图形,包括条形图、饼图和折线图等。 示例SIM手机描述性统计分析 为简化起见,我们只分析SIM手机用户满意调查中的两个变量:“总体感知质量”和“总体满意度”变量。 (1)数据的频数分析 用SPSS软件的频数分析可以很容易地画出两个变量的频数图:

matlab在统计数据描述性分析的应用

统计数据的描述性分析 一、实验目的 熟悉在matlab中实现数据的统计描述方法,掌握基本统计命令:样本均值、样本中位数、样本标准差、样本方差、概率密度函数pdf、概率分布函数df、随机数生成rnd。 二、实验内容 1 、频数表和直方图 数据输入,将你班的任意科目考试成绩输入 >> data=[91 78 90 88 76 81 77 74]; >> [N,X]=hist(data,5) N = 3 1 1 0 3 X = 75.7000 79.1000 82.5000 85.9000 89.3000 >> hist(data,5)

2、基本统计量 1) 样本均值 语法: m=mean(x) 若x 为向量,返回结果m是x 中元素的均值; 若x 为矩阵,返回结果m是行向量,它包含x 每列数据的均值。 2) 样本中位数 语法: m=median(x) 若x 为向量,返回结果m是x 中元素的中位数; 若x 为矩阵,返回结果m是行向量,它包含x 每列数据的中位数3) 样本标准差 语法:y=std(x) 若x 为向量,返回结果y 是x 中元素的标准差; 若x 为矩阵,返回结果y 是行向量,它包含x 每列数据的标准差

std(x)运用n-1 进行标准化处理,n是样本的个数。 4) 样本方差 语法:y=var(x); y=var(x,1) 若x 为向量,返回结果y 是x 中元素的方差; 若x 为矩阵,返回结果y 是行向量,它包含x 每列数据的方差 var(x)运用n-1 进行标准化处理(满足无偏估计的要求),n 是样本的个数。var(x,1)运用n 进行标准化处理,生成关于样本均值的二阶矩。 5) 样本的极差(最大之和最小值之差) 语法:z= range(x) 返回结果z是数组x 的极差。 6) 样本的偏度 语法:s=skewness(x) 说明:偏度反映分布的对称性,s>0 称为右偏态,此时数据位于均值右边的比左边的多;s<0,情况相反;s 接近0 则可认为分布是对称的。 7) 样本的峰度 语法:k= kurtosis(x) 说明:正态分布峰度是3,若k 比3 大得多,表示分布有沉重的尾巴,即样本中含有较多远离均值的数据,峰度可以作衡量偏离正态分布的尺度之一。 >> mean(data) ,

spss教程常用的数据描述统计频数分布表等统计学

第二节常用的数据描述统计 本节拟讲述如何通过SPSS菜单或命令获得常用的统计量、频数分布表等。 1.数据 这部分所用数据为第一章例1中学生成绩的数据,这里我们加入描述学生性别的变量“sex”与班级的变量“class”,前几个数据显示如下(图2-2),将数据保存到名为“2-6-1、sav”的文件中。 图2-2:数据输入格式示例 1.Frequencies语句 (1)操作 打开数据文件“2-6-1、sav”,单击主菜单Analyze /Descriptive Statistics / F requencies…,出现频数分布表对话框如图2-3所示。 图2-3: Frequencies定义窗口 把score变量从左边变量表列中选到右边,并请注意选中下方的Display frequency table复选框(要求显示频数分布表)。如果您只要求得到一个频数分布表,那么就可以点OK按钮了。如果您想同时获得一些统计

量,及统计图表,还需要进一步设置。 ①Statistics选项 单击Statistics按钮,打开对话框,请按图2-4自行设置。有关说明如下: (ⅰ)在定义百分位值(percentile value)的矩形框中,选择想要输出的各种分位数,SPSS提供的选项有: ●Quartiles四分位数,即显示25%、50%、75%的百分位数。 ●Cut points equal 把数据平均分为几份。如本例中要求平均分为3份。 ●Percentile显示用户指定的百分位数,可重复多次操作。本例中要求15%、50%、85%的百分位数。(ⅱ) 在定义输出集中趋势(Central Tendency)的矩形框中,选择想要输出的集中统计量,常用的选项有: ●Mean 算术平均数 ●Median 中数 ●Mode 众数 ●Sum 算术与 (ⅲ)在定义输出离散统计量(Dispersion)的矩形框中,选择想要输出的离散统计量,常用的选项有: ●Std、Deviation 标准差 ●Variance 方差 ●Range 全距 ●Minimum 最小值 ●Maximum 最大值 ●S、E、mean 平均数的标准误 (ⅳ)描述数据分布(Distribution)的统计量 ●Skewness 偏度,非对称分布指数。 ●Kurtosis 峰度,CASE围绕中心点的扩展程度。 另外,频数过程(Frequence)除了能够提供上面常用的统计量外,还可以对分组数据计算百分位数与中数(Values are group midpoints),即对于已经分组的数据,并且数据中的原始数据表示的就是组中数的数据计算百分位数的值与中位数。

《统计学》--数据分布特征的统计描述练习

第三章数据分布特征的统计描述 练习题 一、单项选择题 1、一组数据排序后处于25%和75%位置上的值称为(C) A、众数 B、中位数 C、四分位数 D、均值 2、离散系数的主要用途是(C) A、反映一组数据的离散程度 B、反映一组数据的平均水平 C、比较多组数据的离散程度 D、比较多组数据的平均水平 3、离散系数(C) A、只能消除一组数据的水平对标准差的影响 B、只能消除一组数据的计量单位对标准差的影响 C、可以同时消除数据的水平和计量单位对标准差的影响 D、可以准确反映一组数据的离散程度 4、峰态通常是与标准正态分布相比较而言的,如果一组数据服从标准正态分布,则峰态系数的值(A) A、等于0 B、大于0 C、小于0 D、等于1 5、如果峰态系数K>0,表明该组数据是(A) A、尖峰分布 B、扁平分布 C、左偏分布 D、右偏分布 6、某大学经济管理学院有1200名学生,法学院有800名学生,医学院有320名学生,理学院有200名学生。在上面的描述中,众数是(B) A、1200 B、经济管理学院 C、200 D、理学院 7、某居民小区准备采取一项新的物业管理措施,为此,随机抽取了100户居民进行调查,其中表示赞成的有69户,表示中立的有22户,表示反对的有9户,描述该组数据的集中趋势宜采用(A) A、众数 B、中位数 C、四分位数 D、均值 8、甲、乙两组工人的平均日产量分别为18件和15件。若甲、乙两组工人的平均日产量不变,但是甲组工人数占两组工人总数的比重下降,则两组工人总平均日产量(B)

A、上升 B、下降 C、不变 D、可能上升,也可能下降 9、权数对平均数的影响作用取决于(C)。在统计计算中,用来衡量总体中各单位标志值在总体中作用大小的数值叫权数。 A、各组标志值的大小 B、各组的次数多少 C、各组次数在总体单位总量中的比重 D、总体单位总量 10、当各个变量值的频数相等时,该变量的(A) A、众数不存在 B、众数等于均值 C、众数等于中位数 D、众数等于最大的数据值 11、有8名研究生的年龄分别为21,24,28,22,26,24,22,20岁,则他们的年龄中位数为(B) A、24 B、23 C、22 D、21 12、下列数列平均数都是50,在平均数附近离散程度最小的数列是(b) A、0 20 40 50 60 80 100 B、0 48 49 50 51 52 100 C、0 1 2 50 98 99 100 D、0 47 49 50 51 53 100 13、如果你的业务是提供足球运动鞋的号码,那么,哪一种平均指标对你更有用?(d) A、算术平均数 B、几何平均数 C、中位数 D、众数 14、假定某人6个月的收入分别是1800元,1840元,1840元,1840元,1840元,8800元,反映其月收入一般水平应该采用(C) A、算术平均数 B、几何平均数 C、众数 D、调和平均数 15、某组数据分布的偏度系数为正时,该数据的众数、中位数、均值的大小关系是(B ) A、众数>中位数>均值 B、均值>中位数>众数 C、中位数>众数>均值 D、中位数>均值>众数 二、填空题 1、某班的经济学成绩如下表所示: 43 55 56 56 59 60 67 69 73 75 77 77 78 79 80 81 82 83 83 83 84 86 87 88 88 89 90 90 95 97

统计数据的描述

第二章统计数据的描述 在对一组统计数据的分布变化进行深入研究之前,我们首先研究一组数据的特征。为了比较精确地描述一组统计资料的特征,需要使用一些统计指标来描述它。一组数据的统计特征通常包括以下四个方面: 1、集中趋势,也称作中心位置。即表示一组数据的中心位置的数据点是在什么地方,也就是数据位置的度量。 2、离散性。即一组数据的分散程度,也就是数据散布的范围。 3、倾斜度。一组数据所描述的曲线既可以是左右对称的,也可能是倾斜的,即通过曲线最高点的垂线把曲线分为两半,是左右对称还是并不对称。 4、尖削度。这就是一组数据所描绘的曲线顶部的峰态特征。根据一组数据所描绘的曲线顶部既可能是尖峰状的,也可能是扁平状的。即使根据两组数据所描绘的曲线具有相同的中心位置和离散程度,但它们的尖削度也可能是不一样的。 在管理科学中,我们最感兴趣的常常是数据的集中趋势和离散程度,本章就主要介绍度量这两个特征的统计量。 第一节数据集中趋势的度量 一组数据的集中趋势通常用平均数、中位数和众数等来表示。这些统计量均称为平均指标。它表明同类社会经济现象的各单位的某一数量指标在一定时间、地点等条件下达到的平均水平。 平均指标的特点是将一组数据中各个数据之间的差异抽象化,用一个指标来代表各个数据的一般水平,它反映了一组数据中各个数据的典型水平、中心位置或集中趋势。 一、平均数 管理统计中常用的平均数有算术平均数、调和平均数和几何平均数等几种。但这里我们主要介绍算术平均数。算术平均数又称均值,常用x来表示。根据计算方法的不同,算术平均数又可分为简单算术平均数和加权算术平均数。 1、简单算术平均数 简单算术平均数的计算公式如下: x x x x N x N N i i N = +++ == ∑121 式中:N 是数据的个数; 21

用Excel进行数据分析:描述性统计分析

在数据分析的时候,一般首先要对数据进行描述性统计分析(Descriptive Analysis),以发现其内在的规律,再选择进一步分析的方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形,常用的指标有均值、中位数、众数、方差、标准差等等。 接下来我们讲讲在Excel2007中完成描述性统计分析。一、案例场景 某网站的专题活动积累了一定访问数据后,需要统计流量的的均值、区间,以及给出该专题访问量差异的量化标准,借此来作为分析每天访问量的价值、参差不齐、此起彼伏一个衡量的依据。要求得到均值、区间、众数、方差、标准差等统计数据。 二、操作步骤 1、打开数据表格,这个案例中用的数据无特殊要求,只是一列数值就可以了。 2、选择“工具”——“数据分析”——“描述统计”后,出现属性设置框

注:本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,可以参考上一篇文章《用Excel进行数据分析:数据分析工具在哪里?》。 3、依次选择 选项有2方面,输入和输出选项 输入区域:原始数据区域,选中多个行或列,选择相应的分组方式逐行/逐列;

如果数据有标志,勾选“标志位于第一行”;如果输入区域没有标志项,该复选框将被清除,Excel 将在输出表中生成适宜的数据标志; 输出区域可以选择本表、新工作表或是新工作簿; 汇总统计:包括有平均值、标准误差(相对于平均值)、中值、众数、标准偏差、方差、峰值、偏斜度、极差、最小值、最大值、总和、总个数、最大值、最小值和置信度等相关项目。 第K大(小)值:输出表的某一行中包含每个数据区域中的第 k 个最大(小)值。 平均数置信度:数值 95% 可用来计算在显著性水平为 5% 时的平均值置信度。

相关文档
相关文档 最新文档