文档库 最新最全的文档下载
当前位置:文档库 › 某高校在校生体测成绩的统计分析毕业论文

某高校在校生体测成绩的统计分析毕业论文

毕业论文

某高校在校生体测成绩的统计分析

A STATISTICAL ANALYSIS OF COLLEGE STUDENTS THE CERVIX

SCORES

摘要

在现代生活中,随着生活水平的日渐提高,现在大学生的身体素质真是越来越差了,越是学历高的人,身体素质普遍就越差。很多人对身体素质这个词并不陌生。在日常生活中,人们常说,谁谁力气大,谁谁跑的快,或者谁谁很灵活,谁谁耐久力强。实际上这些能力都属于身体素质。身体素质通常指的是人体在肌肉活动中所表现出来的各种能力。一般包括力量、速度、耐力、灵敏和柔韧。

因此,本文通过分析中国农业大学2010年6290名在校生体测成绩数据,利用matlab统计分析理论建立相关模型,研究当前大学生身体素质的真实现状,该研究成果有着非常重要的应用价值。首先利用描述性统计分析方法对体测数据进行初步研究。再利用方差分析对13个学院的学生的身高进行单因素一元方差分析和非参数分析,判断不同学院的学生的身高有无显著性差异。在研究身高和体重的关系时,利用了MATLAN做了回归模型,用一元回归求出身高和体重的函数关系,二元回归求出来身高和体重做自变量,肺活量做因变量的函数关系。判别分析主要是用5999个学生的身高体重等级去判别291个学生的类别。

关键词:体测成绩;统计分析; MATLAB;方差分析;回归分析;判别分析

ABSTRACT

In the modern life, along with the rising of living standards, college students' physical quality is worse and worse now, the more highly educated people, physical quality general the worse. A lot of people is no stranger to the word physical quality. In daily life, people often say, so-and-so in strength, who can run fast, or who is very flexible, so-and-so strong endurance. In fact these abilities are physical quality. Physical quality usually refers to the human body in muscle activity of all kinds of ability. Generally includes power, speed, stamina, agility and flexibility.

Therefore, through the analysis of China agricultural university in 2010, 6290 students cervix result data, the relevant model is established using MATLAB statistic analysis theory, research the real status of the current college students' physical quality, the results of the study has a very important application value. First,use of descriptive statistics analysis method to a preliminary study on the cervix data. Second, analysis of variance on the height of 13 students of the college on a single factor analysis of variance and nonparametric analysis, judge the height of different college students have significant differences. In the study of the relationship between height and weight, use of MATLAN made a regression model, use A regression model to the function relation of height and weight.Bivariate regression of height and weight do seek out independent variables, vital function of the dependent variables do. Discriminant analysis is mainly used 5999 grade student height and weight to determine 291 students in classes.

Key words:The cervix grades;Statistic Analysis;MATLAB;Analysis of variance;Analysis of Regression;Discriminant Analysis

目录

1 前言 (1)

2 常用统计分析方法 (3)

2.1 描述性统计分析 (3)

2.2 方差分析 (4)

2.3 回归分析 (8)

2.4 判别分析 (11)

3 MATLAB主要统计函数简介 (13)

4 某高校在校生体测成绩统计分析 (15)

4.1数据来源 (15)

4.2描述性统计量 (15)

4.3方差分析 (17)

4.4 回归分析 (21)

4.5判别分析 (24)

5 总结与不足 (26)

参考文献 (1)

致谢 (29)

附录 (30)

1 前言

随着我国国力的增强,我国逐渐重视大中学生体质健康。2014年四月二十四日,教育部体卫司司长王登峰在发布会上透露,新版《国家学生体质健康标准》已经基本成形,和旧版相比,取消了所有选测项目,统一为必测项目。据介绍,新版中要求大、中学生必测长跑。测试成绩分优秀、良好、及格和不及格4个等级,分别记入学校为每个学生制作的《国家学生体质健康标准登记卡》。教育部表示,学校没按规定执行的,将在学校体育工作等级评比中“不合格”。新版标准还要增加体育课学分。【13】

大学生的健康成长关系到一个国家和整个民族发展的未来,对于我国大学生而言,其身体与智力的发展正处于关键时期。大学生健康体适能测试,是高校体育工作中的一个重要的组成部分,也是学校教育评价体系中所必不可少。统计分析这种方法从整体上反映和分析事物数量特征,可以观察并发现事物的本质和发展规律,作出正确的判断。体测成绩的统计分析从微观上有助于学生自己更好的了解自己的身体健康状态,并作出相应调整。研究当前大学生身体素质的真实现状,该研究成果有着非常重要的应用价值。

朱慧平,张晓芳在[18]中采用文献资料法、数理统计法、问卷调查等方法,对甘肃省当前大学生的体质健康状况进行了调查研究。结果发现:1)男生和女生体质健康状况存在着较大的差距,男生明显好于女生。2)城市、县城、村镇的学生体质健康状况存在着一定的差异,乡村学生好于城市学生。3)年级不同,学生的体质状况也不同,研究结果表示大二学生最好,大四学生最差,从大学一年级到四年级学生的体质健康状况有先提高后降低的趋势。

李恺宪在[17]中探讨不同体育生活方式对大学生的体质状况有什么影响以及两者相互关系, 研究当中主要采用文献资料、问卷调查、专家访谈等研究方法, 进行问卷调查对江苏地区普通高校大学生的体育生活方式, 结果发现: 不同年级的体育生活方式存在明显的差异, 前三个年级的学生都有很好的体育生活方式,到大四之后学生的体育生活方式明显下降; 在这些学生中调查了不同的体育生活方式并进行比较分析,结果表明, 具有良好体育生活方式特征的大学生体质状况明显好于另一部分大学生; 因此, 建立良好的体育生活方式, 可以提高身体机能素质, 促进柔韧、速度和耐力素质的发展, 最终促进大学生体质的全面发展。

吴磊在[19]中通过体育课的体能练习提高大学生体质测试的健康水平,结合体测的内容设置相关的体能项目的训练,并有针对性的进行练习。本文运用访谈法、问卷调查法、统计法试验法等相关研究方法对目前高校存在的问题进行分析和总结提出相关具体方案,为大学生身体素质的提升打好基础。

本文以2010年中国农业大学的在校生体测数据为依据,主要运用统计分析的描述性统计、方差分析、回归分析、判别分析,旨在发现一些规律和问题。首

先从描述性统计量中算出各个年级的体测成绩的几个统计量。接着用方差分析对不同学院学生的身高分别进行了显著性分析,用多重比较得出哪两种学院学生的身高差异性大。在回归分析中,先对数据做了相关性分析,查找相关性比较强的,所以拟合了身高和体重的一元回归和身高、体重。肺活量的二元回归,最后求出回归方程,画出了拟合图。在判别分析中,对身高体重等级做了分类。第一类是超重,第二类是肥胖,第三类是较低体重,第四类是营养不良,第五类是正常体重,用5999名学生对291名学生进行分类。

2 常用统计分析方法

2.1 描述性统计分析 2.1.1 常用统计量

通常在得到数据并对数据进行预处理后,需要对数据进行描述性的统计分析。常用统计量有以下几种:

(1)样本均值(mean ),描述了样本数据相对中的中心位置,计算公式:

1

1n

i i X X n ==∑

(2)样本标准差(std )

,描述了样本数据变异程度的大小,计算公式:

S =(3)样本极差(range )作为样本数据变异程度大小的一个简单度量,计算公式:12()(1)Range(,,,)n n X X X X X =-

(4)最大值和最小值(Max 和min )求样本数据中的最大值和最小值。公式是

()}{}{12121max ,,...,min ,,...,n

n x x x x x x x x ==(n )和。

(5)中位数(Median ):顾名思义就是将样本数据从小到大依次排列,位于中间的那个观测值,样本P 分位数p m 定义如下

()()()

[1]1,

,2

np p np np x np m x x

++??

=?+?

?若不是整数;

若np 是整数,

(6)众数(Mode ):描述了样本观测值数据中出现最多的数。

(7)变异系数是衡量数据变异程度的一个统计量,和标准差不同,当单位和平均值不同时,比较其变异程度就要用变异系数,即标准差和平均数的比值

S X 。

(8)样本偏度(skewness )用来计算样本数据的偏度,偏度反映了总体分布密度曲线的对称性信息,偏度越接近0,说明分布越对称。如偏度大于0说明概率密度的右尾巴长,顶点偏向左边,偏度小于0说明概率密度的左尾巴长,顶点偏向右边,计算公式:3

1 1.52

B B γ=

,其中k B 为样本k 阶中心矩。 (9)样本k 阶中心矩(moment ):1

1()n

k k i i B X X n ==-∑

(10)样本的峰度(Kurtosis )反映了总体分布密度曲线在其峰值附近的陡峭程

度,计算公式:4

222

B B γ= 2.1.2 常用统计图 1.直方图(hist/hist3)

在观察数据所服从的分布时,直方图是非常简洁实用的。做直方图的步骤如下:

(1)将样本观测值从小到大排序得(1)(2)()l x x x ≤≤≤ .

(2)适当选取略小于(1)x 的数a 与略大于()l x 的数b ,将区间(, )a b 随意分为k 个不相交的小区间,记第i 个小区间为i I ,其长度为i h .

(3)把样本观测值逐个分到各区间内,并计算样本观测值落在各区间内的频

数i n 及频率i

i n f n

=

. (4)在x 轴上截取各区间,并以各区间为底,以i n 为高作小矩形,就得到频数

直方图,若以

i

i

f h 为高作小矩形,就得到频率直方图。 MATLAB 中绘制频数直方图的函数是hist 和hist3(二元变量的三维直方图)。 2.箱线图(boxplot ) 箱线图的做法如下:

(1)画一个箱子,其左侧线为样本0.25分位数位置,其右侧线为样本0.75分位数位置,在样本中位数(即0.5分位数)位置上画一条竖线,画在箱子内。这个箱子包含了样本中50%的数据。

(2)在箱子左右两侧各引出一条水平线,左侧线画至样本最小值,右侧线画至样本最大值,这样每条线段包含了样本25%的数据。

以上两步得到的图形就是样本数据的水平箱线图,当然箱线图也可以作成竖直的形式。从箱线图上能大概看出样本数据的分布情况。 2.2 方差分析

方差分析产生于英国,它是由统计学家R.A.Fisher 在20世纪20年代提出的一种统计方法。方差分析是分析试验(或观测)数据的一种统计方法。在工农业生产和科学研究中,经常要分析各种因素之间的交互作用对研究对象某些指标值的影响。在方差分析中,把试验数据的总波动(总变差或总方差)分解为由所考虑因素引起的波动(各因素的变差)和随机因素引起的波动(误差的变差),然后通过分析比较这些变差来推断哪些因素对所考察指标的影响是显著的,哪些是不显著的。也就是分析在诸多因素中哪些因素是主要的,哪些是次要的,以及主要因素处于何种状态时,才能使所考察的指标达到一个较高的水平,这就是方差

分析所要解决的问题。

本文主要对数据中的13个学院学生的身高进行了单因素一元方差分析和非参数方差分析,其中单因素一元方差分析,样本数据应满足方差分析的几个基本假定,即(1)所有样本均来自正态总体(2)这些正态总体具有相同的方差(3)所有观测值相互独立,即独立抽样。在前两个假定基本满足的情况下,一般认为方差分析检验(ANOV A test )是稳健的。

(1)单因素方差分析的数学模型。设因素A 有k 个水平,对应试验指标的k 个总体,记为12, , , k πππ,它们的分布为

2~(, ), 1,2,,.i i N i k πμσ= (2-1)

今从这k 个总体中各自独立地抽取一个样本,取自i π的样本记为

12,,,, 1,2,,. i i i in X X X i k = 列表如表2-1所示。

表 2-1 单因素方差分析的样本数据

2

21

11

1, (), 1,2,,.1i

i

n n i ij i

ij i j j i

i X X S X X i k n n ===

=-=-∑∑ (2-2) 单因素方差分析的数学模型为

2

, 1,,, 1,, ~ (0,)

ij

i ij iid

i ij X i k j n N μεεσ=+??==???. (2-3) 其中iid 表示独立同分布。欲检验因素A 对试验指标有无显著影响,相当于检验

012112:, :,,, k k H H μμμμμμ===不全相等. (2-4)

原假设0H 成立表示因素A 对试验指标无显著影响。令

1

1, , 1,2,,. k

i i i i i k k μμαμμ===-=∑

则(2-3)式可改写为

212, 1,,, 1,,.~(0,)

ij i ij iid

i ij k X i k j n N μαεεσααα=++???==??+++=?? (2-5) (2-4)式等价于

0121:0, :0 k i H H αααα====≠至少存在一个

这里的 (1,2,,) i i k α=称为因素A 的第i 个水平所引起的效应,可以看成i A 对总平均μ的“贡献”大小。若0i α>,称i A 的效应为正,若0i α<,称i A 的效应为负。

(2)单因素方差分析的原理,作(2-4)式的假设检验,应从分析样本数据的差异入手,数据的差异可分为系统偏差和随机误差,来自不同总体样本数据之间的差异称为系统偏差,来自同一总体样本数据之间的差异称为随机误差。样本数据之间的差异通常用离差平方和(样本观测数据与总均值的差的平方和)来表示,方差分析就是将样本数据的总的离差平方和分解为两部分,一部分为因素所造成的离差平方和,即系统偏差,又称为组间离差平方和;另一部分为随机因素所造成的离差平方和,即随机误差,又称为组内离差平方和。然后根据两部分平方和构造检验统计量,推导统计量所服从的分布,最后写出拒绝域。直观上可以这样理解:若总离差平方和中主要是组间离差平方和,组内离差平方和所占比重非常小,则可认为各组数据之间的差异是显著的,即因素对试验指标的影响是显著的;若总离差平方和中主要是组内离差平方和,组间离差平方和所占比重非常小,则可认为因素对试验指标的影响是不显著的。

(3)离差平方和及自由度的分解,从模型(2-5)式可以看出

, 1,,, 1, ij i ij i X i k j n μαε-=+== (2-6) 上式左边表示每一个样本观测数据与总均值的偏差,这个偏差被分成两部分,其中i α表示由因素A 的不同水平所引起的系统偏差,ij ε表示随机误差。令

用X 作为μ的估计,i X X -作为i α的估计,ij i X X -作为ij ε的估计,则(2-6)式为

, 1,,, 1,,.ij i ij i i X X X X X X i k j n -=-+-==

记T SS 表示总离差平方和,则

()()2

2

1111

i

i

n n k

k

T ij i ij i i j i j SS X X X X X X =====-=-+-∑∑∑∑

()()2

2

1

11

.i

n k

k

i i ij i i i j n X X X X ====-+-∑∑∑

()()2

2

1

11

, .i

n k k A i i E ij i i i j SS n X X SS X X ====-=-∑∑∑

可以看出,A SS 为因素A 所造成的离差平方和,称为组间离差平方和,E SS 为随

1

11111, i n k

k k

i ij i i

i i j i n n X X n X n n =======∑∑∑∑

机因素所造成的离差平方和,称为组内离差平方和。这样就有如下平方和分解式

.T A E SS SS SS =+

为了构造检验统计量并推导其分布,引入如下定理。 在以上记号下,对于模型(2-5)式,有以下结论成立。 ·

22

~()E

SS n k χσ

-;

· 原假设0H 成立时,

222

2

~(1),

~(1)A

T

SS SS k n χχσ

σ

--,E SS 与A SS 相互独立。

对于(2-4)式的假设检验,构造检验统计量

/(1)./()A A

E E

SS k MS F SS n k MS -=

=-

其中/(1)A A MS SS k =-称为组间均方离差平方和,/()E E MS SS n k =-称为组内均方离差平方和。由定理可知,当原假设0H 成立时,

/(1)~(1, )./()A A

E E

SS k MS F F k n k SS n k MS -=

=---

直观上可以看出,当统计量F 的观测值大于某个临界值时,应拒绝原假设0H ,所以对于给定的显著性水平α,拒绝域为

{}(1, ).W F F k n k α=≥--

其中(1, )F k n k α--为(1, )F k n k --分布的上侧α分位数。

(4)单因素方差分析表

根据以上过程列出单因素方差分析表,如表2-2所示。

表 2-2 单因素方差分析表

方差分析表很直观地展现了方差分析的过程,通过对比F 值与临界值

(1, )F k n k α--的大小,作出最后的结论。也可以将表格最后一列的临界值换成检验的p 值,其中{}p P F F =≥的观测值。对于给定的显著性水平α,当p α≤时,应拒绝原假设0H ,即认为因素A 对试验指标有显著影响,并且p 值越小,显著性越强;当p α>时,应接受原假设0H ,即认为因素A 对试验指标无显著影响。 非参数方差分析不要求样本来自于正态总体,也不要求正态总体具有相同的

方差,即不要求正态性和方差性假定。当样本不满足这正态性和方差性的假定时,就要采取基于秩的非参数检验,本文中主要用Kruskal-Walls 检验。MATLAB 工具箱中提供了kruskalwalls 函数,用来做单因素非参数方差分析。检验的原假设是:k 个独立样本来自于相同的总体。当原假设成立时,并且样本容量足够大时,检验统计量H 近似服从自由度为k-1的2χ分布,即

2

1212*3*(1)*(1)

*(1)

k

j

j j

R n H N K N N χ==

-+-+∑ (2-7)

其中,k 为样本数,j n j=(1,2,...,k )

为第j 个样本的样本容量,1

k

j j N n ==∑,j R 为第j 个样本的秩和。对于给定的显著性水平?,当H 的观测值大于或等于

2*(1)K χ?-,拒绝原假设,表示k 个独立样本来自于不同的总体,或者说k 个

样本有显著性差异。

【16】 2.3 回归分析

在客观世界中变量之间的关系普遍存在。变量之间的关系一般说可以分为非确定性和确定性这两种。非确定性关系即所谓相关关系。例如人的身高和体重之间存在着关系,一般来说越高体重越重,有时同样身高的人,体重也是不一样的,之所以有这种关系,是因为我们涉及的变量是随机变量。确定性关系是指变量之间的关系可以用函数表达。回归分析研究的是相关关系的一种数学工具,这种工具能从一个变量取得值去估计另一个变量所取的值。用来认识事物的内在规律和

本质属性。

【16】 (1)一元回归模型

设有两个变量x 和y ,其中x 是可以精确测量或控制的非随机变量,y 是随机变量,假定随机变量y 与可控变量x 之间存在线性相关关系,建立y 与x 的数学模型如下:

2

,

~(0,) .

y a bx N εεσ=++??? (2-8) 其中未知参数,a b 和2σ都不依赖于x 。称(2.8)式为y 关于x 的一元线性回归模型,其中b 称为回归系数。由一元线性回归模型可知,当x 固定时,2~(,)y N a bx σ+,令()(|)x E y x a bx μ==+,它是x 固定时随机变量y 的数学期望。直线

()x a bx μ==+Y 近似表示了y 与x 的线性相关关系,称()x μ为y 关于x 的回归函

数,称()x a bx μ==+Y 为y 关于x 的理论回归方程。 (2) 参数的最小二乘估计

对,x y 作n 次独立的观测,得到观测数据(,), 1,2,,i i x y i n = .根据(2-8)式可得

2

,

~(0,) , 1,2,, .

i i i iid

i y a bx N i n εεσ=++???=?? 其中iid 表示独立同分布。令

()2

2

1

1

(,)(),n

n

i i i i i Q a b y a bx ε====-+∑∑

二元函数(),Q a b 的最小值点()

??,a

b 称为,a b 的最小二乘估计,通过解下面方程组求得

()()()()12111 ,20

.

20n

i i i n n n

i i i i i i i i i Q

na nxb ny y a bx a nxa x b x y Q y a bx x b

====??+==--+=??????????+=? ???=--+=??????∑∑∑∑ (2-9) 其中

11

11 , .n n

i i i i x x y y n n ====∑∑

当方程组(2-9)的系数矩阵的行列式

2222

11

1

()()0,n n

n i i i i i i n nx D n x nx n x x nx x =====-=-≠∑∑∑ 可以解得

???, .xy xx

a y bx

b l =-= (2-10) 其中

2

2

2

1

1

1

1

(), ()() .n

n

n

n

xx i i

xy i i i i i i i i l x x x nx l x x y y x y nx y =====-=-=--=-∑∑∑∑

将??,a

b 代入理论回归方程可得???y a bx =+,称之为y 关于x 的经验回归方程。由于 ??????() ,y

a bx y bx bx y

b x x =+=-+=+- 可知y 关于x 的经验回归直线一定过点(,)x y . 可以证明估计量??,a b 服从以下分布:

2221??~, , ~, .xx xx x a N a b N b n l l σσ??????+ ? ? ? ???????

(2-11) 从而可知??,a

b 分别是,a b 的无偏估计。 (3) 回归方程的显著性检验

对于变量y 和x 的任意n 对观测值(,)i i x y ,只要n x x x ,,,21 不全相等,则无论变量y 和x 之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线

性回归方程???y

a bx =+. 显然,只有当变量y 和x 之间存在线性相关关系时,这样的线性回归方程才是有意义的。为了使求得的线性回归方程真正有意义,就需要

检验变量y 和x 之间是否存在显著的线性相关关系。若y 和x 之间存在显著的线性相关关系,则回归模型(2-8)式中的b 不应为0,因为若0b =,则()(|)x E y x μ=就不依赖于x 了。因此需要检验假设

01:0, :0.H b H b =≠ (2-12)

F 检验

y

y

x

图 2-1离差分解示意图

如图2-1所示,每个观测点(,)i i x y 处的i y 与均值y 的离差i y y -被分解为两部分,即

?? ,i i i i y y y y

y y -=-+- 于是总离差平方和可作如下分解

2

21

1

??()()n

n

T i i i i i i SS y y y y

y y ===-=-+-∑∑ 2

2

1

1

1

????()()2()() .n n n

i i i i i i i i i y y

y y y y y y ====-+-+--∑∑∑ 可以证明1

??2()()0n

i i i i y y

y y =--=∑. 令 2

21

1

??(), () ,n n

E i i R i i i SS y y

SS y y ===-=-∑∑ 则有

.T E R SS SS SS =+ (2-13)

这里的T SS 为总离差平方和,它被分解为两部分。其中R SS 是估计值?i y

的离差平方和,反映了y 的总变差中由于y 与x 之间的线性关系所引起的y 的变差,称为回归平方和。E SS 就是前文中的E Q ,称为残差平方和(或剩余平方和),它反映了y 的总变差中不能由回归直线来解释的变差。由图2-6可以看出,若总离差平方和T SS 中主要是回归平方和R SS ,残差平方和E SS 所占比重非常小,则说明观测数据的散点基本集中在回归直线附近,进一步说明y 和x 之间存在显著的线性相关关系,因此可以根据R SS 和E SS 构造检验统计量,检验y 和x 之间的线性相关关系是否显著。

(4)多重线性回归分析原理

设随机变量y 与p 个可控变量12,,,p x x x 之间存在线性相关关系,建立y 与

12,,,p x x x 的数学模型如下:

011222

,

~(0,) .p p y b b x b x b x N εεσ=+++++???

(2-14) 其中未知参数01,,,p b b b 和2σ都不依赖于12,,,p x x x . 称(2-14)式为y 关于

12,,,p x x x 的p 重线性回归模型,其中12,,,p b b b 称为回归系数。类似于一元线性回归,称101122(|,,)p p p E y x x b b x b x b x ==++++ Y 为y 关于1,,p x x 的理论回归方程。 2.4 判别分析

判别分析是对样本进行分类,但是和聚类分析不一样,判别分析的研究对象是已经有了分类,,根据抽取的样本建立判别公式和判别标准,然后用这些公式和标准判别未知的类别的样本的类别。

本文主要用距离判别,其中距离判别的基本思想是首先根据已知分类的数据,分别计算各类的重心,即分组均值,判别标准:对于任给一次观测值,若她与i 类的重心距离最近,就认为她来自第i 类。马氏距离原理设G 是p 维总体,它的分布的均值向量和协方差矩阵分别为

11121122122212......,...p p p p p pp σσσμμσσσμμσσσ????

? ?

?

?=∑= ? ?

? ? ? ?

????

(2-15) 设()()1212,,...,',,,...,'p p x x x x y y y y ==为取自总体G 的两个样品,假定0∑ (∑为正定矩阵),定义x,y 间的平方马氏距离为

()()21,'()d x y x y x y -=-∑-

定义x 到总体G 的平方马氏距离为

()()21,'()d x G x x μμ-=-∑- (2-16)

两个总体的判别,设有两个p 维总体12G G 和,分布的均值分别为12μμ和,协方差矩阵分别为1200∑∑ ,。从两总体中分别抽取容量为12n n ,的样本,记为

121112121222,,...,,,,...,n n x x x x x x 。现有一未知类别的样品,记为x ,试试判别x 的归属,现有以下判别规则

当2212(,)(,)d x G d x G ≤时,判定1x G ∈;否则判定2x G ∈。若相等则待判。这是通常为马氏距离。在采用马氏距离的情况下,下面分情况进行讨论。

(1)12==∑∑∑已知时

将两个距离相减可得

()221121212()

(,)(,)2[]'2

d x G d x G x μμμμ-+-=-

∑- (2-17) 令

()112

1212=

(,,...,)'

2

()()''()

p a a a a W x x a a x μμμμμμμ-+=∑-==-=-, (2-18)

则判别规则还可表示为

12,()0

,()0()=0x G W x x G W x W x ∈>??

若若待判,若 (2-19)

称W(x)为两组距离判别的线性判别函数,a 为判别系数。

(2)12∑≠∑已知时 令

2212()(,)(,)J x d x G d x G =- (2-20) 则()J x 为二次判别函数,判别规则为

12,()0

,()0()=0x G J x x G J x J x ∈>??

若若待判,若 (2-21) (3)12∑≠∑未知时

在实际问题中,这种情况最为常见,此时有样本对1212μμ∑∑,,,进行估计

21122112=,=,,x x s s μμ∑=∑=

于是可得平方马氏距离的估计和二次判别函数的估计

()()()()()()

2

12

2

12,',1,2

,,i i i i d

x G x x S x x i J x d

x G d x G -=--==- (2-22)

将格式(2-21)中的()J x 换位()J x ,即可得此种情况的判别规则。

3 MATLAB主要统计函数简介

MATLAB意为矩阵工厂(Matrix&Laboratory两个词的组合,)。MATLAB是由美国The Mathworks公司发布的。MATLAB的基本数据单位是矩阵,它的指令表达式与数学、工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完成相同的事情简捷得多,并且MATLAB也吸收了像Maple等软件的优点,使MATLAB成为一个强大的数学软件。在新的版本中也加入了对C,FORTRAN,C++,JA V A的支持。可以直接调用,用户也可以将自己编写的实用程序导入到MATLAB函数库中方便自己以后调用。数据分析的目的是利用数据来研究一个领域的具体问题。数据分析的过程包括确定数据分析的目标、研究设计、收集数据、分析数据、解释结果。从数据分析的整个过程来看,软件的使用主要是在数据整理与分析阶段。软件所起的主要作用是整理、计算、绘制图表等。MATLAB 在统计分析方面的知识,有很多软件都可以用作统计分析与计算,比如SAS、Spss、Splus等软件。在这些软件中,MATLAB的功能无疑是最强大的。MATLAB有简便的编程语言,还有包罗万象的工具箱,易学易用,学者不仅可以调用现成的函数进行计算,还可以自己编程自己所需要的函数。

本文主要用了描述性统计、方差分析、回顾分析、判别分析对2010中国农大的体测成绩进行分析。主要涉及的函数有:

(1)num = xlsread(filename, range)

从指定文件名夹读取,输入参数filename是由单引号括起来的字符串。输入参数range是所在的单元格范围,比如说range='A1:A8'。比如说num=xlsread('2010.xls'),即从当前程序所在文件夹里,从A1单元格开始读取,读取2010.xls文件,把数据返回给num。

(2)[p,table,stats] = anova1(X,group),anova1函数是单因素一元方差分析。原假设是输入参数X的各列所对应的总体具有相同的均值。矩阵X的列数表示因素的水平数,矩阵X的行数表示样本容量。输入的参数group可以是字符串元胞数组或是字符数组,用来指明每组的组名,在本文是学院名称。输出参数p是

?≥,则拒绝原假设。认为X的检验的p值,对于给定的显著性水平?,如果p

各列所对应的总体具有不完全相同的均值。反之,则接受原假设。输出参数table 是元胞数组形式的方差分析表。方差分析表有六列,第一列为方差来源,方差来源有组间(Columns)、组内(Error)和总计(Totel)第二列为各方差来源所对应的的平方和(SS)。第三列为个方差所对应的自由度(df)。第四列为各方差来源所对应的均方(MS),MS=SS/df。第五列为F检验统计量的观测值,它是组间均方和组内均方的比值。第六列为检验p值,是根据F检验统计量的分布得出的。输出的stats是结构体变量,用于进行后续的多重比较。还会返回箱线图。

[p,table,stats] =kruskalwallis(X,group),kruskalwallis函数是非参数方差分析。输出参数和上面的anova1函数返回的一样,输入参数也一样。

(3)R=corrcoef(data),进行相关性分析,求相关系数。输入参数data是矩阵,得到的结果是一个n*n矩阵相关系数矩阵。

(4)mdl=LinearModel.fit(x,y),LinearModel.fit函数是做一元线性回归。输入参数x是自变量观测矩阵,输入y是因变量观测矩阵,x和y具有相同的行。输出线性回归模型的参数。

(5)class=classify(sample,training,group),其中输入参数sample是全部样本数据,即6290个学生的身高,体重,肺活量数据。输入参数training是已知组别的样本数据,即5999名学生的身高,体重,肺活量数据。输入参数group 是样本的分组信息数据,其中第一类是超重,第二类是肥胖,第三类是较低体重,第四类是营养不良,第五类是正常体重,用前5999名学生判别291个同学的类别。

4 某高校在校生体测成绩统计分析

4.1数据来源

本文数据取自2010年体测成绩(中国农大)共有学生6290个学生,三个年级,测试成绩有身高,体重,身高体重等级,肺活量,肺活量体重指数,肺活量体重分数,耐力类项目成绩,耐力类项目分数,耐力类项目等级,柔韧、力量项目成绩,柔韧、力量项目分数、柔韧、力量项目等级,速度、灵巧类项目成绩,速度、灵巧类项目分数,速度、灵巧类项目等级,测试总分,总分等级。数据来源于中国农业大学体质健康测试中心:https://www.wendangku.net/doc/156102550.html,/tyb_clt/news/user/title.action?typeid=27,部分数数据件附录。

4.2描述性统计量

样本数据是中国农业大学2010年的体测数据,在初步接触样本数据中国农业大学2010年的体测数据之前,有必要先从几个特征数认识一下它们,也就是先用MATLAB软件计算出样本的几个描述性统计量。包括均值(mean)标注差(std)最大值(max)最小值(min)极差(range)中位数(median)众数(mode)变异系数(cvar)偏度(skewness)峰度(krtosis)。通过以下表格形式给出,相关程序放在附件中。

09级学生各个测试成绩数据的描述性统计量如表4-1。

08级学生各个测试成绩数据的描述性统计量如表4-2。

07级学生各个测试成绩数据的描述性统计量如表4-3。

表 4-1 09级学生各个测试成绩数据的描述性统

表4-2 08级各个测试成绩数据的描述性统计量

表 4-3 07级各个测试成绩的描述性统计量

相关文档
相关文档 最新文档