文档库 最新最全的文档下载
当前位置:文档库 › 教育测量的质量指标

教育测量的质量指标

教育测量的质量指标
教育测量的质量指标

第二章教育测量的质量指标

第一节信度

第二节效度

第三节难度

第四节区分度

一、信度的概念

信度指的是测量结果的稳定性或可靠的程度。也就是测量结果是否真实、客观地反映了考生的实际水平。具体而言,可以从以下三方面来理解测量的信度。

(一)信度指实测值与真值相差的程度

测量的目的之一,就是希望通过测量得到的实测值能够接近事物的真实值。由于各种原因,实测值一般不会完全等于真实值,两者之差称为测量误差。测量误差越小,测量的信度就越高。用一个等式表示如下:

x = T + E

式中,x表示实测值,T表示真值,E表示误差。但测量的真实值是未知的,因此,误差也就无法求出来。当然,可以把很多次测量的实测值的平均值作为真实值的近似值,但这在实践上不具有可操作性。所以,根据这种理解,无法求出信度的大小。

(二)信度指统计量与参数之间的接近程度

统计量和参数是统计学中的两个基本概念。统计量是指样本上的各种数字特征(如样本的平均数、标准差等),参数是总体上的各种数字特征(如总体的平均数、标准差等)。统计量越接近参数,这个统计量的可靠性就越高,因此,信度就越高。要知道统计量对参数的接近程度,可以对参数进行区间估计。这种方法对估计真分数也很有用的。但这种理解也无法计算出信度。

(三)信度指两次重复测量或等值测量之间的关联程度

如果对同一对象进行两次重复测量或者等值测量以后,计算两次测量的相关系数,相关系数越高,说明测量的信度就越高;反之,就越低。对于信度的这种理解,有利于信度的计算。但重复测量会受到被测对象的经验、知识增长等因素的影响,等值测量又较难编制,因此,采用这种方法计算信度时,也是有误差的。

信度是任何一个测量的必要条件,对于教育测量来说,它具有更为重要的意义。因为教育测量的对象主要是精神现象,所测量的特性不易把握,为了能真实地反映测量对象的某种特点,需要更加注意测量的信度,从而正确地判断测量结果的价值。只有信度高的测量才能成为教育工作者有用的工具,否则,测量的结果是无意义的、无效的。

二、信度的理论公式

根据上述对实数的分解,可将实得分数的方差分解为:2

x

σ=2Tσ+2Eσ,其中,

2

T

σ表示真分数的方差,2Eσ表示随机误差方差。

信度的计算公式为:r

xx =

2

2

x

T

σ

σ

=1-

2

2

x

E

σ

σ

从以上公式可以看出,随机误差的方差越小,测量的信度就越高。信度的取值范围为[0,1],如果测量误差的方差为0,那么,测量的信度等于1,如果测量误差的方差等于观察分数的方差,则测量的信度为0。

三、信度的类型

采用上述的理论公式是计算不了信度的,因为真分数根本不知道,这样也就计算不出误差分数。因此,上述理论公式只能帮助我们更进一步地理解信度的含义。那么,在实际测量中,如何计算或估计信度的大小呢?下面介绍几种常用方法。

(一)稳定性系数

(1)稳定性系数又称重测信度。它是指用同一测验试卷,在先后两个不同时间内对同一组被测试卷,两次测验实得分数的相关系数。稳定性系数是估量信度最简单的方法,只需用同一份试卷对同一被测试卷测验两次即可。

(2)估计稳定系数的基本程序是:

适当时距

测验A

1(A)测验A

2

(A)

A表示两次测验试卷相同,A

1和A

2

表示同一测验经过适当时间间隔施行两

次。时距可以是几天或者几个月。

(3)使用重测法要注意几点:

〔1〕重测法只适用于速度测验而不适用于难度测验;

〔2〕所测的信度大小,常常受两次测验时间间隔长短影响;

〔3〕第二次测验没有吸引力,不易引起学生的兴趣;

〔4〕要实施两次测验,耗费人力、物力和时间较多。

(二)等值性系数

(1)当同一测验的一种型式不能或不适合实施两次时,就需要采用该测验的另一平行型测验或者复份。复份在测验的内容、题数、格式、难度、平均分、标准差等方面应与原测验一样,否则,估计的等值系数就会出现较大误差。

(2)决定等值系数的方法是。先实施第一次测验,然后在最短的时间内实施第二份等值的测验,再求它们得分的相关系数。这个相关系数即为信度的等值性系数。

(3)其基本程序为:

最短时距

测验A

1测验B

1

A

1表示用试卷A进行的第一次测验,B

1

表示用试卷B进行的第一次测验,试卷A

和B等值。这种确定信度系数的方法称为复份法。

(4)采用复份法估计信度系数要注意:

〔1〕两次测验试卷要等值,即在内容、题型、题数、难度、区分度等方面要基本相同;

〔2〕两次测验要尽可能在较短的时矩内进行;

〔3〕确定两次测验是否等值,还要考察两次测验结果的平均数与标准差。

〔4〕在实际操作中,要编制两份等值的测验非常困难。

(三)内部一致性系数

前两种估计信度系数的方法都要测验两次。该种估计信度系数的方法只需测验一次。方法是把一次测验人为地分成两个部分,比较两个部分的一致性程度,从而估计信度系数。

根据分成两部分的不同,内部一致性系数的估计方法有两种:

(1)分半信度

这种方法是将一次测验分成两个假定相等而独立的两部分来记分,通常是以题目的奇数为一组,偶数为一组,计算两组的相关系数,最后用斯皮尔曼—布朗公式校正,求得整个测验的信度系数。 斯皮尔曼—布朗公式为:xy xy tt r 1r 2r +=

式中,r xy 为两组测验分数的相关系数,r tt 表示整个测验的信度系数。

(2)库德尔—理查德森公式法

用这种方法只需测验一次,然后以各个问题的正确反应数为基础,或根据各人总分的平均数和标准差,计算信度系数,常用的库德尔—理查德森公式有 r 20KR 和r 21KR 。

〔1〕r 20KR 的用法:这个公式以每题能正确回答的人数占总人数的百分数为

基础(每题只有通过或未通过两种分数)。

r 20KR =)1(12s pq K K ∑--

式中,r 20KR 为整个测验结果的信度系数。K 为测验题目数,p 为各题正确反应人

数占总人数的百分数,q 为各题错误反应人数占总人数的百分数,s 2为各应试者各题得分之和的方差。

〔2〕r 21KR 的用法:这个公式以各反应者总分的平均数和方差为基础计算,

无需各题难度的信息。公式如下:

r 21KR =1-2)(8.0Ks x K x -? 式中,x 是各人总分的平均分,2s 是各人总分的方差,K 是题目数。

〔3〕计算内部一致性系数,需要注意下列问题:

〈1〉若用分半法时,以按奇数题和偶数题分为两半为宜。若把整个测验分为前后两半,一方面前半部试题和后半部试题未必等值,另一方面被试者在完成后半部试题时可能因疲劳、厌倦等原因而影响回答质量,以致前后反应不一致,影响信度。

〈2〉若速率是测验的重要因素,则不宜用分半法。因为速度测验中试题的

难度低,被试者得分的多少,在很大程度上是因为答题的多少,分半法易使得分相同,从而会夸大分半法的信度估计。

〈3〉如果答案多种多样,得分也多种多样时,则不能用上列公式计算一致性系数。

(四)论文式测验的信度系数

论文式测验的评分,没有严格的评分标准,以致同样的一个题目,不同的应试者的回答和得分都不一样,所以无法用前面的公式,而要用克龙巴赫所创的α系数公式:α= )1(122T i s s K K

--式中,α为信度系数,K 为题目数,2i s 为每题各应试者得分的方差,∑2i s 为每题各应试得分的方差之和;s 2T 为所有被应试者

所得总分的方差。

(五)评分者信度

一般论文式考试,只能提供列出答案要点的参考答案而无固定的标准答案,因而不同的评分者对同一份试卷给分不同,甚至有很大的悬殊。在作文测验、投射测验、品德测验、创造力测验等的评分中,都存在这个问题。评分者所评的分数越一致,评分的信度越高。

要计算评分者评分的一致性系数,需区分评分者的人次数。若为2人评N 份试卷,可用斯皮尔曼等级相关的公式计算;若三人以上的评分者评N 份试卷时,则需计算肯德尔和谐系数 。

四、提高信度的方法

(一)信度系数以多大为宜

信度系数究竟以多大为好,没有明确的标准。要看测验的目的和类型。对于学科测验,信度系数要求达到0.9以上,智力测验要求达到0.8以上,品德测验能达到0.6以上就算不错了。

(二)测量误差的来源

(1)测验本身所引起的误差

〔1〕测验本身的有些因素会直接产生误差。例如,有些测验题目的格式,如判断题,猜测的可能性很大,这就引起测验的不稳定性。

〔2〕如果测题的难度过大,以致每个被试者大量猜测,则所有被试者的总分接近于随机分布,所以测题越难,其信度越低。另一方面,测题越易,分数离差越小,而信度也就越低。

〔3〕规定时限可以鼓励人们加速作出反应,但常常会引起不稳定的测验分数。

〔4〕测题的用词模棱两可也会引起不稳定的分数。

〔5〕测验本身长度也会影响信度,一般说来,测题越多,测验越可靠。 〔6〕测验所包含的测题样本也会引起测量误差。测题取样所引起的误差在测验的单一形式中也可能出现。如果测验是要测量单一特性,那么,这个测验上的每一个测题都应该测量它,而不该测量其他的东西。但是实际上,有些测题能测量多种心理特性,因此,在一个测验中所包含的特定测题的抽选就变成了一个误差的可能来源。

(2)测验的实施所引起的误差

〔1〕由于测验的经验日益丰富,测验的实施更加标准化,实施条件的变化

所引起的误差可能性就大为减少。然而,由于对实施指导语的错误理解,对答案纸的错划,时间记录的错误以及一些不能预见的干扰等,都会产生误差。

〔2〕对一组被试实施测验不是同一个主试,而是由多个主试实施,以及主试本身在安排测验上有较多的余地,这些也会引起误差。

〔3〕记分也会产生误差,如论文式的测验和其他自由反应的测题各格式,记分就很难做到完全客观,从而产生误差。

(3)被试所引起的误差

这是最难控制的误差。甚至当我们具有测验的等同形式,在标准化的实施和记分程序下,测验的情境以最理想的方式加以安排,由于被试本身的不一致性也会使测验的分数不一致。具体表现为:动机的作用;学习、发展和教育的影响;对于测验的经验;测验的焦虑;生理因素等。

(三)提高测验信度的方法

(1)适当增加测验题目的数量

测验题目的数量越多,题目的代表性就越大。这种方法既可提高信度,也可提高效度。因此,一次测验的题目不能太少。但题目太多也无法操作。所以,只能适当增加测验题目的数量。

(2)测验的难度要适中

因为测验的难度中,能使测验难度达到最大,也能使测验的区分度达到最大,所以,必须使测验的难度适中。

(3)测验的内容应尽量同质

如果测验的内容过于庞杂,必然要求考生具有不同的能力、知识或技能,致使测验的信度降低。例如,外语、数学测验的信度常高于语文、历史测验的信度。因此,为了提高测验的信度,测验内容应尽量同质。

(4)测验的程序应统一

测验的过程直接关系到信度的高低,可以说,信度主要是在测验的实施过程中要重点保证的。测验的程序统一包括试卷统一、测验开始时的指导语、回答问题的方式、分发及回收试卷的办法、测验时间的掌握等,这是关系到测验信度的重要因素。要严防舞弊现象的出现,特别是集体舞弊现象,更不能泄露考题等恶劣行径。

(5)测验的时间要充分

测验的时间限制也会影响信度的高低,如果安排的时间不购,考生不能从容回答所有问题,也就不能真实地反映应试者的实际水平。因此,测验的时间要充分。当然,这里不是说,要保证所有考生都能做完试题,要以大多数考生为标准制定考试的时间。

(6)评分要尽量做到客观化、减少评分误差

对于主观性测验,很难制定明确的评分标准,由于各评分者的标准不统一,很多主观因素也能对评分产生消极影响。所以,首先要有明确的评分标准;其次,最好多个专家同时评一份试卷,或者是单个评分者反复多次评一批试卷,对于几次结果误差较大的,要复评。

(7)应试者参加测验的动机水平、积极性、疲劳程度也会影响测验分数,从而影响测验信度。

第二节效度

一、效度的概念

效度是指测量结果的准确性和有效性的程度,亦即测量是否达到了预期的目的。我们可以从以下几个方面来理解效度:

(一)测量的效度始终是对一定的测量目的而言的。一般而言,任何测量都有某种特定的目的和功能,判断效度的高低,就是判断测验达到目的的程度。如果能正确真实地测量出所想测量的东西,那么,对这一目的的效度是高的;反之,则是低的。例如,一个智力测验,结果实际测量的不是智力的高低而是知识的多寡。那么,此测验的效度就低了。即使某种公认效度较高的测量,也不能要求它在不同目的的测验中保持相同的效度。

(二)测量的效度也是对测量的结果而言。一种测量工具只有经过实际测量,才能根据出来的结果判断它的效度。所以,也可以把效度理解为测量的结果正确反映所欲测量的特性或功能的程度。不言而喻,对于任何一种测量来说,只有当它的测量结果真实、正确地反映所欲测量的功能和特性时,才能认为这种测量是有效的或效度较高的。

(三)一种测量的效度只是高或低的问题。因为,一种测量在编制时,总是针对一定的目的而编写的。例如,要编制学生的数学能力,我们不会用语文题目来作为测题,总会用一些数学题。因此,学生数学能力或多或少会反映出来一些,不会毫无反应,换言之,测验结果总有一定的效度,只是效度高低不同罢了。

(四)在教育测量中,效度问题比在其他领域的测量更为重要。因为:首先,教育测量的对象大多是精神现象,只能通过对其具有可测性的外部表现的测量,以间接认识其心理活动、心理特征或知识水平等;其次,学生的心理活动、心理特征与其外部表现之间,一般具有相关关系而无函数关系,外部行为并不能准确无误地反映某种心理状态。此外,教育测量的对象不是物而是具有主观能动性的人。人能有意识地调节自己的外部行为,掩盖自己的内心活动,这就增加了认识其精神现象的难度。

所以,每当进行教育、心理之类的间接测量的时候,必须考虑是否测量到了索要测量的东西,在多大程度上测量到了这些东西。也就是说,必须考虑测量的效度问题。

二、效度的理论公式

实得分数的方差可进一步分解为:

2x σ=2T σ+2E σ=2V σ+2I σ+2E σ

其中,2V σ为潜在真分数方差,2I σ为系统误差方差

效度的计算公式为:xy r =2

2x V σσ

由效度的计算公式可以看出,如果随机误差分数的方差和系统误差分数的方差之和越小,则效度越高。

从以上实得分数方差的分解,可以看出,信度与效度之间的关系:第一种是高信度、高效度;第二种是高信度、低效度;第三种是低信度、低效度。

高信度、高效度

高信度、低效度

低信度、低效度

因此,在信度与效度之间,首先要重点保证是高效度,因为,高效度必然高信度;反之,则不然。特别是对于教育测量而言,效度问题显得更为重要。

三、效度的估计

(一)内容效度

(1) 什么是内容效度

内容效度是指测验目的代表所欲测量的内容和引起预期反应所达到的程度。也就是测量内容的代表性程度。

在编制测验时,内容效度是一个相当复杂和不易解决的问题。以成绩测验来说,固然要求测验题目能代表所学习过的全部内容,但仅仅在形式上做到这一点还不能保证足够的内容效度,因为学习成绩的高低要从学习内容的巩固程度、理解程度和应用能力几种行为反应去考察,如果测验题目大多是只需牢记教材就可以回答的问题,那么,对全面测验学生的成绩这一目的来说,内容效度仍然不高,也就是说,还没有完全测验到所想测量的特性和功能。

(2) 估计内容效度的方法

〔1〕逻辑分析的方法

这是根据教育学和心理学的理论,根据教学大纲的要求,勾画出学生应掌握知识内容的范围和深度,提出应形成的技能名称等,然后以逻辑分析的方法估计测验在多大程度上代表了这些内容,在多大程度上能够测量出所要测量的特性和功能。

〔2〕用测验题目与教材内容比较的方法

先制两个表:

〈1〉测验的双向细目表,列出所要测量的各单元教材内容在考题中应占的百分比和所要求的各种行为反应在全部反应中的百分比。

〈2〉测验试题分类表,根据各单元教材内容列出试题,并注明该题所要求的行为反应及其应占的百分比。

对照这两个表,根据各个部分相符合的程度,判断内容效度的高低。

(二)效标关联效度

(1)效标是用来衡量测验效度的尺度。

〔1〕效标就是足以显示测验所欲测量的特性的变量或足以显示测验所要预测的特性的变量,作为检定效度的参照尺度。

〔2〕具体而言,效标是辨别真伪的尺度,当事物满足该原则时,才能存在。效标是不能违反的。当然,标准可以提高,也可以降低。效标不仅随测验的种类的不同而不同,而且可能随时间而改变。现在是好的成功的效标,将来就不一定是。

(2)选择效标是一件困难而重要的工作

〔1〕教育测验所依循的效标,可采用各学科成绩和教师的评定结果;

〔2〕智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事务;

〔3〕能力倾向测验的效标,可采用特殊课程或特殊训练的成绩;

〔4〕职业兴趣测验的效标,可采用从业人员实际服务成绩或记录;

〔5〕人格测验的效标,很难找到,只能按编制者的主观的标准来评判,或以被试以后的行为或临床资料作为效标。

(3)效标关联效度又可称为经验效度或统计效度,是以测验分数和效标之间的相关系数来表示测验的效度的高低的。

(4)效标关联效度又可分为同时效度和预测效度。

〔1〕同时效度是指测验与当前的效标之间的关联程度;

〔2〕预测效度是指测验与将来的效标之间的关联程度;

〔3〕例如,用全国高考的成绩作为效标来检验高中毕业会考的成绩,计算两者之间的相关系数就是会考的同时效度;用大学一年级的成绩作为效标来检验高考的成绩,计算两者之间的相关系数就是高考的预测效度。

(5)效标关联效度的计算方法参阅有关的教育统计学教材

(三)结构效度

(1)所谓结构效度,是指一个测量能实际测量出理论上的构念或心理特性的程度。它的目的在于用心理学的概念来说明分析测验分数的意义,也就是说从心理学的理论观点就测验的结果加以解释和探讨。这里结构的含义是心理学理论所涉及的抽象而属假设性的概念、特性或变量,如智力、焦虑、机械能力倾向、成就、动机等。

(2)结构效度的确定方法:

〔1〕从某一结构理论出发,导出各项关于心理功能或行为的基本假设

〔2〕据此编制测验;

〔3〕由果溯因,以相关、实验和因素等方法,检验测验结果是否符合心理学上的理论见解。

(3)确立一个测量的结构效度需要两个步骤

〔1〕必须指出,这个测量和所有理论上认为应与之有关的其他测量,有显著的相关。

〔2〕必须指出这个测量与所有理论上认为不应与之有关的其他测量,没有显著的相关。

四、提高效度的方法

(一)各种效度系数的要求

(1)不同的测验对效度系数有不同的要求,例如,智力测验分数与教师对

学生的等级评定之间的效度系数一般在0.30~0.50的范围内;相同科目的标准测验成绩与教师对学生名次排列之间的相关系数一般应达到0.60~0.70;两种不同的智力测验或标准测验之间的相关系数应达到0.60~0.80,才符合要求。

(2)对效度系数大小的要求,也受原测验与获得效标的测验之间的相似性的制约。若二者不相似,则效度系数偏低;若相似,则效度系数会高些。所以,有的测验效度系数达到0.35即已符合要求,有的却要达到0.65~0.77才能被认为是有效的测验。

(二)影响效度的因素

(1)测验组成方面

测题是构成测验的要素。而测题的性能是影响测验效度的因素之一。例如,测验的取材、长度,侧题的鉴别力、难度及其编排方式等都和效度有关。如果测验材料经审慎地选择,测验的长度恰当,测题具有相当的鉴别力且难度分布适当,并对测验作出合理的安排,就能提高测验的效度。

(2)测验实施方面

一个测验的效度要得到保证,主试应当适当控制测验情景,遵照测验守则的各项规定实施。例如场地的布置、材料的准备、回答方式的说明、时间的限制等。如不遵照标准化的程序进行,则必然使效度降低。

(3)被试主观状态方面

被试的兴趣、动机、情绪、态度和身体健康状况以及是否充分合作与尽力而为等,都能影响测验结果的可靠性和自己正确性。无论是能力测验还是人格测验,只有借助被试者真实的反应,才能正确地推断其心理特性和适应状况。

(4)估计效度所依据的效标

选择适当的效标是统计效度的先决条件。从统计的观点来分析,一个效标关联效度受下列三个因素影响:

〔1〕测验的信度

〔2〕效标变量测量的信度

〔3〕测验变量和效标变量之间真正的相关程度。

(5)样本方面

〔1〕适用的对象

一个测验应用于不同的对象,由于他们在性别上、年龄上、教育程度上以及经验背景上的差别,其测验功能不一致,效度也随之而异。

〔2〕规模的大小

当样本容量增加时,测量的误差有相互抵消的趋势,因而所得的结果较稳定。

〔3〕异质性

如果其他条件相同,样本分数全距愈大,则效度系数愈高。

(三)提高效度的方法

(1)控制系统误差

效度的高低主要受系统误差的影响。例如,仪器没有校准、题目和指导语有暗示性、答案有明显的组型等因素都会影响测验的效度。因此,必须控制这些因素。

(2)精心编制量表

〔1〕测验内容要确实能反应测验目的;

〔2〕题目表述必须清楚、简明,所用字、词、句为学生理解,内容应能引

起被试者的兴趣,排列由易到难,但前面的题目不应暗示后面的答案;

〔3〕题目难度合适,有足够的区分度;

〔4〕试卷印制清楚,无错误和遗漏,并力求精美。

(3)妥善组织测验

严格按照测验手册进行,不作超出规定的解释,要掌握好测验时间。评分时务必遵循评分标准,仔细登记,避免错误。两次测验间隔时间也影响效度,所以,间隔长短,一定要按测验目的合理安排。

(4)扩大样本的容量和代表性

加大样本容量,可以增加样本对总体的代表性,而且使随机误差相互抵消,使测量更可靠。同时,样本加大了,被试者差异也就加大了,潜在真分数的方差随着增加了,效度也就提高了。

(5)合理处理效度与信度的关系

〔1〕信度是效度的必要条件。虽然信度高的测验效度不一定高,但效度高的测验,信度却一定比较高。效度和信度的关系是:效度的最大值等于信度的平方根。但是,既要有高效度,同时又要有高信度,是不大可能的。例如,同质性测验信度较高,但对于预测来说,效度高,但是信度却比较低。所以,要提高预测效度的一个重要方法,是增加非同质性,即增加新因素。

〔2〕在处理信度与效度关系问题上,首先要保证高效度。

(6)适当增加测验的长度

增加测验的长度可以提高信度,而效度的最大值又与信度有关,所以,也可以提高效度。增加测验长度对信度的影响大于对效度的影响。适当增加测验题目的数量既可以提高信度,又可以提高效度。

第三节难度

一、难度的概念

难度是指测验试题的难易程度。例如,在教育测量中,客观题的难度一般用正确回答试题的人数与参加测验的总人数的比值来表示。其公式为:

R

P=

N

式中,P代表试题难度,R为答对试题的人数,N代表参加测验的总人数。

这里,难度实际上表示的是易度,与试题的实际困难程度正好相反。这是传统的难度计算公式,应用已极为广泛。一则是习惯;二则与后面的难度转换也是一致的。因此,只要理解它的意

义,并不会造成认识上的混乱。

难度是试题对学生知识和能力水平的适合程度的指标。试题的难度不但对题目的区分度(见本章第四节)有影响,而且对试卷的信度和效度也有较大的影响。

很明显,难度是一个相对的概念,难度的高低与被试的水平直接相关。一种测量对这一组被试是高难度的,可能对另一组被试是低难度的。也就是说,难度是由参与测量的被试群体的整体水平决定的。因此,我们不能笼统地说,这种测量的难度如何,而应该谈这种测量对某类被试的难度怎样。

二、难度的计算

(一)计算难度的基本公式

1.客观题难度的计算 P=N R

式中,P 表示难度指标,N 表示参加考试的总人数,R 表示答对某道客观题的人数。很显然,这里的难度指标,表示的是试题的通过率。通过率越高,题目越容易;反之,越难。

例如,100人参加测验,某题有60人答对,则此题的难度为: P=N R = 10060=0.60

此题的通过率为60%,难度适中。

2.主观题难度的计算: P=K X

式中,P 还是表示难度指标,X 表示所有考生在这道题上的平均

得分,K 表示这道论文题的满分。

例如,某道论述题满分12分,所有考生在这道题上的平均得分为3.6分,则此题的难度为: P=K X =126.3=0.3

此题偏难。

(二)用极端分组法计算试题的难度

当考生人数较多时,用基本公式计算难度需要对所有考生的得分情况进行统计,工作量很大,而且常常出错,这时可以用“极端分组法”求试题的难度。不管是客观题还是主观题都可采用这种方法,而且还可以同时计算试题的区分度(见本章第四节)。

1.用极端分组法计算客观题的难度

具体步骤如下:

(1)先按测验总分的高低,按由高到低的顺序,依次排列试卷。

(2)从得分最高的一份试卷开始依次向下选出全部试卷的7%,作为高分组。

(3)从得分最低的一份试卷开始依次向上选出全部试卷的27%,作为低分组。

(4)按下列公式计算难度, P=2L

H P P

式中,P 为难度,P H 为高分组的难度,P L 为低分组的难度。高分

组和低分组的难度计算按照求难度的基本公式进行计算。

2.用极端分组法计算论文题的难度

论文试题一般不能简单地判定对、错或通过、不通过,难度计算比较复杂一些。具体步骤如下:

(1)按测验得分排列试卷,确定高分组与低分组,各占总人数的25%(方法与前面相同)。

(2)分别为高分组、低分组编制每道试题的分析表。

(3)按下列公式计算难度, P=)(22L H n nL

X X L H --+

上式中,P 表示难度指数,X H 表示高分组得分总和,X L 表示低分

组得分总和,n 表示总人数的25%,H 为这道题的最高得分,L 为这道题的最低得分。

例如,某道论文题,高分组得分总和为40分,低分组得分总和为15分,有40人参加考试,这题最高得分为8分,最低得分为2分,则此题的难度为: P=)(22L H n nL

X X L H --+=)28(10221021540-????-+=0.125

此题偏难。

三、难度对测验的影响

1.测验难度影响测验分数的分布形态

难度值过大或过小,都会造成测验分数的偏态分布。难度值越接近0,测验的难度就越大,正确回答试题的人数就越少,测

验分数就越是集中在低分段,其分数分布呈正偏态;相反,难度值越接近1,其难度就越小,正确回答试题的人数就越多,测验分数集中在高分段,分数分布呈现负偏态。

2.测验难度影响测验分数的离散程度

测验难度直接影响测验分数的离散程度,因为难度过大或过小,测验分数的分布都呈偏态分布,亦即测验分数都分布在高分段或低分段,这样,测验分数的离散程度就变小了。而这不一定符合考生的实际情况,因为考生的差异是客观存在的。只有难度适中的测验,其分数的分布范围才有可能达到最大。

3.测验难度影响测验的鉴别能力

这里实际上谈的是难度对区分度的影响。适中的难度可使试题的区分度达到最大。这在后面还要说明。

四、测验的适宜难度

从以上难度值的计算公式,我们可以得出难度值P的取值范围为:0≤P≤1,当P=0时,试题的实际困难程度最大(所有的考生都得0分),当P=l时,试题的实际难度最小(所有的考生都全对)。

在常模参照性测验中要求试题难度适中,即大多数题目的难度在0.3~0.7之间,少数题目可在这一范围之两边且题数(或题分)大体相当,使整个试卷的平均难度为0.5左右(0.45~0.55之间)。只有适中的题目难度,才能使试题产生区分不同程度考生的最大效果,也才能使考生得分呈正态分布。而对全部考

生都能做或都不会做的题目则应予删去。

对于其他类型的测验,目的不同对难度的要求也不同。比如,选拔奥林匹克数学竞赛的学生,难度值就得偏小;而选择补习功课的学生,难度值就得偏大。

五、控制题目难度的基本方法

一般说来影响题目难度的主要因素有:①考查知识点的多少;②考查能力的复杂程度或层次的高低;③考生对题目的熟悉程度(如本来较易的题目会因考生均未注意而造成很难,或本来较难的题目会因为考生普遍练习过而变得较容易);④命题的技巧性(如同一个问题,可以命得容易,也可以命得较难)。

控制题目因素除了考虑上述因素,还可以通过其它方法来控制。在平常的教学考试中,由于老师对学生的情况比较了解,因而主要凭经验来控制难度,使之与老师的教学难度相适应。而在大规模的测试中,就要通过预测来掌握难度了。首先由命题人员根据上述因素估计一个难度范围;然后通过测试看这个估计的准确程度,分析原因,进而提高评估能力。经过预测取得难度的题目可以进入题库,以备后用。

第四节区分度

一、区分度的意义

(一)区分度的概念

区分度是指测验对考生实际水平的区分程度,用符号D表示。具有良好区分度的测验,实际水平高的应该得高分,实际水平低

的应该得低分。所以,区分度又叫鉴别力。它是评价试题质量,筛选试题的主要指标与依据。

区分又分为正区分(D>0)、零区分(D=0)和负区分(D<0),正区分又称积极区分,负区分又称消极区分。所谓1)正区分是指实际水平高的考生得了高分,实际水平低的考生得了低分;负区分正好相反;零区分是指实际水平高低与得分之间没有太大的关系,呈现出零相关。.

任何测验的目的之一,都是希望能够鉴别考生的实际水平。这实际上也是测验的信度和效度在题目上的具体要求。区分度的高低直接影响到测验的信度和效度。

(二)区分度与测验信度、难度的关系

1.区分度与信度的关系

表3.2 区分度与测验信度的关系

此表是1962年R.L.艾伯发表的,这里是假定全部试题的难度均为0.50时所预测的信度系数。里面的区分度指的是平均值。可见,要想达到理想的测验信度,提高区分度是一个好方法。

2.区分度与难度的关系

表3.3 区分度的最大值与难度的关系

由上表可知,难度适中,可使区分度达到最大值。

二、区分度的计算

区分度的计算有多种方法,这里介绍几种。

(一)用极端分组法计算区分度

1.客观题区分度的计算

用这种方法计算区分度与计算难度的方法基本相同,只是最后一步按下列公式计算区分度:

D=P

H —P

L

以上公式中D表示区分度,P

H 表示高分组的难度,P

L

表示

低分组的难度。例如,某题高分组有70%的人答对,低分组有30%的人答对,则此题的区分度为0.4。

2.主观题区分度的计算

主观题区分度的计算方法与客观题不同。首先,在分组方面,高分组和低分组各取25%的总人数,然后按以下公式计算: P = )(L H n X X L

H --

上式中,D 表示区分度,X H 表示高分组得分总数,X L 表示低分组

得分总数,n 表示总人数的25%,H 表示这道题的最高得分,L 表示这道题的最低得分。

(--)用内部一致性系数计算区分度

用极端分组法分析测验项目的区分度虽然计算简便、易于理解,但所得结果不精确,通常只在教师编制的课堂测验中使用。在标准化的或大规模的测验中,多采用相关法分析试题的区分度。

计算区分度可以采用点二列相关、二列相关、Φ相关系数等方法计算相关系数来表示区分度(参见有关教育统计学的教材)。点二列相关适用于计算客观题的区分度;二列相关适用于计算多重选择题的区分度;Φ相关系数适用于二个变量都是二分名义变量的区分度。

计算区分度时,要根据不同的测验目的选用适宜的方法。只有这样,才能正确地判定测验的区分度。

三、提高区分度的方法

1.使题目的难度适中,使整个考试难度适中

难度与区分度的关系在上表中已有说明,题目的难度适中可

使区分度达到最大值。因此,使难度适中是提高区分度的重要方法。

2.着重考察复杂的学习结果

尽量考察复杂的学习结果,使高能学生能得高分或最高分,低能学生得低分甚至最低分,使分数尽量分布在整个分数量尺上。这样,可以提高区分度。

四、区分度的评价标准

区分度自然是越高越好,但要做到这一点较难。一般说来可参照下表标准。对于有些要求不高的测验,有些试题的区分度低一些也是容许的。

表 3.4 采用极端分组法计算的区分度的评价标准

教育测量与评价自考资料(整理打印版)

《教育测量与评价复习纲要 6、教育测量的特点有测量结果的间接性,度量单位的相对性,测量对象的复杂性,测量目的的针对性。 第二节:教育评价概述 1、2.、3、4、国外学者关于教育评价的观点:①泰勒:确定教育目标在实际上被理解到何种程度的过程;②克龙巴赫:评价是为决策提供信息的过程;③斯克里文和豪斯:评价是一种对优缺点和价值的评估,是一种既有描述又有判断的活动;④大桥正飞夫:教育评价就是对照教育目标,对教育行为产生的变化进行价值上的判断。 4、5、教育评价具有导向功能、监督检查功能、激励功能、筛选择优功能、诊断改进功能。 6、7、在教育、教学活动开始之前,为使计划更有效地实施而进行的预测性、摸底性评价是诊断性评价。 8、形成性评价指在教育、教学活动计划实施的过程中,对计划、方案执行情况进行的评价。 9、总结性评价指某一教育、教学活动项目,是告一段落或完成以后进行的 评价。 第三节:教育测评的发展阶段 ⑩美国的教育测验运动分三个时期:1904-1915开拓期,1915-1930为兴盛期,1930-1940为批判期。 1931年塞蒙兹主人格测量应用评定发、问卷法、交谈法、轶事记录法等。 2、1904年桑代克发表了《精神与社会测验学导论》,标志着教育测验运动的开始。 3、 4、1963年,克龙巴赫发表了《通过评价改革课程》。 第一节:信度 2、计算信度的几种常用的方法:①稳定性系数:又称为重测信度,它是指用同一测验试卷,在先后两个不同时间同一组被试进行测验,两次测验实得分数的相关系数。这是估量信度最简单的方法。②等值性系数:先实施第一次测验,然后在最短的时间实施第二份等值的测验,再求他们得分的相关系数,这个相关系数就是信度的等值性系数。③部一致性系数:把一次测验人为地分成两部分,比较两个部分的一致程度,从而估计信度系数。估计方法有两种:分半信度和库德尔-理查森公式法。④论文式测验信度系数;⑤评分者信度。 4、测量误差的来源基本可分为三类:第一类误差产生于测验的本身;第二类误差与特定的实施条件有关;第三类误差包括被试本身的变化。 1、2、效度分为三大类:容效度、效标关联效度、结构效度。 3、容效度是指测验目的代表所欲测量的容和引起预期反应所达到的程度。估计容效度的方法有:逻辑分析的方法和用测验题目与教材容比较的方法。 45、结构效度是指一个测量能实际测量出理论上的狗年或者心理特性的程度。 6、影响效度的因素:测验的组成;测验的实施;被试主观状态方面;估计效度所依据的效标;样本方面。 7、提高效度的方法:控制系统误差;精心编制量表;妥善组织测验;扩充样本的容量和代表性;合理处理效度和信度的关系;适当增加测验的长度。 1、2、难度对测验的影响:影响测验分数的分布形态;影响测验分数的离散程度;影响测验的鉴别能力。 3、影响题目难度的因素:①考查知识点的多少;②考查能力的复杂程度或层次的高低; ③考生对题目的熟悉程度;④命题的技巧性。

《教育测量与评价》试题与答案

一、选择题(每题1分,共15题) 1、根据某些法则与程序,用数字对事物在量上的规定性予以确定和描述的过程,这一概念是(A ) A. 测量 B. 评价 C. 测验 D. 统计 2、衡量、判断人物或事物的价值,这一概念是( B ) A. 测量 B. 评价 C. 测验 D. 统计 3、被称为教育评价的催生剂的是美国的一项著名研究,它是(D ) A. 教育研究 B. 教育测量理论研究 C. 心理测验研究 D. 八年研究 4、于1975年成立的在开展教育评价的国际交流与协作过程中,最有影响力的协会是(B ) A. 国际教育成就评价协会 B. 国际教育评估协会 C. 国际教育评价协会 D. 国际教育成就评估协会 5、测量结果的稳定性程度是指( C ) A. 效度 B. 稳定性 C. 信度 D. 可信度 6、用同一个量表(测验或评价表)对同一组被试测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数,这一概念 是(B ) A.复本信度 B. 重测信度 C. 同质性信度 D. 分半信度 7、一个测验或量表实际能测出其所要测量的特性的程度,这一概念 是(A ) A. 效度 B. 稳定性 C. 信度 D. 可信度 8、一个测验对于处于特定情境中的个体行为进行预测时的有效性,这一概念是( C )

A.同质性信度 B.复本信度 C.效标关联效度 D.重测信度 9、衡量测量题目质量的两个重要指标是(D ) A.信度与区分度 B.效度与信度 C.难度与效度 D.难度与区分度 10、表示每项评价指标在指标体系中所占的重要性程度,并赋予相应的值,这一概念是(D ) A.评价指标 B.评价标准 C.指标权数 D.指标权重 11、在评价指标拟定过程中,经常会将评价指标按照评价对象本身的逻辑结构逐级进行分解,把分解出来的主要因素作为评价指标的方法,这种方法 是(C ) A.头脑风暴法 B.理论推演法 C.因素分解法 D.典型研究法 12、一个与被试同类的团体在相同测验上得分的分布状况与结构模式,这一概念是(B ) A. 模型 B. 常模 C. 量规 D. 参照物

《教育统计与测量评价》复习题及参考答案

本课程复习题所提供的答案仅供学员在复习过程中参考之用,有问题请到课程论坛提问。 本复习题页码标注所用教材为: 福师1203考试批次《教育统计与测量评价》复习题及参考答案一 … 一、单项选择题(每题1分,共10分) 1、体育运动会中各个项目的名次为“第1名,第2名,第3名……”,这一变量属于()。 A、称名变量 B、顺序变量 C、等距变量 D、比率变量 2、某次考试之后对数据进行统计分析,求得第46百分位数是64分,这意味着考分高于64分的考生人数比例 为()。 A、36% B、46% C、54% D、64% 3、下列分类是属于按照解释结果的参照点划分的() A、形成性与总结性测量与评价 B、智力与成就测量与评价 C、常模参照与标准参照测量与评价 D、诊断性与个人潜能测量与评价 4、标准分数Z与百分等级之间关系()。 A、可以互相推出 B、没有关系 、 C、百分等级PR大于Z分数 D、在一定条件下Z分数和PR值一一对应 5、在正态分布中,已知概率P(0<Z≤=,试问:概率P(Z>)的值为()。 A、B、C、D、 6.下列分类属于按照教学时机划分的是() A、形成性与总结性测量与评价 B、智力与成就测量与评价 C、常模参照与标准参照测量与评价 D、诊断性与个人潜能测量与评价 7.适合于某些用于选拔和分类的职业测验的效度种类是()。 A.时间效度 B. 内容效度 C. 效标关联效度 D. 结构效度 8. 统计学中反映一组数据集中趋势的量是下面哪个选项()。 A、平均差 B、差异系数 C、标准差 D、中数 。 9.某次考试之后对数据进行统计分析,求得第90百分位数是78分,这意味着考分高于78分的考生人数比例 为()。 A、90% B、10% C、78% D、22% 10. 考试中对学生进行排名,常见的名次属于什么变量() A、称名 B、顺序 C、等距 D、比率 答案提示:

自学测验考试现代教育测量与评价网络课堂答案

教育测量与评价 现代教育测量与评价学 第一章教育测量与评价概述 一、教育测量的含义(33分) 本节测验题:智力测量属于 A. 物理测量 B. 心理测量 C. 生理测量 D. 社会测量 二、教育测量的特点、教育评价的含义(35分) 提出“凡物之存在必有其数量”命题的是谁? A. 麦柯尔 B. 孟子 C. 桑戴克 D. 孔子 三、教育评价的特点、教育测量与评价的产生(35分) 现代教育评价产生的标志是 A. 《比纳.西蒙量表》 B. 科举考试 C. T.B.C.F制 D. “八年研究” 四、现代教育测量与评价的发展(30分) 第四代教育评价”的创立者是 A. 枯巴和林肯 B. 比纳和西蒙 C. 桑代克和麦柯尔 D. 泰勒与布鲁姆 五、教育测量与教育评价相关概念辨析(30分) 我国教育法规定的两项基本教育制度:一是教育督导制度,二是 A. 教育评价制度 B. 教育考试制度 C. 教育测量制度 D. 教育评估制度 第二章教育测量与评价的信度 一、信度概述(31分) 样本统计量与总体参数越接近,说明测验的信度 A. 越低 B. 无法判断 C. 越高 D. 需要验证 二、重测信度、复本信度、同质性信度(一)(35分) 用同一个量表对同一组被试先后施测两次,所得结果的一致性程度是A. 等值性信度

B. 等值稳定性信度 C. 分半信度 D. 重测信度 三、同质性信度(二)、评分者的信度(一)(31分) 若2个评分者评阅N份试卷,计算评分者的信度可用 A. 斯皮尔曼等级相关系数公式 B. 斯皮尔曼-布朗公式 C. 积差相关系数公式 D. 肯德尔和谐系数公式 四、评分者的信度(二)、标准参照测验的信度(33分) 估计标准参照测验的信度需要预先确定 A. 淘汰的人数 B. 达标的比例 C. 通过的人数 D. 决断的分数 第三章教育测量与评价的效度 一、效度概述、内容效度的含义(30分) 下列适合于内容效度的测验是 A. 能力倾向测验 B. 成就测验 C. 人格测验 D. 性格测验 二、内容效度的估计方法、结构效度(38分) 下面哪种测验的效度不属于结构效度? A. 智力测验 B. 焦虑测验 C. 动机测验 D. 学科测验 三、效标关联效度(44分) 效标关联效度也称为 A. 实证效度 B. 预测效度 C. 同时效度 D. 逻辑效度 第四章教育测量与评价题目的难度和区分度 一、难度及其计算、区分度及其计算(一)(40分) 最适宜的难度系数是 A. 0.50 B. 0.00 C. 1.00 D. -1.00 二、区分度的计算(二)、区分度与信度和难度的关系(31分)难度系数越接近何值,题目的区分度越大? A. 0.50

教育测量与评价教案

教育测量与评价教案 Company number:【0089WT-8898YT-W8CCB-BUUT-202108】

《数学教育测量与评价》教案 第一章数学教育测量与评价的学科发展 [教学目的与要求]理解数学教育测量和教育评价的含义及二者之间的关系,了解数学教育测量与评价的主要发展历程、基础教育课程改革精神及对数学教育测量与评价的要求,认识数学教育测量与评价的学科地位和作用、数学教育测量与评价对教师职业专业化的重要性。 [重点与难点]重点:数学教育测量和教育评价的含义及二者之间的关系、数学教育测量与评价的学科地位和作用。难点:数学教育测量和教育评价的含义及二者之间的关系。[教学时数]讲授2课时,课堂讨论、学生自主学习1课时 [教学方法与手段]课堂讲授、课堂讨论与学生自主学习相结合 第一节数学教育测量与评价的基本问题 一、数学教育测量与评价的含义 二、教育评价的基本问题 三、教育评价相关概念辨析 第二节数学教育测量与评价的发展历史 一、中国是考试制度的发源地 二、中国科举制度的世界地位 三、数学教育测量学科的诞生 四、数学教育测量运动的蓬勃开展 五、美国的“八年研究”是教育评价的催生剂 六、数学教育测量与评价理论的发展 第三节数学教育测量与评价的学科地位和作用 一、数学教育测量与评价是现代教育科学研究的三大领域之一 二、数学教育测量与评价在教育改革中具有重要的作用 三、教育改革呼唤数学教育测量与评价更加科学化 四、数学教育测量与评价是教师的专业素养和能力 [课堂训练、作业思考题] [1]数学教育测量与评价有什么联系与区别 [2]教育评价与教育评估有什么联系与区别

大学《教育测量与评价》试题库及答案

瑞文测验中哪一项是适用于高智力成人的() 收藏 A. B 瑞文彩图推理测验 B. A 瑞文标准推理测验 C. D联合瑞文推理测验 D. C 瑞文高级推理测验 回答错误!正确答案: D 对人的智力进行的一种客观、标准化的度量,叫做()收藏 A. D 智力测验 B. B 情商 C. C 智力 D. A 能力 回答错误!正确答案: A WAIS 的计分是() 收藏 A. A 先计算标准分 B. B 先计算智商 C. D答对1题得1分 D. C原始分转化为标准二十分 回答错误!正确答案: D 测验所要达到的某种具体的目的,叫做() 收藏 A. B测验目标 B. D 行为目标 C. C 教学目标

A 教育目标 回答错误!正确答案: C 在评价对象的集合内选择一个或若干基准,各个评价对象和基准进行比较,叫做() 收藏 A. A 绝对评价法 B. C 教育评价方法 C. D 定量分析法 D. B 相对评价法 回答错误!正确答案: D 在编制试题时,题型的分类中填空题、改错题、名词解释、简答题都属于()收藏 A. B 选择型 B. D 常用题型 C. A 提供型 D. C 开放式 回答错误!正确答案: C WISC主要测验的年龄范围是() 收藏 A. B 6-16岁 B. D 4-75 C. A 4-6.5岁 D. C 16岁以上 回答错误!正确答案: A 忧郁、淡漠、悲观、思想与行动缓慢,分数太高可能会自杀。是哪种临床表现() 收藏

A 疑病 B. B 抑郁 C. D 精神病态 D. C 癔症 回答错误!正确答案: B 由反映评价对象内涵的指标集、评价标准和量化符号构成的是()收藏 A. B 模型 B. A 框架 C. D 体系 D. C 教育评价指标体系 回答错误!正确答案: D 以班级的平均成绩为标准对学生学习成绩进行的评价为() 收藏 A. B 相对评价 B. D 需要性的评价 C. C 比较性评价 D. A 绝对评价 回答错误!正确答案: A 我国教育工作者创造的认知领域目标分类法是() 收藏 A. C 五分法和四分法 B. B 三分法 C. A 六分法 D. D 二分法

最新教育测量与评价考试试卷

《教育测量与评价》试卷 总分:100分考试时间:50分钟 姓名:______________ 学号:______________ 考试分数______________ 一、单选题(2*13) 1、下列哪类题型不属于客观题() A填空题B判断题C选择题D论述题 2、同一量表,同一被试群体,在不同时间,两次施测,求其相关。这样得出的信度是()A复本信度B分半信度C重测信度D同质性信度 3、名称量表上的数字具有什么特性() A等比性B等距性C等级性D区别性 4、用测验来寻找被试某种能力上的特殊优点或缺点,这种测验是() A普通测验B诊断测验C预测测验D成绩测验 5、把总体中各个个体按照一定标志分为不同类型或层次,然后从各类型中随机抽取若干个个体,从而构成样本的抽样方法叫做() A整群抽样 B 机械抽样 C 分层抽样 D 单纯随机抽样 6、下列关于分半信度的描述哪一项是不正确的() A计算分半信度先要对测验分半 B要注意使那些性质不相同、联系不紧密的项目分在相同的一半 C测验越长、项目越多,两半分数的相关就越可能高 D不同的分半法可能会得到不同的信度值 7、下列关于区分度的描述哪一项是不正确的() A区分度是测验对被试实际水平的区分程度 B取值范围为0到1 C区分度越高时,试题的质量越好 D区分度是作为评价项目质量、筛选项目的主要指标与依据 8、区分度与难度之间的关系是() A 题目越难,区分度越高B题目越难,区分度越低 C 难度为1时,区分度为0 D难度为0时,区分度为1 9、测验工具是否测到了要测的东西,即测到了被试的某种心理特性、特质、结构,这就是测验的 ( ) A 信度 B 效度 C 难度 D 区分度 10、通常是以问卷的形式,提出一系列题目的人格测验的方法是( ) A 评定量表法 B 情境测验法 C 自陈量表法 D 投射测验法 11、标准分数值具有 ( ) A 可比性 B 可加性 C 可比性而无可加性 D A、B都对 12、发展常模就是某类个体正常发展进程各特定阶段的( ) A 高等水平 B 一般水平 C 低等水平 D 特定水平

教育测量与评价164答案

《教育测量与评估》模拟试卷D 参考答案: 一、概念辨析 1、信度与效度:信度:是反映测验成绩在不同条件下的一致性、连续性程度的指标。任何测量都必须具有客观性和可靠性,即测量结果不能随测量者、时间、地点的变化而变化,作为测量、测验的可靠性问题就是测验的信度问题。测验效度:测验对于所要测量的心理特质进行评定的有效程度,即测验测到所想测量的特质程度。两者的关系在于:高信度一般都具有高效度,但是高效度不一定都有高信度。 2、随机误差与系统误差:随机误差:由偶然因素引起的无规律的误差。随机误差造成同一测验对同一对象多次施测结果之间的不一致,而且每次变化的大小和方向都是不稳定的,或者说是完全随机的,使测量结果围绕某一个“值”有所涨落。系统误差:由与测验目的无关的某种常定因素引起的有规律的变化。系统误差稳定地存在于每一次测量中,使测验的多次结果有规律地偏离某一个“值”,从而造成虽然一致却不准确的测验结果。二者的区别在于,随机误差是无规律的,并且是不可克服的,系统误差是有规律的,可以通过一定的手段加以矫正。 3、事实判断与价值判断:两者既相互区别又相互联系。区别在于:事实判断是对事物的现状、属性与规律的客观描述,包括量或质的描述,在教育活动中,教育测量与教育统计都属于事实描述的范畴。事实判断的基本要求是它的客观性,即真实地反映事物的本来面目。价值判断是根据评价者的需要和愿望对客观事物作出评判。因为教育的价值由教育活动满足主体需要的程度来决定,不同的主体由于需要不同,对教育活动就可能产生不同的判断,所以,价值判断受评价者价值观念的制约。价值判断有一个显著的特点:它是一种客观性与主体性高度统一的活动。价值判断往往在事实描述的基础上进行。 4、准则与标准:所谓准则是对评价活动内容或方面质的规定(即对被评属性的规定)。它是评价方案的核心部分,它规定评价活动评什么、不评什么。评价的准则通常有两种形式,即指标和概括性问题。所谓标准是指事物质变的临界点,即事物质变过程中量的规定性。评价标准是对评价内容或方面量的规定,即要求或完成的程度或水平。评价标准表示达到什么程度才是合乎要求的,或者能被称为优良的。 二、简单题: 1、定量方法在评价中的作用:(1)定量分析是我们获得评价结论的重要依据;(2)定量分析是表述评价结论最简洁的方法;(3)定量分析是提高评价客观性的重要手段;(4)为简化评价工作,节约评价工作的人力和物力提供了方法。 2、举例说明什么是“权重”:在教育评价中,权重是指根据各组成要素在整体中的地位重要性和作用大小,所分别赋予的不同数值。权重代表了评价指标的重要性程度。应该遵循原则:各指标权重的取之范围为0-1之间;各指标权重之和为1。例如:教育评价与测量考试成绩由二部分组成:平时成绩×0.3+期末考试成绩×0.7其中0. 3、0.7就是权重系数。 3、如何理解难度的相对性:合适的项目难度取决于测验的目的、内容、形式及学生被试的

中学数学教育测量与评价

数学测量与评价 洪梅 一、举例分析中学数学各种类型试题命制的方法与技巧?(总分:25分) 答:在此以选择题、填空题、解答题为例来分析我自己对中学数学试题命制的方法与技巧的一些认识。 1、选择题 选择题由题干和多个(备用)选择项组成。数学的选择题一般备有4个选项,这些信息或多或少具有“提示”与“迷惑”双重作用. 题干往往包含两部分:题设与提问指导语句. 提问可以是定性提问、定量提问或者定性、定量兼具的提问.而选择项,通常是所提问题的结论或答案. 选择题型较为适合考查概念的理解、性质的运用、公式的变形、数值的计算、思维的切换,等等方面的情况. 运用选择题型编制试题时应该注意下列事项: 在题干中,要用精练、明确的语言把题设(已知条件)和问题述清楚; 每一个选择项的表述必须明确清楚,它与题干连接在一起,读起来应当顺畅,并且应当成为一个完整的语句,或者是一个完整的命题. 几个选择项之间,通常应当具有同类性(即类型相同)、相近性(即形式相近)和匀称性(即容量彼此相称). 正确的选择项多一点隐蔽的色彩,而错误的选择项尽量多一些迷惑的因素,要针对学生的弱点和可能失误的情形设置起干扰作用的选择项; 题设与结论之间的关联词、提问的指导语,既要合乎逻辑,又要无歧义,而且一般情况下应放在题干中. 2.填空题 填空题的一般形式是给出若干个条件,要求推断出一个结论,或者计算出一个结果. 也有的是给一个命题要求补充条件或结论,使之成为正确的、完整的命题. 填空题的特点是只考查结果而不考查获得结果的过程. 适合编为填空题的容有:较简单的推理运算问题;容易由概念、性质或图形做出判断而严格地演绎出结果却是很难或冗繁的问题;貌似计算,实则运用概念或性质容易揭示出其中某些数量关系的问题. 填空题的进一步发展,出现了填写答案不惟一的填空题. 这类问题具有较好的辨析性、探索性或开放性,是对传统填空题具有创新意义的应用. 填空题命题的关键是材料的取舍和空位的设置,以及述方式的处理. 编制填空题应该力求做到: 取材合理,涉及的容不宜多; 考查中心突出、鲜明、集中; 发问明确,指导语贴切,不会产生歧义,不会引发误解; 述简洁、精炼,规. 3.解答题 解答题是要求完整地写出解题过程的题目. 它的特点是容量较大,能直接考查多个知识点,以及综合考查多种数学思想、方法和数学能力. 由于这类题目要求考生完整地写出解题过程,因此较之选择题和填空题更能考查考生的解题思路和解题过程,也能更好地对不同水平的考生进行多层次的区分. 在一个大前提(已知条件)下,提出若干问题,要求学生解答,这是数学解答题的常见呈现方式. 从一个基本数学事实出发,研究其变形、扩、发展,形成

教育测量与评价答案

《教育测量与评价》作业 本课程作业由两部分组成。第一部分为“客观题部分”,由15个选择题组成,每题1分,共15分。第二部分为“主观题部分”,由简答题和论述题组成,共15分。作业总分30分,将作为平时成绩记入课程总成绩。 客观题部分: 一、选择题(每题1分,共15题) 1、根据某些法则与程序,用数字对事物在量上的规定性予以确定和描述的过程,这一概念是( A) A. 测量 B. 评价 C. 测验 D. 统计 2、衡量、判断人物或事物的价值,这一概念是( B ) A. 测量 B. 评价 C. 测验 D. 统计 3、被称为教育评价的催生剂的是美国的一项著名研究,它是( D ) A. 教育研究 B. 教育测量理论研究 C. 心理测验研究 D. 八年研究 4、于1975年成立的在开展教育评价的国际交流与协作过程中,最有影响力的协会是( B) A. 国际教育成就评价协会 B. 国际教育评估协会 C. 国际教育评价协会 D. 国际教育成就评估协会 5、测量结果的稳定性程度是指( C ) A. 效度 B. 稳定性 C. 信度 D. 可信度 6、用同一个量表(测验或评价表)对同一组被试测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数,这一概念是(B ) A.复本信度 B. 重测信度 C. 同质性信度 D. 分半信度 7、一个测验或量表实际能测出其所要测量的特性的程度,这一概念是( A ) A. 效度 B. 稳定性 C. 信度 D. 可信度 8、一个测验对于处于特定情境中的个体行为进行预测时的有效性,这一概念是( C ) A.同质性信度

B.复本信度 C.效标关联效度 D.重测信度 9、衡量测量题目质量的两个重要指标是( B ) A.信度与区分度 B.效度与信度 C.难度与效度 D.难度与区分度 10、表示每项评价指标在指标体系中所占的重要性程度,并赋予相应的值,这一概念是( D ) A.评价指标 B.评价标准 C.指标权数 D.指标权重 11、在评价指标拟定过程中,经常会将评价指标按照评价对象本身的逻辑结构逐级进行分解,把分解出来的主要因素作为评价指标的方法,这种方法是( C ) A.头脑风暴法 B.理论推演法 C.因素分解法 D.典型研究法 12、一个与被试同类的团体在相同测验上得分的分布状况与结构模式,这一概念是(B ) A. 模型 B. 常模 C. 量规 D. 参照物 13、我国高考标准分数采用了一种方案,这种方案是(D ) A. 正态化转换方案 B. 对比参照方案 C. 百分等级方案 D. 常模参照方案 14、最早的测验理论是(A ) A.经典测验理论 B.题目反应理论 C.心理测验理论 D.智力测验理论 15、在现代测验理论的诸多模式中,最具有优越性的是(B )

中学数学教育测量与评价审批稿

中学数学教育测量与评 价 YKK standardization office【 YKK5AB- YKK08- YKK2C- YKK18】

数学测量与评价 李洪梅 一、举例分析中学数学各种类型试题命制的方法与技巧(总分:25分) 答:在此以选择题、填空题、解答题为例来分析我自己对中学数学试题命制的方法与技巧的一些认识。 1、选择题 选择题由题干和多个(备用)选择项组成。数学的选择题一般备有4个选项,这些信息或多或少具有“提示”与“迷惑”双重作用. 题干往往包含两部分:题设与提问指导语句. 提问可以是定性提问、定量提问或者定性、定量兼具的提问.而选择项,通常是所提问题的结论或答案. 选择题型较为适合考查概念的理解、性质的运用、公式的变形、数值的计算、思维的切换,等等方面的情况. 运用选择题型编制试题时应该注意下列事项: 在题干中,要用精练、明确的语言把题设(已知条件)和问题陈述清楚; 每一个选择项的表述必须明确清楚,它与题干连接在一起,读起来应当顺畅,并且应当成为一个完整的语句,或者是一个完整的命题. 几个选择项之间,通常应当具有同类性(即类型相同)、相近性(即形式相近)和匀称性(即容量彼此相称). 正确的选择项多一点隐蔽的色彩,而错误的选择项尽量多一些迷惑的因素,要针对学生的弱点和可能失误的情形设置起干扰作用的选择项; 题设与结论之间的关联词、提问的指导语,既要合乎逻辑,又要无歧义,而且一般情况下应放在题干中. 2.填空题

填空题的一般形式是给出若干个条件,要求推断出一个结论,或者计算出一个结果. 也有的是给一个命题要求补充条件或结论,使之成为正确的、完整的命题. 填空题的特 点是只考查结果而不考查获得结果的过程. 适合编为填空题的内容有:较简单的推理运算问题;容易由概念、性质或图形做出 判断而严格地演绎出结果却是很难或冗繁的问题;貌似计算,实则运用概念或性质容易 揭示出其中某些数量关系的问题. 填空题的进一步发展,出现了填写答案不惟一的填空题. 这类问题具有较好的辨析性、探索性或开放性,是对传统填空题具有创新意义的应用. 填空题命题的关键是材料的取舍和空位的设置,以及陈述方式的处理. 编制填空题 应该力求做到: 取材合理,涉及的内容不宜多; 考查中心突出、鲜明、集中; 发问明确,指导语贴切,不会产生歧义,不会引发误解; 陈述简洁、精炼,规范. 3.解答题 解答题是要求完整地写出解题过程的题目. 它的特点是容量较大,能直接考查多个 知识点,以及综合考查多种数学思想、方法和数学能力. 由于这类题目要求考生完整地 写出解题过程,因此较之选择题和填空题更能考查考生的解题思路和解题过程,也能更 好地对不同水平的考生进行多层次的区分. 在一个大前提(已知条件)下,提出若干问题,要求学生解答,这是数学解答题的 常见呈现方式. 从一个基本数学事实出发,研究其变形、扩张、发展,形成一系列的题

教育测量与评价考试题目汇总

测量题目汇总 一、单选题(本题共15个小题,每小题1分,共15分。将答案填入下表) 1.与物理测量相比,以下属于教育测量特点的是( )。 A.它一般是间接测量 B.它的度量单位是绝对的 C.它的目的是特为测量服务的 D.它的作用是单一的 2. 下列量尺中,属于最高水平测度的是()。 A.类别量表 B.等级量表 C.等距量表 D.等比量表 3. 一个主试在同一时间,只测量一个被试的测验称为()。 A.难度测验 B.速度测验 C.预测测验 D.个别测验 4.区分度指数D的取值围为()。 A.[-1,0] B.[0,1] C.[-1,1] D.[-2,2] 5.提出“凡有数量的东西都可以测量”的测验学者是()。 A.桑代克 B.麦柯尔 C.王书林 D.萨蒂 6.测验难度系数P值在0.8—1.0为( D )。 A、难题 B、较难题 C、中等题 D、易题 7.测题基本上分为选择题和()。 A.是非题 B.供答题 C.论述题 D.客观题 8.原则上区分度水平()以下的题必须淘汰。 A.0.19 B.0.4 C.0.30—0.39 D. 0.20—0.29 9.下列教育测量类型属于按照测量的功能分类的是()。 A.常模参照测验和标准参照测验 B.智力测验和能力倾向测验 C.难度测验和速度测验 D.标准化测验和教师自编测验 10.下列有关信度解释正确的是()。 A.信度是有关测量结果的可信程度 B.信度越高,测验结果越是真实的 C.信度追求测量中的系统误差的最佳控制程度的估计 D.测验的项目少,测验的信度高 11.测量项目的难度为0.5时,项目的区分度值最大为()。 A.0.8 B.1.5 C.1 D.-1 12.通常所用的时限是使大约()%的被试在规定时间完成全部测验。 A.90 B.80 C.95 D.100 13.人的身高与学业成就、相貌与人的行为等现象的关系都属于()。 A.积差相关 B.零相关 C.正相关 D.负相关 14.下列估计测验信度的方法中,对信度最严格的检验方法是()。 A.再测信度 B.在一致性信度 C.复本信度 D.评分者信度 15.项目分析时一般将总分最高和最低的()的被试划分为高分组和低分组。 A.7% B.17% C.27% D.37% 二、多项选择题(本题共8个小题,每题2分,共16分。将答案填入下表)

数学教育测量与评价

数学教育测量与评价 专题讲座第一章均值和方差的检验题一、参数假设检验的几个基本因素关于什么是参数假设检验,我们先看一个实际例子。“某班语文课教学采用研讨式方法后,对其中10名同学测验,平均成绩为85分。已知这个班过去测验成绩服从正态分布,其均值保持在82分左右,这意味着总体平均分是给定的,那么现在问采用研讨式方法后,其平均成绩是否和原来一致?” 如果我们假设采用研讨式方法后的平均成绩和采用研讨式方法前的平均成绩一致,则需要判断这种假设对不对? 如果对,对的把握性有多大? 如果不对,那么平均成绩比原来是增加还是减少? 当然,我们不能只看到85分高于82分就认为比原来高了,这是因为抽取样本时受到随机因素的干扰,我们不能以样本参数对总体参数进行单纯比较而简单地下结

论。这个例子所反映问题的是: 总体分布已知,对总体参数作假设,用统计理论来判断这一假设正确与否,统计学上称为参数假设检验。一般说来,进行假设检验应重点关注以下几个基本因素:其一,假设。假设分为参数假设和非参数假设.参数假设指总体分布已知,关于未知参数的假设,教育研究中用的最多的是已知总体服从正态分布,对总体均值某校五年级学生期末语文成绩,方差,总体方差做出假设。例如,在过在原有状况下不变,而均值去常规教学下为82分。为了提高教学质量,采用新的教学法后抽测10名同学,其平均成绩为85分,这时我们提出采用新教学法后总体均值称为原假设或零假设,相对于为82分的假设,记为,还要给出一个备选假设,记为对这个例子我们不提本均值85大于82。小于82这样的假设,这是因为这样的假设是没有根据的,原因在于样其二,假设检验。

教育测量与评价172答案

教育测量与评价模拟试卷B卷:参考答案: 一、概念辨析 1、信度与效度:信度:是反映测验成绩在不同条件下的一致性、连续性程度的指标。任何测量都必须具有客观性和可靠性,即测量结果不能随测量者、时间、地点的变化而变化,作为测量、测验的可靠性问题就是测验的信度问题。测验效度:测验对于所要测量的心理特质进行评定的有效程度,即测验测到所想测量的特质程度。两者的关系在于:高信度一般都具有高效度,但是高效度不一定都有高信度。 2、晕轮效应与逻辑误差:晕轮效应也称社会刻板印象作用,其实质是把得到的有关信息,按一定的方式分类,然后按事前形成的类别处理其它信息。晕轮效应有两方面的评价误差,即以差概好和以好概差。比如教师对学生的第一印象对师生关系的影响;阅卷中的开始过于严格现象。逻辑误差是在对两个没有必然联系的属性进行评价时,由于对其中某一属性肯定的评价而产生的对另一属性肯定的评价。比如学习成绩好的学生,品德素质也好。 两者对会对评价结果的准确性产生影响。 3、自我评价与个体内差异评价:自我评价是一种内部导向的评价。它是建立在对评价对象信任的基础上,由被评对象依据一定的准则与标准对自己工作的各方面进行自己对自己的评价。个体内差异的评价是将被评对象集合总体中的各个个体的过去和现在,或者某个体的若个侧面进行比较的评价。两者不是同一纬度的概念。自我评价仅仅针对被评价对象自己,没有横向的比较性,个体内差异评价可以有群体内部的横向比较。比如:个人年度总结;教师年度考核优秀15%。 4、教育评价与教育测量:教育评价对教育活动满足社会和个体需要的程度作出判断的活动,是对教育活动现实的或潜在的价值作出判断的过程。对本身有价值的教育进行评价,无非是想彻底地了解和完善教育,从而考虑实现教育价值增值的可能性。测量是按照一定的法则,对事物及其有关的属性分配数值。教育测量就是按照一定的法则对有关的教育属性分配数值。教育评价与教育测量相互区别又有着紧密的联系。教育评价往往把教育测量当作它的基础,教育评价是在教育测量基础上的深化,就其历史的发展来说,教育评价是在教育测量基础上发展起来的。其区别在于,在本质上,教育测量属事实判断的范畴。而评价是在它的基础上,进一步作出好与坏、优与劣,对与错、善与恶的价值判断。 二、简单题: 1、指标设计的基本方法:第一,从内涵分析入手,抓住事物的本质属性,然后把这一属性可观察的现象性外观表现确定为指标。这是一种最简捷、最有效的方法。第二,从分析事物间的相互联系开始,抓住事物变化后产生的效应,把事物变化所产生的效应确定为指标。如温度测量、挂牌教学。第三,抓住事物的全部属性或相关属性,把因素群作为相关指标。这是一种最不经济的方法,然而却是目前用得最多的方法。 2、举例说明什么是“权重”:在教育评价中,权重是指根据各组成要素在整体中的地位重要性和作用大小,所分别赋予的不同数值。权重代表了评价指标的重要性程度。应该遵循原则:各指标权重的取之范围为0-1之间;各指标权重之和为1。例如:教育评价与测量考试成绩由二部分组成:平时成绩×0.3+期末考试成绩×0.7其中0. 3、0.7就是权重系数。 3、定性方法在评价中的作用:(1)它为定量的分析活动提供了基础。(2)它为定量的分析结果提供了说明。(3)它为被评人员改进工作提供了指南。 4、泰勒评价模式的特点:a评价结构严谨:以目标为导向的评价模式把目标做为教育活动和评价活动的依据,使评价活动有可以把握的标准。b评价范围扩大:使评价的焦点从学生身上转移到教学的其它方面,评价人员必须对教学目标、教学的行为目标以及目标实施的程序等学生成就以外的一些事项有所了解。c评价功效提高:以目标为导向的评价模式直接反

教育统计与测量自考复习资料

1、统计:就是“统而计之”对所考察事物的量的取值在其出 现的全部范围内作总体的把握,全局性的认识。教育统计:对教育领域各种现象量的取值从总 体上的把握与认识,它是为教育工作的良好进行,科学管理、革新发展服务的。教育统计学:社会科学中的一门应用统计,是数理统计跟教育学、心理学交叉结合产物 2、测量:按一定规则给对象在某种性质的量尺上指定值。教育测量:就是给所考察研究的教育现象,按一定的规则在某种性质量尺上指定值 3、心理量表:心理测验工具与常模的结合 4、数据:用数量或数字形式表示的资料事实称为数据。计数数据:是以计算个数或次数获得的,多表现为整数。测量评估数据:借助测量工具或评估方法对事物的某种属性指派给数字后 所获数据。人工编码数据以人们按一定规则给不同类别的事物 指派适当的数字号码后所形成 的数据 5、称名变量:只说明某一事物与其他事物在名称、类别或属性上的不同,并不说明事物与事物之间差异的大小、顺序的先后及质的优劣。顺序变量:是指可以就事物的某一属性的多少或大 小按次序将各事物加以排列的 变量,具有等级性和次序性的特点。等距变量:除能表明量的相对大小外,还具有相等的单位。比率变量:除了具有量的大小、相等单位外,还有绝对零点。比率变量数据可以进行加、减、乘、除运算 6、次数分布:一批数据中各个不同数值所出现次数多少的情况,或者是这批数据在数轴上各个区间内所出现的次数多少的 情况。简单次数分布表:通常简称为次数分布表,其实质是反映一批数据在各等距区组内的次 数分布结构。相对次数:各组的次数f与总次数N之间的比值7、次数分布曲线:从理论上讲,如若总次数无限增大,则随着组距的缩小,这些折线所接近的极限便将成为极光滑而富有规则 性的曲线,称为次数分布曲线8、散点图:用平面直角坐标系上点的散布图形来表示两种事 物之间的相关性及联系模式。散点图适合于描述二元变量的观 测数据。线形图:以起伏的折线来表示某种事物的发展变化及 演变趋势的统计图,适用于描述某种事物在时间序列上的变化趋势,也适用于描述一种事物随 另一事物发展变化的趋势模式, 还可适用于比较不同的人物团 体在同一心理或教育现象上的 变化特征及相互联系 9、观测数据不仅具有离散性的 特点,而且还具有向某点集中的 趋势,反映次数颁分布集中趋势 的量数叫集中量数。中位数:位 于数据分布正中间位置上的那 个数。如果一组数据从小到大排 列,则中位数通常是将这批数据 个数一分为二,居于中间的那个 数。众数:一个次数分布中出现 次数最多的那个数,众数不唯一 可有一个或多个。用符号M o表 示。离中趋势:数据具有偏离中 心位置的趋势,它反映了一组数 据本身的离散程度和变异性程 度。差异量数:反映一组数据离 散程度的量 10、一批数据的算术平均数指的 是这批数据总和数除以数据总 次数后所得的商数。平均差:各 数据与其平均数的离差绝对值 的平均值。方差:数据的离差平 方数的算术平均数。标准差:方 差的算术平方根 11、差异系数:差异量数和集中 量数两相对比后所形成的相对 差异量数。地位量数:凡反映次 数分布中各数据所处地位的量 就叫地位量数 12、相关:行为变量或现象之间 存在着种种不同模式、不同程度 的联系。这种联系叫做相关。直 线性相关:两个变量的成对观测 数据在平面直角坐标系上描点 构成的散点图会环绕在某一条 直线附近分布 13、原始分数:在测量工具上直 接得到的测值(数字),叫原始 分数。相对评分分数:通过被试 间相互比较而确定意义的分数 叫相对评分分数。绝对评分分 数:通过拿被试测值跟应有标准 作比较来确定其意义的分数叫 绝对评分分数 14、常模:测验常模简称常模即 指一定人群在测验所测特性上 的普遍水平或水平分布状况。组 内常模:解释被试原始分数的参 照体系,即被试所属那类群体的 人,在所测特性上测验取值的分 布状况。标准分数常模:用被试 所得测验分数转换成的标准分 数来揭示其在常模团体中的相 对地位的组内常模 15、线性变换:对所有要作变换 的值,都乘以同一确定值然后再 都加上另一确定值。测绘项目的 难度:被试完成项目作答任务时 所遇到的困难程度。项目的难度 指数:定量刻画一个测验项目的 被试作答困难程度的量数就叫 项目的难度指数。得分率(通过 率):最通用的项目难度指数的 求法,就是计算被试在项目上的 得分率或者说通过率。项目区分 度:就是项目区别被试水平高低 的能力的量度。测验信度:测验 在测量它所测特质时得到的分 数(测值)的一致性。它是对测 验控制误差能力的量度,是反映 测验性能的一个重要质量指标 16、观察分数:如果从测验实施 过程中实际得到的被试分数叫 观察分数。真分数:被试在所测 特质上客观具有的水平值。测量 误差:观察分数与真分数的差就 是测量误差。信度系数:利用同 一测验向同一批被试重测两次 所得的两批独立测值,求出其间 的相关系数,就可利用这种重测 相关系数作为测验信度的估计 值。这样的相关系数就叫信度系 数。稳定性系数:由于重侧法十 分强调特质的稳定性,所以用这 种方法求取的信度系数就叫做 稳定性系数。等值性系数:用平 行形式相关求得的信度系数,因 为特别强调两测验形式的等值 关系所以又叫等值性系数 17、测量标准误:实际测验中所 得测值偏离真分数的程度叫做 测量标准误可记为SEM。测验效 度:测验实际上测到它打算要测 的东西的程度。内容效度:测验 项目构成应测行为领域代表性 样本的程度。效标关联效度:测 验预测个体在类似或某种特定 情境下行为表现的有效性。结构 效度:测验测得心理学理论所定 义的某一心理结构或特质的程 度。效度系数:测验分数与效标 测量值间的相关系数叫效度系 数 18、安置性测验:学期开始或单 元教学开始时确定学生实有水 平以便针对性地做好教学安排 而经常使用的测验。形成性测 验:在教学进行过程中实施的用 于检查学生掌握知识和进步情 况的测验,这可为师生双方提供 有关学习成败的连续反馈信息。 诊断性测验:为探测与确定学习 困难原因而施测的一类测验。终 结性测验:在课程结束或教学大 周期结束时,用于确定教学目标 达到程度和学生对预期学习结 果掌握程度的一类测验,称为终 结性测验 19、常模参照测验:实是参照着 常模使用相对位置来描述测验 成绩水平的一种测验。标准参照 测验:跟一组规定明确的知识能 力标准或教学目标内容对比时, 对学习者的测验成绩作出解释 的一类测验。职业能力倾向测 验:测量人的某种潜能,从而预 测人在一定职业领域中成功可 能性的心理测验 20、能力倾向:一个人获得新的 知识、能力和技能的内在潜力 21、确定性现象:在相同的条件 下其结果也一定相同的现象。不 确定性现象:在相同的条件下其 结果却不一定相同的现象,又称 随机现象 22、随机变量:我们称记录各种 随机试验结果的变量为随机变 量。概率:通俗地说,某事件发 生的概率就是该事件发生的可 能性大小记作为P(A) 23、正态分布是连续性随机变量 中常见的一种概率分布形态也 称常态分布。总体:我们把客观 世界中具有某种共同特征的元 素的全体称为总体。样本:从总 体中抽取的部分个体组成的群 体称为样本。统计量:在总体数 据基础上求取的各种特征量数 我们称其为参数,应用样本数据 计算的各种特征量数我们称其 为统计量。抽样分布:从一个总 体中随机抽取若干个等容量的 样本,计算每个样本的某个特征 量数,由这些特征量数形成的分 布,称为这个特征量数的抽样分 布 24、小概率事件:在教育统计中 常常把概率取值小于0.05或小 于0.01的随机事件称为小概率 事件。小概率事件原理:认为小 概率事件在一次抽样中不可能 发生的原理 25、统计假设检验的显著性水 平:在统计假设检验中,公认的 小概率事件的概率值被称为统 计假设检验的显著性水平。记为 α。虚无假设又称为原假设、零 假设,以符号H0表示。虚无假设 在假设检验中将被视作为已知 条件而应用,因此虚无假设应是 一个相对比较明确的陈述命题, 一定要含有“等于什么”的成分。 备择假设又称解消假设,研究假 设等,以符号H1表示。备择假设 作为虚无假设的对立假设而存 在,因此它也是一个陈述命题, 备择假设是对虚无假设的否定 26方差分析:统计学中一种独特 的假设检验方法,它的最基本功 能就是一次性检验多个总体平 均数的差异显著性

数学教育测量与评价教学提纲

数学教育测量与评价1.学习目的:通过学习了解数学教育测量与评价的基本原理,运用数学教育测量与评价获得信息,对数学教学进行测量与评价,从而指导数学教学实践。2.内容介绍:了解和掌握数学教育测量与评价的基本概念,学会运用教育统计学的基本理论进行教学测量与评价。3.考核或方案:运用教育测量与评价的基本原理,结合教学实践,选一个课题进行教学评价。4. 主要参考书目:[1] 田万海等著数学教学测量与评估上海教育出版社,1995年12月第1版[2] 王孝玲编著教育统计学,华东师范大学出版社,2001年7月第1版[3] 王孝玲编著教育测量华东师范大学出版社,2001年4月第1版 第一章绪论§1.1教育统计学的内容一、什么是教育统计学教育统计学是运用数理 统计的原理和方法,研究教育问题的一门应用科学。它的主要任务是研究如何搜集、整理、分析由教育调查和教育实验所获得的数字资料,并以此为依据,进行科学推断,揭示教育现象以蕴含的客观规律。二、统计学研究的内容分成描述统计、推断统计、实验设计1.描述统计 对已获得的数据进行整理、概括,显现其分布特征的统计方法,称为描述统计。通过教育调查和教育实验获得大量的数据。用归纳、编表、绘图等统计方法对之进行归纳、整理,以直观形象的形式反映其分布特征;通过计算各种特征量,来反映它们分布上的数字特征。例如,计算集中量(算术平均数、中位数、众数、加权算术平均数、几何平均数、调和平均数等)来反映它的集中趋势;计算差异量(如全距、四分位距、百分位距、平均数、标准差、差异系数等)来反映它们的离散程度;计算偏态量及峰态量来反映它们的分布形态;计算相关量(如积差相关系数、等级相关数、点二列相关系数、相关系数、四分相关系数、C相关系数、肯德尔和谐系数、多系列相关系数等)来反映一个事物的中特性之间变化的一致性程度(尤其是测量评价中)。这些均属于描述统计范围。目的:在于将大量零散的、杂乱无序的数字资料进行整理、归纳、概括,使事物的全貌及其分布特征清晰,明确的显现出来。 2.推断统计根据样本所提供的信息,运用概率的理论进行分析,论证,在一定可靠程度上,对总体分布特征进行统计、推测,这种统计方法称为推断统计。例如,对总体参数值,即总体数字特征值(如总体平均数、总体标准差、总体相关系数等)的估计;对总体数字特征值或总体参数之差(如总体平均数之差、方差之差、总体相关系数之差等)的假设检验;对总体分布是否服从某种分布的假设检验等,都属于推断统计的范围。其目的在于根据已知的情况,在一定概率的意义上估计、推测未知的情况。 3.实验设计教师为了揭示实验中自变量与因变量的关系,在实验之前所制定的实验计划,称为实验设计。其中包括选择怎样的抽样方式;如何计算样本容量;确定怎样的实验对照形式;如何实现实验组和对照组的等组化;如何安排实验因素和如何控制无关因素;用什么统计方法处理及分析实验结果等。 以上三部分内容,不是截然分开,而是相互联系的。描述统计是推断统计的基础,推断统计可以通过样本信息估计,推测总体。从已知情况推测、估计未知情况。良好的实验设计才能使我们获得真实的有价值的数据,对这样的数据进行统计处理才能得出正确的结论。而良好的实验设计又必须以统计就原理为根据,符合统计方法的要求才能对实验结果进行统计处理。 §1.2 学习统计与测量评价的意义1.可以顺利地阅读运用统计方法进行走量分析的科研报告和文献,从中可以间接地学习国内外先进地研究成果。2.可以提供一种科学方法为教科研服务——工具。3.可以提高教育工作的科学性和效率(学制的改革、课程的建设、课

相关文档
相关文档 最新文档