当前位置：文档库 › 免师教育硕士学科(英语)教育测量与评价课程作业

免师教育硕士学科(英语)教育测量与评价课程作业

西南大学研究生课程考试

答卷纸

考试科目

院、所、中心

专业或专业领域

研究方向

级别

学年

学期

姓名

学号

类别

（①全日制博士②全日制硕士③教育硕士④高师硕士

⑤工程硕士⑥农推硕士⑦兽医硕士⑧进修)

年月日

研究生院(筹)制

备注：成绩评定以百分制或等级制评分，每份试卷均应标明课程类别（①必修课②选修课③同等学力补修课）与考核方式（①闭卷笔试②口试③开卷笔试④课程论文）。课程论文应给出评语。

西南大学外国语学院

免师教育硕士

“学科（英语）教育测量与评价”课程作业

要求：保留原题题干及数据，然后在其下面插入空白来呈现答案。不得篡改

问题或者数据。在编辑将要提交的作业的Word文件时，需确保欲呈现

的内容能被打印出来。

一、简答题（50分）

1.测量的基本要素有哪些？（1分）

单位（如米、克，教育测量的单位不能直接加减乘除）；参照点（计算的起点，有绝对零点和相零点）；量表（测量工具）。

2.什么是教育测量？（1分）

教育测量是根据测量学的原理和方法对教育现象及其属性进行数量化研究的过程。它主要包括对学生的内在精神属性的测量，教育测量主要是一种间接的测量。

3.教育测量有哪些量表类型？（1分）

类别量表，顺序量表，等距量表，等比量表

4.什么是教育评价？（1分）

教育评价是指根据一定的教育价值观或教育目标，运用可行的科学手段，通过系统地收集信息、分析解释，对教育要素，过程和效果进行价值判断的活动。

5.教育测量与教育评价有什么不同？（1分）

两者着眼点不同：教育测量是为了取得数据；教育评价是要分析解释，对教育价值作出判断。

两者特点不同：教育测量是一种纯客观的过程，具有客观性特点；教育评价具有客观性与主体性相结合特点。

两者复杂程度不同：教育测量是对教育数量化的描述，关心量的获得，活动较为单一；教育评价着眼于事物质的判定，含定性与定量分析，活动是多重的。

6.教育评价与教育评估有什么异同？（1分）

区别：

评估有估价的含义，模糊粗略；评价相对是较为精确的价值判断。

评估多用于群体或单位的状态及效果的估价；评价则既有对群体和单位的价值判断，又有对个人的判断。

7.教育测验、考试与教育测量有什么不同？（1分）

教育测验和考试是教育测量的一部分。

8.教育测量与评价，按照实施的时间阶段的不同，可以区分为哪几种类型？各

自使用的目的是什么？（1分）

按照实施的时间阶段的不同可以分为诊断性、形成性和总结性评价。

诊断性评价一般在教学前进行，目的是分析学生的起点行为，摸清学生的现有水平及个别差异以便安排教学。

形成性评价通常在教学过程中实施，是教师及时了解学生学习进展情况的重要方式，又称诊断进步评价或进展评价。

总结性评价是对一个完整的教育过程的总体结果进行的评价，又叫终结性评价，通常在一门课程或一项教学活动结束之后进行。

9.教育测量与评价，按照参照点的不同，区分为哪几种类型？各自适用的情形

是什么？（1分）

根据评价参照点的不同，可以把教学评价分为常模参照评价和标准参照评价常模参照评价是以学生所处的团体的平均成绩或团体中的常模作为参照标准，根据个体的相对位置（或名次）报告评价的结果。

标准参照评价是在评价对象群体之外，预定一个客观的或理想的标准，并运用这个固定标准去评价每个对象的评价方式。

10.教育测量与评价，按照被测量与评价的行为的性质，区分为哪些类型？它们

各自适用于什么情形？（1分）

根据测量与评价的行为的性质，分为最佳行为测量与评价，典型行为测量与评价。其中，最佳行为测量与评价，是以被试者最佳行为表现为目的；

典型行为测量与评价，不在测量与评价被试者能力的高低，而是测量与评价其是否具备某种（或某些）典型行为。

11.按照教育测量与评价的内容，教育测量与评价区分为哪几种类型？它们各

自适用于什么情形？（1分）

它们被分为标准化测量与评价和非标准化测量与评价。标准化测量与评价是只由测量专家严格按照标准程序而编成的一种测验。

12.什么是重测信度？（1分）

它是指用同一测验试卷，在先后两个不同时间内同一组被试进行测验，两次测验实得分数的相关系数。

13.什么是复本信度？（1分）

复本信度又称等值性系数。它是以两个等值但题目不同的测验（复本）来测量同一群体，然后求得被试者在两个测验上得分的相关系数。

14.Kappa一致性分析可以用来说明教育测量与评价的哪些类型的信度？（1分）

重测信度

15.肯德尔和谐系数分析的功能是什么？（1分）

肯德尔和谐系数是计算多个等级变量相关程度的一种相关量。Spearman 等级相关讨论的是两个等级变量的相关程度，用于评价时只适用于两个评分者评价N个人或N件作品，或同一个人先后两次评价N个人或N件作品，而kandall和谐系数则适用于数据资料是多列相关的等级资料，即可是k个评分者评(N)个对象，也可以是同一个人先后k次评N个对象。通过求得kandall和谐系数，可以较为客观地选择好的作品或好的评分者

16.什么叫分半(half-split)信度? （1分）

分半信度（split-half reliability）常用信度检验方法之一。反映测验项目内部一致性程度，即表示测验测量相同内容或特质的程度。具体分析是在测验后将测验项目分成相等的两组（两半），通常采用奇偶分组方法，即将测验题目按照序号的奇数和偶数分成两半，然后计算两项项目分之间的相关。

相关越高表示信度高，或内部一致性程度高。

17.什么叫克伦巴赫alpha系数？（1分）

Cronbacha信度系数是一套常用的衡量心理或教育测验可靠性的方法,依一定公式估量测验的内部一致性.作为信度的指标.它克服部分折半法的缺点,是目前社会研究最常使用的信度指标,它是测量一组同义或平行测"总和"的信度.

18.什么叫效度（validity）？什么叫效度验证（validation）？（1分）

效度是测量结果的准确性和有效性程度，也是指测量是否达到了预期的目的。

19.什么叫内容效度？什么叫表面效度？什么叫反应效度？（1分）

内容效度指的是测验题目对有关内容或行为取样的适用性，从而确定测验是否是所欲测量的行为领域的代表性取样。

表面效度指被试或其他未受过专门训练的人员对测量有效性程度的估计。

反应效度是指测试者对测试内容的是否感兴趣，测试内容是否满足被测试者需求的估计。

20.什么叫构念(construct)? 什么叫构念效度(construct validity)? （1分）

构念（construct）是指心理学理论所涉及的抽象而属假设性的概念或特质。构念效度是指一个测量实际测到所要测量的理论结构和特质的程度，或者说测量能够说明测量的理论结构和特质的程度。

21.什么叫效标(Criterion)？什么叫效标效度（criterion-related validity）? （1分）

效标是衡量测验有效性的参照标准，它是独立于测验之外，体现测验目的的行为变量。通常指我们所要预测的行为。

效标效度是指问卷(量表)测量结果和效度标准(被假设或定义为有效的某种外在标准)之间的一致程度。

22.什么叫同期效度(concurrent validity)和预测效度(predictive validity)? （1分）

同时效度(Concurrent Validity) ,即同时在研究对象中进行测评和效度标准测量得到的结果之间的相关程度。

预测效度(Predictive Validity) ,它是指问卷(量表)测量结果经过一段时间后与未来实际结果予以相关性分析,两者之间的吻合程度。

23.试题的难度系数可以怎么计算？（1分）

难度是测验试题的难易程度，是试题对学生知识和能力水平的适合程度的指标。公式：P=R/N；P表示难度指标；N代表参加考试的总人数；R表示答对某道客观题的人数。

24.什么是测试题目的区分度(Discrimination Index)? 题目的区分度如何计算？

（1分）

区分度是指测验对考生实际水平的区分程度。公式：D=PH-PL；D代表区分度；PH表示高分组的难度；PL表示低分组的难度。D>0为正区分，D<0为负区别，D=0为零区。

25.什么是级差相关(Pearson correlation)? （1分）

级差相关是当两个变量都是正态连续变量，两者之间呈线性关系时，表示这两个变量之间的相关。

26.什么是等级相关(Spearman correlation)? （1分）

斯皮尔曼等级相关（Spearman’s correlation coefficient for ranked data）主要用于解决称名数据和顺序数据相关的问题。适用于两列变量，而且具有等级变量性质具有线性关系的资料。

27.什么是点二列相关(point-biserial correlation)? 在SPSS中，怎么计算点二列相

关系数？（1分）

当两列变量中一列为来自正太总体的等距或等比的测量数据（点数据），另一列是真正的二分变量，用公式计算得的相关，称为点二列相关。

在SPSS中计算点二列相关的方法就是计算这二列变量的Pearson相关系数。

只是需要注意的是其中的那列二分变量的取值范围必须是{0，1}

28.什么正相关？什么是负相关？（1分）

正相关是指两个变量变动方向相同，一个变量由大到小或由小到大变化时，另一个变量亦由大到小或由小到大变化。

负相关是指两个变量变动方向相反，一个变量的增加可能引起另一个变量的减少。

29.什么是相关系数显著性检验中的双侧（2-tailed）检验和单侧（1-tailed）检验？

（1分）

双侧检验指按分布两端计算显著性水平概率的检验，应用于理论上不能确定两个总体一个一定比另一个大或小的假设检验。一般假设检验写作H1：μ1≠μ2。单侧检验指按分布的一侧计算显著性水平概率的检验。用于检验大于、小于、高于、低于、优于、劣于等有确定性大小关系的假设检验问题。

这类问题的确定是有一定的理论依据的。假设检验写作：μ1<μ2或μ1>μ2。

30.什么是独立样本(independent samples)？什么是相关样本(related samples)？

（1分）

两个样本中样本A中成员变动时对样本B不造成影响，则它们被称为独立样本。

两个样本的成员是相关的，即样本A的成员变动，则样本B会的成员也一起变动，或者两个样本是同一体，都是相关样本。

31.什么是独立样本t检验中的双侧(2-tailed)检验和单侧(1-tailed)检验？（1分）

对两组独立样本进行显著性水平概率的检验，双侧检验，就只需检验他们的相关性是否显著。单侧检验则是有方向性的，比如样本A和样本B比较，μ1<μ2或μ1>μ2。

32.通常情况下，教育评价表的构成要素有哪些？（1分）

教育评价表的构成要素有：评价指标；指标权重表示指标的重要性程度；评价标准指的是评价对象达到评价指标要求的尺度。

33.什么是评价标准的标度，标号，强度或频率？（1分）

标度：评价的档次，可以是定性的，也可以是定量。定性时必须赋值，使定性标度转换成能够定量标度，以便统计处理。

标号：不同强度和频率的标记符号，通常用字母、文字或数字表示。没有独立的意义，只表示一种分类。

强度：指标达到项目要求的程度或各种规范行为的优劣程度，又称定性指标。

频率：达到指标项目要求的数量或各种规范化行为的相对次数，也称定量标准。

34.什么是客观性试题和主观性试题？客观性试题和主观性试题分别有些什么

类型？（2分）

客观性试题学生在测验中从事先提供的多种答案中确认出一个正确答案，如选择题、是非题、匹配题等。

主观性试题是让学生根据对测验所提问题的认识和理解，用自己的语言形成答案，如简答题、论述题、案例分析、应用题、作文题、比较题等。

35.什么是表现性测验？表现性测验有些什么类型？（2分）

表现性测验是指通过客观测验以外的一类以行动、作品、表演、口头回答、操作、写作、科学研究、制作等更真实的行为表现，来测量和评价学生在真

实情景或模拟真实情景下的所知于所能的一种评价方法。类型有口头测验、写作测验、实验技能教学考试评价和行为检核于评价等。

36.教育目标，教学目标，测验目标几者之间有什么关系？（2分）

教育目标决定教学目标，教学目标决定测验目标。

37.布卢姆教育目标分类的认知领域的内容，在早期理论和修订版框架之间，

有什么异同？（2分）

修订版吸收了现代认知心理学成果，将原来的一个向度，修改成为2个分类知识向度度和认知历程向度，依据目标构成的两个方面提出可以通过知识维度和认知历程维度构成的双向细目表来区分教学目标的类别，更好的指导学生的学习，教师的教学和教学评价。

在重点强调方面

1、新版着重于能适应分类与课程、教学、评价，并连结此三者。

2、新版着重适应于所有不同年级的教师

3、内容增加列出了许多评价工具范例，以促进次目标分类的应用。

4、新版更加强调次类别的应用，不同于旧版强调主类别。

在使用术语方面

1、将旧版的名词词态改为动词词态，以符合建立目标时所形成的动名词关

系。

2、知识次类别被更名和重组，分成四类知识，异于旧版的名称和内容。

3、改称旧版的“理解”和“综合”类别为“了解”和“创造”。

在目标分类结构方面

1、将目标类别分成知识和认知历程两个向度，旧版是一个向度。

2、认知历程向度的分类别排成渐增复杂性的阶层，异于旧版强调累积性阶

层的概念。

3、交换旧版“综合”和“评价”的顺序，并改称为“评价”和“创造”。

38.布卢姆教育目标分类的经典理论中的认知领域的1级和2级目标内容有哪

些？（3分）

第一级，知识。他所说的知识，就是指学生能够通过回忆或再认，回想

起他们在教育过程中已经体验过的某些观念与现象。包括具体的知识，如专

有名词、事实等；具体的方式和方法的知识，如习惯、分类、规范和方法学

等；一般概念和抽象的知识，如原理、原则和理论等。这个级别的学习，主

要是对上述知识的回忆。所以，特别强调学习时的记忆过程。布卢姆认为，使学生获得知识成信息，几乎是所有课程的最重要的或最基本的教育目标。

并且认为实现知识目标重要的是记亿的心理过程与较为复杂的联想和判断过程。

布卢姆认为，要实现课程中所包合的知识目标，则需要考虑4个问题：（1）确定学生需要学习多少知识；(2)学生对规定的知识需要学习到怎样的精确程度；(3) 知识怎样最有效地组织，才便于学生学习；(4)规定学习的知识对学生应产生什么样的意义。

第二级，领会。领会属于最低水平的理解阶段。学生主要应知道所交流的内容；理解交流内容中所包含的文字信息、行为或反应；了解交流内容的不同表现形式（如口头、书面或符号等）；能够用所交流的内容观点进行交流而无需用有关的其它观点或完全发现出它们的关系；用自己觉得更有意义的某些类似的形式，改组交流的内容等。

39.布鲁姆教育目标分类体系的情感领域的1级和2级目标内容有哪些？（3分）

第1级接受(注意)

接受指学习者感受到某些现象和刺激的存在，愿意接受或注意这些现象和刺激。它分为三个亚类。（1）觉察(awareness)，指学习者意识到某一情境、现象、对象或事态。与“知识”不同的是这种意识不一定能用语言来表达。

例如，形成对服装、陈设、建筑物、城市设计、美好的艺术品等事物中的美感因素的意识。（2）愿意接受(willingness to receive)，指学习者愿意承受某种特定刺激而不是去回避。例如，增强对人类需求和社会紧迫问题的敏感性。

（3）有控制的或有选择的注意(controlled or selected attention)，指自觉地或半自觉地从给定的各种刺激中选择一种作为注意的对象而排除其他的无关的刺激。例如，注意文学作品中记载的人类价值和对生活的判断。

第2级反应

反应是指学习者对出现在他面前的刺激已经不只是愿意注意而是上升到积极的注意。它包括三个亚类。（1）默认的反应(acquiescence in responding)，指学习者对某种外在要求、刺激作出反应，但是还存在一定的被动性。例如，愿意遵守游戏的规则。（2）愿意的反应(willingness to respond)，指学习者对于某项行为有了相当充分的责任感并自愿去做。例如，对自己的健康和保护他人健康承担责任。（3）满意的反应(satisfaction in response)，指学习者不仅自愿做某件事，而且在做了之后产生一种满意感。例如，从消遣性阅读中获得乐趣。

40.布鲁姆教育目标分类体系的动作技能领域的1级和2级目标内容有哪些？（3

分）

1级，知觉，是通过感觉器官觉察客体、性质或关系的过程。例如，通过机器运转的声音，知道机器运转的毛病。

2级，定势，指为某种特定的行动或经验而作出的预备性调整或准备状态。

例如，渴望熟练地操作钻床。

二、计算题（35分）

1. 有30个被试在间隔不久的时间内前后两次接受了同一个测试。其测试结果如

下表所示。问这个测试的信度如何？（2.5分）

2. 有一个测验含A、B卷。30个被试分别接受了A卷和B卷的测验，测验结

果如下表所示。问这个测验的A、B两份试卷的等值系数如何？（2.5分）

3. 有100个被试接受了一个测验，其测验结果被两个评分员独立地进行了二分

法的评价（即“及格”与“不及格）。两个评分员对这些被试的评价结果的频数信息见下面的频数分布表。问这两个评分员的评价结果的一致性如何？（5分）

4. 有一电影网站对观看其电影的10名观众进行了调查。调查的是他们对于各类

电影的偏爱程度，从1到8，代表从“最喜欢”到“最不喜欢”的8种态度。

问这10个接受调查的观众的电影爱好显著一致吗？平均而言，他们对被调查的8种电影类型各自的偏爱程度如何？（5分）

5. 一研究者进行了一个教学实验。在实验班采用积极培养和引导学生使用优秀

学习者的学习策略的方法进行阅读理解的教学，而在对照班则按照传统的讲解和完成多项选择练习的方法进行教学。研究者期望实验班的教学效果优于对照班的效果。在实验开始前挑选了实验组与对照组的受试，各有36人，并对他们的阅读能力进行统一的测试（前测）。然后，实施了教学实验。经过一个学期后，研究者对两个组的受试实施了题型和难度与前测近似的另一

个测试（后测）。两个组受试的前测和后测成绩如下表所示。问两个组的受试在实验前的阅读水平相当吗？研究者的新的教学方法有明显的优势吗？(请报告结果并解释结果）（10分）

6. 下面是5个受试做一个试卷的5个部分的得分数据。问这个试卷的内部一致

性信度如何？请分析一下第3部分的区分度？（10分）

三、图表制作题（15分）

1. 请绘制一个测验的命题双向细目表，并做简单的文字说明。（10分）

2. 请按照布鲁姆教育目标分类的修订版中关于认知领域的教育目标的内容，绘

制一个认知教育目标双向表。（5分）