文档库

最新最全的文档下载
当前位置:文档库 > 国际学生阅读素养测评的理念与方法_省略_9年NAEP与PISA的比较研究_唐青才

国际学生阅读素养测评的理念与方法_省略_9年NAEP与PISA的比较研究_唐青才

国际学生阅读素养测评的理念与方法

——

—基于2009年NAEP与PISA的比较研究唐青才王正青

[摘要]NAEP和PISA是当前国家学业成绩测评和国际学业成绩测评的代表,所开展的阅读素养测评具有较高的国际影响力。NAEP和PISA在时间安排、对象选择和组织管理上已形成了严格规范的操作模式;他们的测评理念与内容框架体现了国际学业成绩测评的发展方向;在测评试题所选用的材料以及问题的呈现方式上也各有特色。NAEP和PISA开展的学业测评可作为我们推进基础教育评价改革的有益借鉴。

[关键词]全国教育进展评估国际学生测评项目阅读素养测评框架

随着“二战”后全球一体化的深入推进,综合国力竞争越来越强调教育等“软实力”的作用,教育的质量问题成为各国共同关注的焦点。在此背景下,各种形式的国际学业成绩测评项目逐渐升温,国家内部的传统学业成绩测评也得到加强。这当中,“国际教育成绩测评协会”(IEA)和“经济合作与发展组织”(OECD)无疑是国际学业成绩测评的最重要推动者,美国的“全国教育进展评估”(National Assessment of Educa-tional Progress,NAEP)、英国的“标准成绩考试评价项目”(SATS)、澳大利亚的“国家教育进展评估”(NAP)则是传统的国家学业成绩测评的代表。由于阅读素养对个人发展和民族进步的重要意义,一直是国际学业成绩测评和国家学业成绩测评的重点学科。

在众多的国家学业成绩测评和国际学业成绩测评中,美国的NAEP和OECD开展的“国际学生测评项目”(Programme for International Student Assessment,PISA)是两种类型的代表。在最近的学业测评中,NAEP和PISA同时把关注重点转向学生的阅读素养。比较两大项目的测评理念、测评对象、测评框架与命题特点,从中寻找推进国内基础教育评价改革,尤其是阅读测评改革的有益启示,是本文的核心目的。

一、NAEP与PISA阅读素养测评的组织实施

作为国家学业成绩测评和国际学业成绩测评的典范,NAEP和PISA两大项目在测评的时间安排、对象选择和组织管理上都已形成了严格规范的操作模式。

(一)NAEP与PISA阅读素养测评的开展情况

NAEP是目前美国国内唯一连续、长期的中小学生学业成绩测量项目,具有较高的国际影响与学术价值。NAEP正式成立于1969年,由美国教育部负责统筹运作,经费由联邦政府负责,主要评估数学、科学、

教育研究与实验2012年第1期

本研究为全国教育科学"十二五"规划2011年度教育部青年专项课题"国际学业成绩测评对参与国教育政策调整的影响研究"(课题批准号EDA110333)、中央高校基本科研业务费专项资金资助项目(SWU1109066)与国家"211工程"项目"基础教育课程改革深化与教学创新研究"(教重[2009]01)成果。

73

阅读、写作、地理、美国历史、艺术、公民及其他学术性科目,共包括基础教育阶段的11个学科。2001年修正的《美国中小学教育法案》规定,NAEP全国评价和州评价至少每隔两年对4年级、8年级的学生评价一次,NAEP全国评价必须(NAEP州评价可以)定期对12年级学生进行评价。从1992年开始对公立学校四年级学生的州级评价起,NAEP阅读素养测评已进行了八次(分别1992年、1994年、1998年、2000年、2002年、2003年、2005年、2007年)。

PISA是OECD开发的一个国际性学生评价项目。出于建构一个科学的学生成绩测评框架,监测各国教育质量的目的,OECD在新世纪初启动了这一项目。PISA测评主要包括3个领域:阅读素养、数学素养及科学素养,每三年为一个评估周期。2000年,PISA以阅读为主要领域进行了第一次测评;2003年,PISA重点测评了学生的数学素养;2006年,PISA重点测评了学生的科学素养。与此同时,PISA还对另外两个学科进行了辅助性测评。2009年,PISA在经过了一个评估循环后,再次将测评重点转向阅读。2009年,参与PISA的国家和地区数达到了65个,学生40万人。上海市作为合作伙伴参与了该项目研究,并在阅读、数学和科学三项指标得分中均名列第一。

(二)NAEP与PISA阅读素养测评的对象抽样

NAEP和PISA都是基于抽样的测试而非全体学生参加。在NAEP居于主体地位的是全国性的NAEP 评估(NAEP-National)中,测评对象为4、8、12年级学生。根据2002年的《联邦初等和中等教育法案》,凡是接受了“联邦I号基金”(Title I)资助的州,都必须参加4年级、8年级的阅读和数学测试。与NAEP按年级抽样不同,PISA则是按年龄抽样。PISA规定,参加测试的学生在测评期间的年龄必须在15岁3个月到16岁2个月之间,至于年级与学校形式则无关紧要。

NAEP和PISA在强调面向所有符合要求学生抽样的同时,也规定了相应的抽样排除率。PISA要求,抽样学校和学生排除率不超过5%,包括地理位置上过于偏僻的学校,或者智力和身体残疾的学生。NAEP 的抽样排除率为4%。与PISA不同,NAEP针对身体残疾学生或母语为非英语的学生提供有特别帮助,在试题呈现形式、考室布置、时间限制、语言支持等方面给予特殊安排。

2009年,美国学生同时参加了这两项阅读测评。其中,参与NAEP测试的学生达16万学生,涉及抽样

的4年级和8年级学生27.5万人;参加PISA测评的学生为5233名。参加PISA项目的学生中,68.5%的学生是10年级,20.3%的是11年级,10.9%的学生为9年级,0.3%的学生为其他年级。[2]事实上,PISA测试的学生主要相当于NAEP的8到12年级,由于PISA比NAEP测试时间早半年进行,更接近与NAEP的8年级学生。

(三)NAEP与PISA阅读素养测评的实施机构

为推动NAEP的顺利开展,美国联邦政府成立了“全国评价管理委员会”(NAGB),负责制定NAEP相关政策。NAGB发布的政策声明中,详细阐释测评应遵循的指导原则,包括报告的语言、时间、途径以及报告卡的设计等。另一个重要机构是“全国教育统计中心”(NCES),它是美国联邦法律授权出版教育统计数据的国家级机构,其中心任务是分析和公布统计资料美国和其他国家与教育相关的数据,负责NAEP以及其他一些国际性调查。在具体的实施机构上,NCES则通过竞争投标方式决定项目承担机构,目前为止NAEP的承包商主要有美国大学入学考试中心(ACT)、美国教育考试服务中心(ETS)等。

PISA是一个国际性协作项目,在各参与国政府部门的支持与合作下组织实施。PISA汇集了各参与国的专业人员和技术力量,组成作为决策部门的PISA理事会。根据协议,澳大利亚教育研究理事会(ACER)负责PISA测试的设计和实施,试题和问卷由各参与国相关著名专家或专业机构共同完成。测试结束后,PISA总部根据学生的测试成绩,以及学生、校长的问卷调查情况,统一处理数据,并将结果反馈给各成员国。通过PISA协作组织,各国可以保证PISA 既在国际上具有效度,又能兼顾到各参与国在文化和课程背景方面的差异。

二、NAEP与PISA阅读素养测评的内容框架

NAEP与PISA在阅读素养测评的理念与内容上有许多相似的地方,同时两者之间也有差异。NAEP 基于美国学校的实践和标准,主要测试学生在校期间的表现;PISA的测试内容则是国际化的,主要测试学生适应未来生活的准备情况。

(一)NAEP与PISA对阅读素养的新界定

在对阅读素养的界定上,NAEP与PISA有较多重叠。两者都把阅读界定为阅读者和文本之间的建构过程,都集中在理解和使用书面文本的能力上。2009年,NAEP将“阅读”界定为“一个积极且复杂的过程,

74

涉及理解书面文章、形成并理解含义,根据文章类型、目的与情景,恰当使用含义。”[3]可以看出,NAEP特别强调学生从文本中归纳核心思想和提取重要信息,把测评环境下的理解与非测评环境下的理解区分开来,调动学生的阅读兴趣并回答问题。

PISA重点关注学生在现实生活中运用所学的能力。PISA将“阅读素养”界定为“学生为了达到个人目标、增进知识、发展潜能以及参与社会活动,而理解、运用、反思书面材料的能力以及投入阅读的状况。”[4]其中,阅读投入(reading engagement)是2009年PISA 新提出的概念,指学生阅读时的动机态度和行为特点。其中,阅读动机态度包括阅读兴趣、自我决定情况、自我效能感、社会互动等,行为特点主要指阅读的数量和广度。

(二)NAEP与PISA阅读素养测评的内容框架

NAEP的测试框架由NAGB制定,主要测试学生在校所学的知识和技能情况。2009年,NAEP采用了新的阅读测评框架,替代了从1992年一直沿用到2007年的框架。PISA重点考察他们在终身学习的背景下,面向未来生活的知识和技能准备程度,包括学生在学校的表现,阅读和理解书面语言的能力,根据不同的文本和环境恰当地解释和使用所阅读材料的能力等。表1概括了两个项目在测评框架上的异同。

比较维度NAEP PISA

文本类型(1)文学类:小说,写实文学,诗歌;(2)信息类:描

述,论述/说服性文本,程序性文本和材料

(1)文体:记叙、说明、描写、论述、指导;(2)格式:连

续性、非连续性;(3)媒介:纸质、电子;(4)环境:内

容不可改变、内容可改变

认知能力定位与回忆;综合与解释;批判和评价存取与回忆;综合与解释;反思与评价

情境为个人应用而阅读;为公众应用而阅读;为工作而阅读;为教育而阅读

其他意义词汇

表1NAEP和PISA阅读框架比较

从上表可以看出,NAEP与PISA在文本类型上差异较大。PISA从四个维度来区分文本类型:文体、格式、媒介、环境。文体主要针对连续性文本而言的,主要有记叙、说明、描写、论述、指导等。格式上主要有连续性文本与非连续性文本之分。连续性文本是由句子、段落和章节组成,非连续性文本主要包括曲线图、一览表、示意图、表格、地图等。2009年的PISA框架中,还包括媒介和环境两个维度方面,因为当年的阅读测试除了传统的纸质文本外,同时还包括电子文本,在环境上就有不能改变文本内容和允许读者增减或改变文本内容的差别(比如电子文本中的博客、聊天室等)。NAEP则把文本类型分为文学类和信息类两种。文学类文本包括小说、写实文学(如随笔、传记、演讲稿)和诗歌,信息类材料包括描述、论述/说服性文本、程序性文本和材料。与PISA不同的是,NAEP 不使用电子文本。

在认知能力上,NAEP和PISA分别提出了“认知目标”(cognitive target)和“领域”(aspecet)概念。两种测试都是基于最新的研究成果,在认知能力的界定上有很大相似之处。2009年的测评框架中,PISA用“存取与回忆”取代了之前的“回忆信息”,用“综合与解释”取代了之前的“解释文本”,“反思与评价”也受到特别关注。NAEP则认为,在阅读过程中,学生会根据阅读资料的不同,通过整体感知、形成解释、联系自身、批判评价来测评学生的认知能力。NCES的专家研究后发现,90%的8年级和12年级NAEP试题适合PISA的认知分类,而80%的PISA测试适合NAEP分类。[2]虽然两者在认知能力的界定上比较接近,但PISA与NAEP在元认知能力上差异明显。PISA强调测评学生的元认知能力,即学生在面对文本时运用恰当的策略的意识和能力,而NAEP的框架中缺乏元认知能力的考查,只是有一些关于阅读习惯和阅读指导等方面的问卷。

PISA与NAEP在测评框架上最大的不同在于阅读情境的设定和对词汇的态度上。PISA认为,人总是在某一特定情境下阅读材料,强调在类似真实生活场景中的阅读。PISA确定了以下四类阅读情境:(1)为了个人应用而阅读,包括个人信件、小说、传记等。(2)为了公共应用而阅读,包括官方文件和关于公共事业的信息等。(3)为了工作而阅读,包括说明书、手册、计划表、报告、备忘录、项目表等。(4)为了教育而阅读,包括课本、地图、纲要等。与此相反,NAEP特别强调学生的词汇掌握情况。2009年NAEP框架提出了“意义词汇”(meaning vocabulary)概念,强调评价学生理

75

解关键词汇的意义,进而理解整篇文本。

三、NAEP与PISA阅读素养测评的试题编制

基于各自的测评框架,NAEP与PISA在试题的编制上,包括试题所选用的材料以及问题的呈现方式上也各有特色。

(一)NAEP与PISA阅读素养测评的试题材料

NAEP和PISA在阅读材料的选择上差异明显。NAEP强调文本的真实性,致力于选择高质量的、学生可能在校内外都会遇到的真实材料。PISA不使用已学过的文本,所选择的材料必须适应不同文化和语言特点。虽然NAEP也包括一些非连续性的材料,但一般只用作辅助使用,渗透在连续性文本中。2009年,NAEP在4、8、12年级的试题中均要求有诗歌,而之前只在8年级和12年级测试诗歌。

从材料长度看,PISA的文章明显比NAEP的短。PISA、8年级NAEP和12年级NAEP每段文字的平均字数分别为354、924、1174个单词。即使是最长的PISA试题,也低于8年级NAEP和12年级NAEP的平均字数。NAEP通过材料长短来体现不同学生在校内外可能遇到的阅读,随着测评年级的增长,NAEP 试题的材料类型和结构也越来越复杂。通常每个材料包括10个不同的试题,确保这种结构化的模式支持不同文章类型和认知过程中所涵盖的测试项目。PISA 没有类似的长短要求,每个材料一般有2到5个测试题目,但是PISA的非连续性文本一般比连续性文本短。下表反映了两个测评试题在文章长短和问题上的数量差异。

表2NAEP和PISA的试题长短和答题数量

文章的长度及试题数8年级

NAEP

PISA

12年级

NAEP

平均词汇数923.6354.41173.5

词汇数量范围219~142953~758771~1429

平均试题数10 3.610.1

试题数量范围9~112~59~11

2009年,PISA阅读测试总共有29篇材料,8年级和12年级的NAEP测试分别有16和17篇材料。用戴尔·查尔(Dale-Chall Formula)等工具比较发现,PISA的阅读材料难度比8年级高,略低于12年级NAEP的材料,所包含的阅读能力和年级层次比NAEP更广。从材料的相互替换看,PISA中的试题相比更容易纳入到NAEP的框架中。57%的PISA材料可以用到NAEP中,而8年级的NAEP材料有一半不适合PISA测试,12年级的有2/3不适合。[2]

(二)NAEP与PISA阅读能力测评的试题类型

NAEP和PISA都包括标准化的选择题和建构性试题两类。NAEP只有单选题,每个试题有四个选项。而PISA还有多选题,一般有四到五个选项,需要学生做出复杂选择或对信息进行正误判断。

NAEP和PISA的建构性试题都要求学生补充相应的内容。NAEP的建构性试题包括简答和论述题两类,简单题一般用一两个短语或一两个句子回答,论述题需要一两个段落来阐述。评分规则集中在内容上,不过分关注拼写及语法规范。但是,考生必须从文本中获取信息来回答结构化的试题。在NAEP中,8、12年级的试题中建构性试题分数占60%,4年级约为50%。[3]PISA的建构性试题有开放性试题、简答题和封闭性试题三类。开放性试题需要学生描述或给出解释,简答题需要学生用一个词汇或短语回答,封闭性试题需要学生给出一个固定答案,不需要评分者的主观判断。下表是两个测评项目的试题情况。

表3NAEP和PISA中的试题类型

试题形式8年级NAEP12年级NAEP PISA

单选题595838

多选题009建构性试题

论述题10100开放性试题0035简答题31328封闭性试题0011

在评分标准上,PISA将学生成绩分为六个等级,最高等级为六级(超过625分),达到五级即被认定为优秀(553到625分),二级被认定为基本合格(408到480分)。NAEP的评分在0到500分之间,把参加测试的学生分为三个等级,分别为基本、精通和高级水平。对于不能获得基本分数的不合格学生,NAEP不公布学生的详细信息。

四、对我国基础教育阶段学生阅读测评改革的启示

教育评价改革历来是教育改革的核心。作为当前最有影响力的学业成绩测评项目,NAEP和PISA的测评理念和方法是独具特色的,可作为我们推进基础教育评价改革的有益借鉴。

1.开展以教育质量监控为目的的发展性学业测评。NAEP和PISA都是以监控基础教育质量为目的的学业测评项目。NAEP包括国家层面评估(含长期

76

趋势评估)、州级评估、试验地区评估三个层面,着眼于为国家、地方与学校的教育政策制定者与执行者提供信息。PISA则通过评价学生适应未来社会生活的可持续发展能力,为各国政府把握本国教育的国际竞争力,监测本国教育质量服务。与此相反,虽然近年来国家开展了基础教育质量监测工作,但现有的成绩测评大多仍是终结性的水平测试,测评的诊断、发展与指导改进的功能亟需增强。

2.建立相对独立的专业化的成绩测评组织机构。NAEP和PISA背后都有一个专业的测评机构。NAEP 是美国教育部委托美国教育考试服务处(ETS)统筹实施的,在这一体系中,NAGB负责制定各学科的评估标准与框架,组织专家编制评估试题;美国教育考试服务中心(ETS)等考试机构具体组织实施,包括抽样和评分等工作;NCES则负责信息的发布,并向联邦政府提交政策报告。PISA则是一个国际性的合作项目,来自各参与国的专家组成PISA理事会,囊括了澳大利亚、日本、英国、挪威等多个国家的教育研究机构。借鉴NAEP和PISA的成功经验,除了加强教育部及地方基础教育质量监测中心的职能外,也要着力培育独立于政府的专业评估组织。

3.坚持把阅读素养作为学业测评的重要领域之一。阅读能力是学生整体素质的重要组成部分,也是评价一个国家软实力的关键指标。NAEP的国家测评中虽然涵盖了所有学科,但只有数学与阅读被要求至少两年开展一次测评;PISA也把阅读素养作为一个人终身学习能力的基础,把阅读、数学、科学作为测评的三大领域;IEA还开展有专门的“国际阅读素养进展研究”(PIRLS)。在这一点上,我们以语文、数学、外语作为当前中考、高考的核心科目,是符合国际学业成绩测评的共同趋势的,只是测评为学生终身学习与可持续发展服务方面有待加强。

4.增强课程标准与测评框架和试题间的一致性。NAEP和PISA都是基于标准的学业测评。依据国家课程标准与和州级独立课程标准,NAEP首先设计了各学科的测评框架,并在测评框架下确定测评内容与评价标准。PISA也会事先制定测评框架,在征求各国意见后再付诸实施。反观国内,课程标准作为新课程改革的重要内容早已颁布,也强调根据课程标准进行教学与评价,但目前的考试与课程标准之间的关系却不明确。用课程标准驱动考试评价,用考试评价引导课程改革,用课程改革促进教育发展,应该成为教育评价改革的未来方向。

5.完善材料选择、试题编制、评分等技术手段。历经40余年的发展与变革,NAEP在评估框架的开发与审议、评估试题的编制与修订、评估试测与取样、评估实施与数据收集等方面,都已经形成了科学可行的高效机制。PISA严格的抽样程序、清晰的测评内容、生活化的命题、笔试与调查相结合的评价形式、先进的数据处理方法,也确保了它的评价结果具有较高的效度与信度。同时,NAEP和PISA还通过问卷、访谈等方式,对学生的阅读习惯、情感和态度进行测评。反观国内,在材料选择的生活化、试题设计的开放化、测试手段的多样化、水平鉴定的个性化等方面,我们的测评技术还有较大的改善空间。

6.学业测评要为提升教育质量服务。NAEP和PISA不仅关注学生的实际成绩,还特别关注学生之间差异的形成原因。NAEP在报告量表分数和成就水平的基础上,还按组别、区域和背景对数据进行分析,解释学生之间差异形成的原因,提出教育发展的未来对策。PISA通过分析学生的学习表现与经济、社会、文化(包括家庭文化)和学校间的关系,揭示影响学生学业成绩的多重因素,为实际的教育决策提供参考。借鉴NAEP和PISA经验,提供全国性的教育督导和问责建议,为国家层面的课程决策提供参考,发挥测评促进教育发展的功能,是下阶段教育评价改革的努力方向。

注:

[1]张布和.我国学业成就评价改革现状及对策[J].中国教育学刊,2009(4).

[2]National Center for Education Statistics.Technical Re-port and User's Guide for the Program for International Student Assessment(PISA)[R].Institute of Education Sciences,U.S.De-partment of Education,Washington,DC.,2011:55,66,62.

[3]National Assessment Governing Board.Reading Fra-mework for the2009National Assessment of Educational Pro-gressR].U.S.Department of Education,Washington,DC,2008: 2,40.

[4]Organization for Economic Cooperation and Develop-ment.PISA2009Assessment Framework:Key Competencies in Reading,M athematics and Science[R].OECD,Paris,2009:23.

作者单位:西南大学教育学部

邮编:400715

(责任编辑董泽芳)

77