Abstract :Based on a self-built corpus of 120English compositions on the same topic written by 30Chinese English majors throughout their four-year study period ,this longitudinal study explores the developmental features of lexical richness in English writing.The study finds solid though not straight-line progress and a plateau phenomenon in the students'lexical variation during their four-year English learning.Improvement is also found in lexical density ,al-though no significant difference is observed between year-to-year changes.In terms of lexical sophistication ,students make improvement each year and significant difference is observed between year-to-year changes.In addition ,aver-age word length is found to be in positive correlation with the students'English proficiency ,and some high-frequency words are overused by the students in their writing.The study concludes that as the students improve English profi-ciency ,their acquisition patterns and developmental paths of the multi-dimensions of lexical richness in English writ-ing are convergent but with salient differences.

Key words :English writing ;lexical variation ;lexical density ;lexical sophistication ;developmental tendency 中图分类号:H319文献标识码:B



20世纪80年代以来,二语写作中的词汇研究备受国内外专家学者的关注,而且随着词汇测量工具和词汇分析软件的开发运用,二语写作的语料库研究更加科学易行(Laufer 1994;Laufer &Nation 1995;Bachman 2000;王立非2007)。整体来看,有关二语写作的词汇研究主要关注词汇广度和词汇深度。其中,语言学习者词汇运用的广度主要指词汇的丰富性方面,被视为体现二语写作整体水平的重要指标(Engber 1995:139;Laufer &Nation 1995:307;Lemmouh 2008:163;万丽芳2010:40-41)。

词汇丰富性又称词汇多样性(lexical diversity )或词汇复杂性(lexical complexity )(Daller et al.2003;Read 2000),但也有学者认为词汇多样性只能反映词汇丰富性的一个方面(Malvern et al.2004)。Laufer (1991)、Laufer 和Nation (1995)认为,词汇变化性(lexical variation )、词汇密度(lexical density )、词汇复杂性(lexical so-phistication )和词汇新颖性(lexical originality )是测量词汇丰富性的4个维度。Engber (1995)把词汇错误纳入


词汇丰富性的测量范围,认为词汇丰富性包含写作中有错误的词汇变化性、无错误的词汇变化性、词汇错误比例和词汇密度。但在二语写作背景下,Read(2000)发现词汇新颖性不适用于评价学习者的词汇能力发展,并指出词汇丰富性应从以下4个方面来测量:词汇变化性(类符/形符比)、词汇复杂性(超出前2000词表词汇的百分比)、词汇密度(实义词占总词数的百分比)和少量的词汇错误。之后,Laufer(2003)把词汇丰富性界定为词汇复杂性和词汇变化性的复合体。另外,基于词频概貌(lexical frequency profile)的词频分布特征能体现词汇丰富性的特点(Laufer&Nation1995),而词长作为词汇难度的重要标志也能体现词汇使用的本质特征(Medero&Ostendorf2009)。因此,本研究基于Read(2000)的理论框架,根据词汇在二语写作中的特质和自建语料库的特点,将词汇丰富性的维度界定为词汇变化性、词汇密度、词汇复杂性、词长和词频分布。









此外,我们还对同形异义词进行了标注,以便区分词义,如情态动词“may”和名词五月“May”,并将人名、地名、数字等全部归入“Stop List”,以便软件在检索分析词汇时将其过滤掉。最后,把经过处理的每一篇作文用文本合并软件进行合并,再将每个年级的作文分别合并成4个子语料库,并通过词性赋码建成已标注的语料库。



词汇变化性传统上用类符与形符比来测量,但这种测量结果易受文本长度的影响,因此在相关研究领域遭到质疑(Duran et al.2004;文秋芳2006)。本研究借助Wordsmith5.0,采用Scott(2008)介绍的标准类符与形符比(STTR)来测量不同年级学生作文中的词汇变化性,测量结果更加稳定和具有可比性。词汇密度分析采用Linnarud(1986)的测量法,计算实义词占作文总词数的百分比。词汇复杂性测量则采用刘东虹(2003)的方法,计算2000高频词以外的正确类符占全文总形符的百分比。词长测量通常采用两种方式,一是按字母计算(New et al.2006),二是按音节计算。本研究使用Wordsmith5.0自动计算单词的字母数。词频分布借助




Range 32来测量。Range 32能自动测量语料库中的类符频率和词族频率(Matsuoka &Hirsh 2010)。本研究中Range 32使用Laufer 和Nation (1995)的基础词表,第一个1000词表(下称词表1)为最常用高频词,第二个1000词表(下称词表2)为次常用高频词,第三个词表(下称词表3)是学术词汇表(Coxhead 2000),含3107个类符和570个词族,第四个词表(下称词表4)为不在前3个词表内的低频词汇。3.结果与讨论













为检验相邻年级学生作文的词汇变化性是否有显著性差异,首先进行方差齐性检验,检验结果(p =0.870>0.05)为组间方差齐性。然后,进行单因素方差分析,统计结果(F =8.984,p =0.00<0.05)表明组间存在显著性差异。为进一步考察具体哪些相邻年级之间存在显著性差异,再进行事后多重比较检验,发现一、二年级之间(p =0.00),二、三年级之间(p =0.05)存在显著性差异,三、四年级之间无显著性差异(p =0.20>0.05)。
















相邻年级学生作文之间的词汇密度不存在显著性差异(p =0.87>0.05),但大一和大四学生的作文之间存在显著性差异(p =0.01<0.05)。


词汇密度检验结果支持了Engber (1995)和鲍贵(2007)的研究,说明学生有效掌握内容词或实义词需要一个较长的过程。对自建语料库的观察发现,词汇变化性提高但词汇密度没有提高的一大因素是学生过多使用功能词(function words ),如人称代词(we ,I ,you ,my )和情态动词(will ,can ,should 等),致使作文中的词汇密度降低,

信息量不大。正如Schmitt (2000)所指出的,词汇知识学习需要一个循序渐进的过程,词汇能力是在不同阶段以不同速度逐渐获得的。也就是说,产出性词汇能力的提高不是一蹴而就的,需要较长时间持之以恒地学习,






(F =10.10,p =0.00<0.05)。事后多重对比检验分析结果显示,大一和大二、大二和大三、大三和大四学生作文之间的词汇复杂性均存在显著差异。这一研究结果表明,从一年级到四年级学生在词汇复杂性方面每年都取得显著进步,与Laufer (1994)、文秋芳等(2003)、鲍贵(2008)的相关研究结果基本吻合,但是与崔艳嫣、王同顺(2006)和谭晓晨(2006)的研究结果不一致。测量结果的不同可能由受试的英语水平、收集语料的要求、写作题目和测量方法等因素的差异所引起。









不同字母数单词一年级二年级三年级四年级1-letter words 0.0420.0420.0370.0372-letter words 0.2070.1950.1810.1793-letter words 0.1860.2010.1910.2084-letter words 0.210







5-letter words 0.1110.1040.1010.1066-letter words 0.0630.0640.0680.0667-letter words 0.076

0.0800.0820.0828-letter words 0.0360.0310.0460.0349-letter words 0.0340.0350.0420.03910-letter words 0.0120.0150.0200.01711-letter words 0.0060.0080.0130.01112-letter words 0.0000.0030.0030.00513-letter words 0.0010.0020.0030.00314-letter words







方差齐性检验和单因素方差分析表明,相邻年级学生作文之间的词长存在显著性差异(F =3.186,p =0.03<0.05)。事后多重对比检验分析表明,大二和大三学生作文之间的平均词长存在显著性差异。这一结果说明二语写作中的平均词长与学生的英语水平密切相关。虽然大四学生作文的平均词长略短于大三学生,但差异并不显著。












本研究中学生作文的词频分布特征与秦晓晴、文秋芳(2007)的研究发现趋同,进一步揭示了相当一部分学生在英语写作中抱有求稳的心态,尽量避免使用生疏词汇。这一研究结果也表明,在词汇使用方面中国大学生与英语本族语者大学生存在显著差异。Cobb (2003)研究发现,

英语本族语者的作文中平均70%的词汇属于词表1,而中国英语专业学生的作文中平均有83.83%的词汇属于词表1。英语本族语者的作文中属于词表1和词表2以外的词汇占25%(Laufer 1994),

而本研究的英语专业学生作文中词表1以外的词汇仅占16.18%。造成这一差异的主要原因在于中国英语专业学生词汇量不足、书面语口语化以及输出训练不够等。仔细观察自建语料库我们发现,中国英语专业学生使用高频词或在同一篇作文中简单重复使用同一个单词的现象比较普遍,如“You can acquire something important from reading.”,“Reading is the most important skill for people.”,“It is important that we should take some time to read.”等。这些例句说明学生写作受词汇量限制,不能或不会变换使用不同的近义词来增加作文的词汇变化性。








