测试,计算机化语言,语境,计算机化语言测试效度探讨

更新时间：2024-04-07 点赞:20028 浏览:84898 作者：用户投稿原创标记本站原创

：信息技术运用领域的不断拓展，以计算机为媒介的语言交际已现实，计算机化语言教学和测试也迅速进展。在测试领域，技术的使用已仅是为了提高测试效率，更的是提高测试效度。Messick(1989)的整体效度论述，运用Chalhoub-Deville(2003)的局部构念定义，浅析计算机化语言测试中计算机能力与测试构念的联系对效度的影响。，当计算机语言交际的媒介时，计算机能力与构念密切的语境因素，以计算机为媒介的交际语境与语言能力交互影响，构成计算机化语言测试的构念。
词：计算机化语言测试；构念效度；计算机能力
中图分类号：H319.3
文献标识码：A
文章编号：1001-5795(2012)01-0011-0005
自20世纪90年代以来，信息技术的进展对语言交际活动的内容和方式产生了深刻的影响，计算机和网络语言交际活动的媒介。如今的大学生已习惯上网看新闻、查、写邮件、求职、购物、交友等。技术的进展也为语言测试了崭新的理念，了革新的策略教学论文，对测试的效度论证了挑战。近二十年来，计算机化语言测试(computer-based lan-guage testing，CBLT)的论述和实践探讨不断深入，如项目反应论述和题库建设、计算机适应性语言测试(com-puterized adaptive language testing，CALT)、纸笔测试和计算机化测试的等效性探讨等。将探讨技术对计算机化测试效度的影响，并阐述计算机能力(computerliteracy)与构念(construct)的联系。
1　整体效度观
效度是评价测试的质量标准，效度论证则是测试探讨永恒的主题。运用语言学及领域论述和实践的进展，语言测试领域对效度的认识也不断深入(Chapelle，1999)。，测试领域广为认可的是Messick(1989)的整体效度观。整体效度论述，效度是具有多的整体(a unitary butmulti-faceted concept)，效度论证须多种手段来采集多的证据，如测试内容浅析、试题或任务浅析、测试维度浅析、校标检验、测试体现差别浅析、测试后果论证等。《教育和心理测量标准》(AERA/APA/NCME，1999)对效度的诠释的整体效度论述。
整体效度论述，构念效度(Construct Validity)是效度最根本的，是效度论证的核心，是决定测试的分数解释和结果使用性的。明确界定了构念，才能对效度的其他全面论证。构念效度本身整体，涵盖内容效度和校标效度等，构念效度探讨也各类证据，以论证测试分数与构念之间的联系论述假设(Bachman，1990；Chapelle，1998)。以测试设计对效度的影响来看，“构念不”(constructunder-representation)“与构念无关的差别”(construct-ir-relevant variance)是对效度构成威胁的两大因素。构念效度不理想，测试就可能对教学产生负面的后效(Messick，1989；1996)。，要保证测试的效度，测试设计者的论述对构念界定，并所界定的构念来设计合适的测试任务。
2　计算机对语言测试效度的影响
早在1989年，我国著名语言测试学家桂诗春(1989)就了技术对测试的影响，并以测试内容和策略教学论文上阐述了计算机化测试的优势。，计算机可制约小学语文教学论文并答题时间，答题路径，以多种方式呈现多样化的试题，纸笔使用的答题方式，还可HELP等功能为答题。，桂教授也了计算机化测试潜在的理由，如计算机的使用使测试与练习的界限变得模糊不清，HELP的引进还会牵涉到一系列的评估理由，探讨。这里所指的评估理由，核心效度理由，即技术将对测试效度产生的影响。
整体效度论述，Huff和Sireci(2001)以构念的、与构念无关的差别、后果效度等角度总结了计算机对教育测量的效度可能的好处和潜在的威胁(表1)。Huff和Sireci，计算机化测试(computer-based testing，CBT)提高测试任务的真实性，减少与构念无关因素的分数差别，使测试更全面、准确地测量其所定义的构念。，技术的使用也可能引入与构念无关的干扰因素。，测试目的计算机能力，那么对于计算机熟悉和适应参差不齐的考生群体来说，计算机能力语言测试的干扰因素。，计算机的使用与考生的社会经济地位有关，烦人的干扰因素。
基于技术对CBT效度影响的利弊浅析，Huff和Sireci倡议CBT的效度论证应开展纸笔与机考的比较探讨，浅析计算机能力对测试的影响，降低对测试效度的干扰。，效度论证应嵌入测试的设计和开发，即Messick的整体效度论述，运用基于认知论述的测试设计模型，在测试开发阶段就考虑影响效度的因素。
3　计算机化语言测试的进展和效度探讨

3.1与纸笔测试的等效性探讨

Jamieson(2005)将CBLT的进展分为三个阶段。在和阶段，效度探讨的是CBLT与纸笔测试的等效性(equivalence)。阶段的CBLT在计算机上传统的测试任务和构念，即测试并转变初中数学教学论文构念，但提高了效率；阶段的CALT提高了测试的个性化和考生兴趣。以技术上来说，这两个阶段的测试策略教学论文更先进了，以构念上来看，这两个阶段的测试并革新，测试者的是将测试任务以纸笔方式改成计算机方式，或将词汇、语法等独立的0/1判断的试题设计成适应性模块。，这两个阶段的效度探讨致力于探讨测试方式(test mode)对效度的影响，如不同方式的测试的成绩可比性、答题或认知对策运用等(详见Sawaki，2001)。在比较探讨中，计算机能力多被可能影响计算机化测试效度的干扰因素。
，把不同的测试放在同一量表上比较，是“对测试的构想和心理测量特点的等效性定量和定性的探讨”(李清华，2006:77)。测试的构念不同，即使CBLT与纸笔测试的成绩无差别，也证明等效。Mislevy(1992)在阐述教育测试之间建立对等联系的论述和策略教学论文时，要比较两个测试的等效性，要浅析的测试目的和所测能力一致。对于构念相同的两个测试，等值(equating)或校准(calibration)把测试结果对等到同一量表上；对于两个构念不同的测试，则需运用推测
1

(projection)、调适或仲裁(statistical or social modera-tion)来间接地比较测试的结果。

3.2阶段的计算机化语言测试

在CBLT进展的阶段，运用语言学其他领域(如语料库语言学)的进步，CBLT的测试任务设计更具真实性，成绩报道更的信息，报道方式更易于考生和其他使用者理解。美国教育考试服务中心推出的托福网考(TOEFL iBT)综合技能题型(integrated tasks)，语料贴近校园学习和生活，以崭新的设计全面取代了托福纸笔考试；培生语言测试中心推出的培生学术英语测试(PTE Academic)，题型多样，计算机全自动评分；我国的大学英语四、六级网考(IB CET)也了与纸笔考试不同的测试设计，并对主观题计算机自动评分。表2以测试及呈现方式、测试任务、分数报道等，比较了大学英语四级网考和纸笔考试。
，网考比纸笔考试了更的语言，以更多样的方式呈现音频、视频和文字，设计了更多类型的测试任务以模拟计算机环境下的语言交际活动，测量了考生听说读写各的能力。Jamieson(2005)，语言测试的变革技术来提高对语言能力本质的认识并更好地对语言能力测量。，要论证变革后的CBLT的效度，首要任务是界定测试的构念。
4　计算机化语言测试的构念

4.1受语境制约的局部构念

计算机能力本身并非语言能力的一。传统的构念定义，语言测试计算机能力是产生分数差别的与构念无关的干扰因素，这与Huff和Sireci(2001)的构念理解一致。，当计算机语言交际的媒介时，交际的语境发生了转变初中数学教学论文，语言测试该如何定义新的交际语境下的测试构念呢?
自Oller(1979)的语言能力分被否定以来，语言测试探讨致力于探讨语言能力构念的维度或成分各成分之间的交互。Chapelle(1998)阐述了三种不同的构念观：特质观(trait theorist)将构念定义为考生的个体特质，主义观(behiorist)交际发生的语境来定义构念，交互观(interaction-alist)则以特质与语境的交互角度来定义构念。Bach-man(1990)交际语言能力模型(CLA model)的交互式构念定义。该模型融入了交际的语境因素，并特质与语境交互的媒介是元认知对策，即模型对策能力(strategic competence)。
，Chalhoub-Deville(2003)，CLA模型将语言能力与交际语境看成两个独立的成分，以语言使用者个体的认知层面诠释了的交互。，CLA模型本质上仍属心理语言学模型，所定义的构念是语言使用者的个体能力(ability in language user)。要准确理解二语能力构念，以社会一认知层面来诠释构念，将其定义为“语境语言使用能力”(ability inlanguage user in context)。Chalhoub-Deville称构念为“受语境制约的局部构念”(local context-boundconstruct)，并，局部构念更了语言交际的本质，即语言能力和交际语境是密分的整体，在的交互作用下，语言能力和语境都发生了变化。Chapelle(1998)所强调，交互式构念特质与语境的简单相加，交互的结果既转变初中数学教学论文了特质也转变初中数学教学论文了语境。

4.2计算机化语言测试的构念

Chalhoub-Deville对语言能力的理解，CBLT的构念定义为“以计算机为媒介的交际语言能力”，考生个体的语言能力与基于计算机的交际语境影响，构成计算机化语言测试的构念。，计算机能力是与CBLT构念的语境因素，CBLT的分数作用小学数学教学论文是考生在基于计算机的交际语境下所体现出来的语言能力。
为了使测试分数具有可推断性(generalizability)，语言测试将所测能力与测试策略教学论文分开，即考生在测试任务所设计的语境体现来推断其在不同语境下的语言交际能力。，语言测试者奢望排除测试策略教学论文因素的干扰，测试策略教学论文所设计的语境与考生能力分割。当然，过度地强调语境与能力交互的瞬息万变或不确定性，语言测试也定义构念，测试体现对语言能力推断。，Chalhoub-Deville(2003)，构念探讨应浅析影响语言交际的语境因素，这些因素与构念密切；，探讨语言能力的转化(traner)，即如何运用内在的能力(internal attributes)来完成不同外部语境(external contexts)下的语言交际任务。
最近大学英语四级网考和纸笔考试的比较探讨，计算机熟悉和适应对网考成绩的确产生了具有统计作用小学数学教学论文和实际作用小学数学教学论文的影响，对考试评价和答题也有影响(金艳、吴江，2010)。，的探讨，考生计算机熟悉的提高，其对网考的评价也越好，网考写作的认知对策运用越理想，网考和纸笔考试的成绩越高，这测试方式对考试成绩的影响越来越小。写作文本的统计浅析，网考作文的平均词数比纸笔作文多、句子更长、语篇难度更大、句法复杂也更高。据此，的解释是，网考的是语言能力与交际语境的交互，成绩了考生基于计算机的交际语言能力(Jin等，2011)。

4.3计算机化语言测试的公平性

对于不熟悉或不适应运用计算机语言交际的考生来说，CBLT影响了考试的公平公正性?表3左栏列举了CBLT中经常要求考生完成的计算机操作。，熟悉题型和计算机操作培训，考生掌握这些的操作。当然，在计算机尚不平衡的情况下，考生应有选择不同测试方式的机会。技术的和推广，不同社会经济地位的考生群体的计算机能力会更趋于平衡，测试使用者也会更加接受计算机化的测试方式。，语言测试者应致力于提高计算机化测试的效度，而考生则应逐步适应新的交际语境，适应新方式下的语言测试。
当然，CBLT的设计应尽量提高界面的用户友好，使考生体现其语言交际能力(参见Fulcher，2003)。表3右栏列举了日常交际中经常使用但在CBLT中被屏蔽的功能，如自动拼写检查、句首字母大写、在线词典或查询等。，将交际语境构念的一，CBLT的设计还有改善的空间，还更好地模拟现实交际语境，使考生更适应新的测试方式。当然，也会遇到桂诗春(1989)所的“评估理由”，即如何对考生的体现评分，如何论证分数解释的性。
5　结语
Bachman(2000)展望语言测试进展前景时，计算机技术的不断进步将使新世纪的语言测试更好地模拟语言交际活动，更接近语言使用语境，以而更好地构念。，要推动CBLT的进展，效度探讨须更加准确地定义测试构念，可语料库技术浅析基于计算机的交际语境，浅析其与考生特质的交互，描述测试任务所需的计算机能力对语言交际的影响；，论证CBLT的构念效度，如浅析测试任务了构念，调查影响测试结果的因素(如视觉领域的认知能力)；，还需论证CBLT对教学的后效。总之，技术已经给语言测试了的变革，CBLT的效度探讨局限于不同方式之间的等效性，更准确地理解语言能力与交际语境的交互影响，更全面地论证CBLT的测试效度。

2