项目反应论述在英语分级测试题库建设中运用

更新时间：2024-03-26 点赞:9511 浏览:34741 作者：用户投稿原创标记本站原创

项目反应理论在心理和教育丈量|教学论文网|领域的应用越来越广泛。而题库建设也吸引了越来越多的的留意力。但是,题库并不是一些题目的简单集合,而是在教育丈量|教学论文网|理论的指导下、经过等值处理的、具有必要参数和较大信息量的题目的有机组合。本研究旨在利用项目反应理论来建设大学英语分级测试的题库。数据来源于湖南大学英语分级测试,利用项目反应理论对分级测试的题目进行参数估计,即区分度、难度等参数的估计,然后再进行单位系统转换即等值处理,这样,这些经过等值的题目就可以放置到题库中去了。基于项目反应理论的题库具有巨大潜力,利用题库中的题目去测试考生时,尽管天生|教育论文网|的试卷所含题目不尽相同,但由于平行试题之间的难度都已经过调整,所以考生之间的分数都可以直接进行比较,无需再进行单位系统的转换了。为了一次性地对尽可能多的题目进行等值转换,本研究的实验设计分为连续性的两步:第一步是固定试题模式,采用共同题非共同组的等值设计方案;共有2461名考生参加了测试。第二步是分级测试采用的计算机随机配题模式,另外2830名考生参加了计算机随机配题形式的测试,即每一名考生都抽取一份由计算机程序随机天生|教育论文网|的试卷,在这种情况下,没有任何两名考生所考的是同一份试卷。主要研究结果如下:同时估计两参数逻辑斯蒂模型适用于两套固定试题,两套不同试卷上的题目参数经过等值后转换到同一量表即同一单位系统上来,这一量表就作为大学英语分级测试题库的“标准”。又利用通过共同题等值到已标刻题库法,EAP估计法和固定参数估计法对随机朽配题模式中的题目进行有效地等值处理,尽管样本量小,但结果证实估计值公道、真实。最后,共有听力和阅读理解部分747道试题通过了参数估计和等值转换,完成了利用项目反应理论对题库进行标刻。题库的试题量适中,题目区分度较大,难度中等。目前,国内对项目反应理论在题库建设中的应用研究,尤其是对计算机自适应测试题库的研究还处于低级阶段。只有极少数考试运用项目反应理论建设了题库,如汉语水平考试采用单参数逻辑斯蒂模型,经济专业资格考试采用等级反应模型。本研究利用项目反应理论的两参数逻辑斯蒂模型一次性地完成了747道试题的等值转换和参数标刻,建立了基于项目反应理论的大学英语分级测试题库。利用项目反应理论建设的题库,能够确保不同年份之间的新生入学分级测试成绩、不同试卷之间的连续性、稳定性、可比性以及公平公道性。同时也利于分级教学的实施,并为实行计算机自适应测试打下基础。【关键词】：项目反应理论题库建设等值参数估计
【论文提纲】：摘要5-6Abstract6-13Chapter1Introduction13-171.1Background13-141.2StatementoftheProblem14-151.urposeoftheStudy151.4ImportanceoftheStudy151.5OrganizationoftheStudy15-17Chapter2ReviewoftheLiterature17-312.1ItemResponseTheory17-242.1.1DichotomousIRTModels17-192.1.2EstimationProceduresofItemParameters19-212.1.3EstimationProceduresofAbilityParameter21-232.1.4AssessingModel-DataFit23-242.2IRT-BasedEquating24-272.2.1DataCollectionDesign24-252.2.2SeparateandConcurrentCalibration25-262.2.3FixedParameterCalibration262.2.4IRTTrueScoreEquating26-272.3ItemBanking27-292.4Computer-BasedTest29-302.5Summary30-31Chapter3Methodology31-433.1Data31-323.2TestDesigns32-333.3CorrelationbetweenDifferentItemTypes333.4TestingofModelAssumption333.5EvaluationofItemResponseModels33-433.5.1EstimationofListeningOpen-EndedItems34-353.5.2EstimationofListeningMultiple-ChoiceItems35-383.5.3EstimationofListeningItems38-393.5.4EstimationofReadingMultiple-ChoiceItems39-423.5.5EstimationofReadingItems42-43Chapter4ResultsandDiscussion43-664.1CorrelationbetweenDifferentItemTypes43-444.2ModelAssumption44-464.3ValidationofItemResponseModel46-474.4EquatingofTwoAlternateTestForms47-504.4.1Omitted,Not-PresentedItems,andSpeededness47-494.4.2CommonItems49-504.5ItemBankingofItemsinTwoAlternateTestForms50-554.5.1ItemandAbilityParameterEstimationinEquating50-524.5.2ConcurrentCalibrationofItemsinTwoAlternateTestForms52-554.6CalibrationofRandomTestFormItems55-654.6.1FixedParameterCalibration55-564.6.2CalibrationofListeningItems56-574.6.3CalibrationofReadingItems57-654.7Summary65-66Conclusion66-69References69-76AppendixARescaledItemParametersofTwoAlternateTestForms76-84AppendixBItemParametersofRandomTestForms84-122AppendixCSomeExamplesofDifferentStandardScoreswiththeSameRightAnswerNumber122-125ApendixD具体中文摘要125-128Acknowledgements128