学科分类
/ 1
5 个结果
  • 简介:大规模语言运用测试(performanceassessment)中评分员的评分质量直接关系到考生的命运和考试成绩的信效度及公平性,因此如何通过有效的评分员培训最小化评分误差是确保考试成绩有效性的重要问题。本研究运用多层面Rasch模型(MFRM)中所提供的丰富的统计信息对评分员的评分数据进行诊断分析,研究表明,MFRM输出的统计结果可以较为全面地诊断评分员在评分中所存在的问题,为评分员培训提供更加具有针对性的反馈信息,也可以作为区分评分员准确度高低的依据,为更多评分员误差研究提供有效的测量工具。

  • 标签: 评分质量 多层面RASCH模型 诊断
  • 简介:语言运用测试(1anguageperformanceassessment)因其对语言综合应用能力较为直接的测量和相对较高的真实性,成为越来越多大型考试中必不可少的组成部分。然而考试过程中所引入的评分员主观判断以及评分标准的建立与使用等因素都会在很大程度上影响考试的信效度和公平性。本文对语言测试研究领域中关于主观评分误差的研究,尤其是从评分员角度进行的研究,做了一次系统的梳理,并分析了不同的研究方法各自的特点和存在的局限,以期为更多从事评分误差控制的研究者和实践者提供丰富的参考依据。

  • 标签: 语言运用测试 评分效度 评分员 评分误差
  • 简介:将计算机应用到考试评分中,以计算机评分代替人工评分,是一种提高评分效率、降低评分成本的有效方法。MHK(三级)口语考试的计算机评分开创了汉语口语考试计算机评分研究的先河。本研究将人工评分与计算机评分进行了比较分析,探讨了MHK(三级)口语考试计算机评分的效度。

  • 标签: MHK(三级) 口语考试 计算机评分 效度
  • 简介:口语考试作为一种相对真实(authentic)和直接(direct)的测试手段,已被越来越广泛地应用于语言测试实践中。然而,在测试过程中引入的主观判断、评分标准和量表的设计与使用等因素,使分数受到更多考生能力以外因素的影响。本研究基于2007年某考点PETS三级口语考试数据,用多侧面Rasch模型(Many-facetRaschModel,简称MFRM)对这次考试的评分进行了事后质量控制研究。MFRM将语言运用测试多方面因素综合在一个数学模型中,不仅能够把所有侧面在同一标尺下进行衡量,还能对单独侧面,甚至每个个体进行具体分析,有针对性地找到潜在的'问题评分员'和可能被误判的考生,是主观评分环节有效的质量监控手段。

  • 标签: 口语考试 PETS 评分 质量控制 多侧面Rasch模型
  • 简介:口语考试作为主观性考试,其评分准确性在很大程度上会影响考试的信度和整体效度。本研究结合对评分结果的多层面Rasch模型统计分析和对评分评分依据的定性描述,探讨PETS三级口语考试中常见的评分误差类型、程度和造成误差的可能原因,并据此提出了改进评分标准,评分流程和评分员培训的建议。

  • 标签: PETS三级口语考试 评分员效应 多层面RASCH模型 定性描述