半参数反应和反应时分析的IRT模型研究

(整期优先)网络出版时间:2024-03-28
/ 2

半参数反应和反应时分析的IRT模型研究

刘伊芸

江西师范大学

摘要:为了克服经典测量理论(CTT)存在的多种理论缺陷与实践不足,新的测量理论-项目反应理论(Item Response Theory, IRT)产生,并被广泛应用与实践与理论研究中,为计算机自适应测验和认知诊断等领域的研究提供了基础。已经提出了很多参数化的方法,但是随着研究的推进,这些方法也出现一些问题。已有的参数化方法需要假设反应时的分布,如果违反反应时分布的假设。因此本文将介绍关于半参数反应和反应时分析的IRT模型研究为相关学者的学习研究提供参考。

关键词:项目反应理论;反应时;参数估计

1引言

为了克服经典测量理论(CTT)存在的多种理论缺陷与实践不足,新的测量理论-项目反应理论(Item Response Theory, IRT)产生,并被广泛应用与实践与理论研究中,为计算机自适应测验和认知诊断等领域的研究提供了基础。IRT把被试在特定的项目上的正确的作答反应的概率与该被试的潜在能力以及该项目的特征通过数理推理而联系在一起。而不是像在经典测试理论(CTT)中那样,用被试作答的得分总和来估计其真实的能力。IRT侧重于对构成总分的项目层级的反应进行建模。它能够为考生提供一个更为灵活的理论框架来链接考生的能力和项目的属性。因此,在IRT中,测验相同内容的不同考试形式的分数是能够比较的。Spearman在1904年提出了IRT 的模型雏形, 1952年 Lord建立了第一个项目反应模型,也就是双参数正态肩形曲线模型。在这之后,1957年至1958年,伯恩鲍姆又提出了逻辑斯蒂克模型。在这些基础上IRT经过几十年的发展,学者们陆陆续续结合不同的情况又提出了很多模型,从单维到多维、从0-1计分到多级评分,从计时模型与非计时模型、从参数到非参数、从单调与非单调等等。(漆书青,2002)。

不同的人在相同题目上的作答情况不同,作答时间也会有所不同。“从刺激开始作用到引起机体开始产生外部反应之间的时间差”就是指反应时。反应时是人的动作的潜伏期,其时间的长短包含了个人在完成任务时所进行的认知活动的信息。 通过将这些信息加入IRT模型中,一方面增加了一个测量指标,可以提高受试者间和受试内差异的检测。另一方面通过对IRT模型所估计出的项目参数与能力参数的分析能揭示导致反应差异的心理过程,从而发现一些异常反应、猜测、做题策略的差异、项目预知和减速效应、人格、欺骗等。将反应时加入IRT模型中,不仅可以提高估计精度,也更具有实际意义,更符合实际情况。

对此已经提出了很多参数化的方法,但是随着研究的推进,这些方法也出现一些问题。已有的参数化方法需要假设反应时的分布,如果违反反应时分布的假设,这些受试内参数方法可能会产生误报和有偏差的参数估计,而半参数方法几乎不会。

2参数与半参数的反应和反应时间分析的IRT模型

参数化的被试内混合建模框架可以对在假设成立的情况下进行准确的估计,但是其反应时分布的假设难以确认。如果反应时的分布与假设不符合就会出现将并不存在的类进行分类,进行错误的参数估计等问题。Molenaar证明了这种参数化的混合反应时模型对违反分布假设的情况敏感,也就是说当出现违反分布假设时确实会对估计造成较大影响。因此,他提出了半参数的被试内混合模型。

半参数化的方法的创新点在于,通过人为的设置阈限值,将反应时指定为任意数量的类,可以放松对反应时分布的假设。接下来,只需要将一个合适的被试内混合模型应用于反应和分类反应时。因为对反应时分布的假设比参数(对数正态建模)方法更宽松,因此称为半参数方法。Molenaar在模拟研究中分别用Z = 7、Z = 5和Z = 3反应时类别拟合三个半参数模型在。在实证研究中,对664名荷兰高中生进行23个“谜题”测试,得到他们的反应和反应时。结果表明半参数方法是一种稳定的方法,很少导致误报或参数偏差。反应时半参数模型对对数反应时的正态性违反不敏感,对数据中不同类别的检测能力几乎不受参数方法的影响。而且由于半参数模型的结果对反应时类别的数量在很大程度上不敏感,类别的确切数量对结果没有显著影响。

3、讨论与展望

将反应时的信息加入IRT模型中进行分析的可以得到更到的信息使估计更加准确,还可以监测到异常作答等其他因素对测试的影响,得到被试间和被试内差异进行原因的分析,因此对反应时的IRT的不同的建模方法的研究具有重要意义。通用模型没有考虑被试内的差异,对信息的使用不全。参数化的模型假设严格,一旦违反可能照成较大的估计偏差。半参数模型通过人为将反应时类别分为多类从而放松假设的限制,对违反假设的情况不敏感。虽然通过模拟研究证明分类的数量对估计不存在影响,但是这种纯粹人为设置阈限值以及人为指定的方法不仅增加了工作量,其结果难免也会存在一些主观因素的争议。在实际使用时可以使用多种分类数量进行对比,考察是否真的没有影响。

另外,目前反应时IRT模型的建模都是基于van der Linden提出了层次框架模型, 目前的分类反应时方法仍然停留在广义线性模型的框架内。在未来的研究中或许可以基于一些其他的模型框架进行新的建模。

参考文献

[1]约瑟夫·M.瑞安,杜承达, 谢小庆.(2011).基于经典测量理论和项目反应理论的等值与连接——项目反应理论等值程序.考试研究(03),80-94.

[2]漆书青,戴海崎,丁树良.(2002).测量过程和心理计量学.北京:高等教育出版社.

[3]邓太萍.(2004).IRT计时与非计时模型在瑞文标准推理测验应用中的比较研究硕士学位论文,江西师范大学).

[4]郭莹莹.(2020).融合反应时的多级评分IRT模型开发及其应用研究(硕士学位论文,江西师范大学).

[5]武运筹,汤靖琪,杜卓然,陈珂,张鑫懿,王飞... & 吴一波.(2023).简版领悟社会支持量表的开发:基于经典测量理论和项目反应理论.(eds.)第二十五届全国心理学学术会议摘要集——分组口头报告(pp.258-260).西南大学心理学部;华东师范大学心理与认知科学学院;安徽大学哲学学院心理学系;北京师范大学心理学部认知与学习国家重点实验室;哈尔滨医科大学人文社会科学学院;北京大学公共卫生学院.