文献导读自动题目生成在医学教育评价中
导读
自动题目生成(AIG)作为心理测量领域的一项重大创新,具有革新医学教育评估的潜力,其需要确定最少的题目生成数量用以抵消大量前期投资(即模型开发和技术部署),从而实现成本节约。今天的文献导读推荐结合了两篇文章:(1)年发表在《EMJInnovation》的文章,探讨的是AIG在医学教育评价当中的特点与前景;(2)年发表在《EducationalMeasurement:IssuesandPractice》的文章,其运用成本—效益分析法,在估算出AIG和传统题目编写开发成本的基础上,确定AIG成本低于传统题目编写成本的阈值。
自动题目生成在医学教育评价中的使用及其成本—效益分析
AutomaticItemGenerationinMedicalEducationAssessmentanditsCost-BenefitAnalysis
研究背景:
HOME
近年来,测量学领域的一项重大创新——自动题目生成(AIG)——具有革新医学教育评估的潜力。从广义上讲,AIG是指在计算机技术的辅助下,利用题目模型来创建考试题目的过程。与传统题目生成过程(内容专家编写单个题目)不同,AIG通过利用内容专家的专业知识、题目模板和计算机算法来创建各种题目组合,通常会在单个题目模型的基础上生成数百或数千个新题目。AIG的突出优势表现在:(1)可以提供基于测试开发程序和测试内容的有效性证据来源;(2)具备在不进行预测试的情况下,估计题目特点和质量提供预校准;(3)由于使用了认知模型和预校准,AIG可以通过预先指定所需的题目难度来帮助生成各种难度范围的题目;(4)高效、快速地生成大量题目,进而可能会在测试开发过程中节省成本。
在医学教育领域,选择题(MCQ)是最常用的评估方法,其拥有客观性好、效率高等突出优势,但同时也在时间、难度、费用和安全性等方面存在局限。自动题目生成(AIG)技术的出现,为解决这些局限提供了可能。AIG在医学教育领域的开发与应用具有巨大潜力,表现在:第一,医学执照和认证委员会花费大量资金培训医生编写高质量的MCQ,并邀请专业编辑对新生成的题目进行审查,以确保MCQ质量与格式标准化。AIG可有效减轻医生和专业编辑职责,并通过让内容专家几乎完全专注于内容创建和审查来显著提高效率;第二,当前医学教育工作的重点内容之一是维持医学认证与再认证。大多数维持认证的工作要求医生完成一系列实践案例,以达到专业持续发展目的。鉴于认证维持案例和实践题目制作的高额花费,AIG可显著降低成本,促进效率提升;第三,对于研究者来说,AIG能够有效减少题目编写缺陷,从而产生对学生知识或能力的准确估计。此外,如果医学教师希望在题目库中拥有更多临床题目,AIG可通过使用标准化模板提供帮助;第四,对于学生来说,AIG能够为其提供无限的学习与自我评估机会。
Royal等人()认为AIG的主要局限在于目前它仍然是一门新兴科学。在一种范式成为一门成熟的科学之前,其必须经过严格的审查、彻底的测试,并得到科学界充分的理解。尽管数十年来学者们一直在研究AIG的理论基础,但AIG范式尚未在大多数研究和实践领域扎根,原因可能是软件的可用性有限,或是那些有机会获得软件的研究者不愿分享。显然,如果其他人不能亲自测试AIG并为新的发现做出贡献,AIG科学就无法发展。假设AIG理论成熟,得到科学界充分理解,那下一个挑战则是将其推广到日常实践,此时,鉴于对学生和医疗专业执业人员进行持续、严格评估的需要,医学领域很可能成为AIG的首批应用领域之一。
然而,AIG是否能在测试开发过程中节省成本,这一点仍有待商榷。研究认为,AIG理论分为四个步骤:(1)开发认知模型(即关于考生如何处理题目的理论);(2)开发题目模型(即计算机用来生成题目的模板);(3)部署计算机技术来生成题目;(4)评估认知模型和题目模型的心理测量性能。以上步骤说明AIG并不是完全自动的,开发认知模型和题目模型仍需要大量工作,进行大量基础投资。自动化只发生在AIG技术基础设施开发完成后的最后一步,这也就意味着,如果实施AIG的前期基础投资大于传统题目生成的最终投资,那么与传统题目生成相比,AIG在成本效益方面没有优势。
Kosh等人()以成本效益为导向,设计研究方案,旨在估算AIG和传统题目生成相关开发成本,以了解AIG是否以及何时能对题目生成所需的前期投资产生回报,确定AIG成本低于传统题目编写成本的阈值。研究问题为:必须生成多少题目,AIG才会比传统题目编写方式更具成本效益?
研究设计与方法:
HOME
研究以K-12数学选择题为对象,由两个题目开发小组(一个小组采用传统题目生成方式,即手工编写,另一个小组采用AIG)在同一测试程序中进行研究。研究选择数学作为唯一领域,原因在于数学题目涵盖了广泛的内容和图形,且每个题目都有与其开发内容相关联的启动成本。传统的题目生成环节,团队开发了个单独编写的数学题目。AIG过程中,内容专家、心理测量学家、研究人员和软件工程师合作制作了一个题目生成器,包含约40个涵盖了与计算面积有关的不同题目特征(例如:正方形与圆、整数与小数)的题目模型。
采用成本—效益法进行分析,分析步骤如下:
(1)计算传统题目生成成本:
其中,CM为传统题目生成的总成本,CW为手工编写和审查个题目的成本,CF是现场测试个题目的成本,r为现场测试的存活率(例:r=0.8,说明80%的题目在现场测试中表现良好)。
(2)计算AIG成本:
其中CA表示AIG在一个内容区域中生成40个题目模型的总成本,CS1是题目生成步骤1的成本(即开发认知模型),CS2是题目生成步骤2的成本(即创建题目模型);CS3a和CS3b是题目生成步骤3的成本(即生成题目的计算机技术),分为编程基础设施的初始成本(CS3a)和随后的特定内容编程成本(CS3b);CS4是题目生成步骤4的成本(即评估认知模型和题目模型),M是维持题目生成器一年的成本。
(3)AIG成本低于传统题目生成成本的阈值:
其中NM,是传统题目生成的小题目数量,当小题目的数量NM超过自动化成本与传统小题目成本的比率时,使用自动化方法,即AIG法更具成本效益。
研究结果:
HOME
考虑最简单的情况来帮助解释,假设所有的题目都能通过现场测试(即r=1),并且生成一个手工编写题目的成本为1美元。研究结果表明,在同一个内容领域内,基于40个题目模型的AIG成本为.49美元。也就是说,AIG的成本是生成一个手工编写题目的倍左右。.49美元的总成本细分为:开发认知模型14.22美元,开发题目模型36.15美元,创建和部署生成题目的技术.66美元(即第一批AIG实施的技术基础设施.55美元,随后各批40个题目模型的AIG特定内容编程18.11美元),评估认知模型和题目模型27.59美元,以及一年的题目生成器维护29.87美元。
研究结论:
HOME
研究结果表明,在首次实施AIG的过程中(即尚未产生编程基础设施),如果测试题目在同一内容领域内需要生成以上的题目,那么AIG比传统题目生成更具成本效益,此时,该内容领域包括大约3至5个相关技能,可用单个认知模型进行建模。在后续的AIG实施过程中(即已经存在编程基础设施),如果测试题目在特定内容领域内需要生成88至个或更多的题目,那么AIG仍然更具成本效益。此外,对传统题目生成现场测试存活率的假设不同,成本收支平衡所需的最少题目数也不同。
文献来源:
HOME
RoyalKD,HedgpethMW,JeonT,etal.AutomatedItemGeneration:TheFutureofMedicalEducationAssessment?J].EMJInnovation,,2(1):88-93.
KoshAE,SimpsonMA,BickelL,etal.ACost-BenefitAnalysisofAutomaticItemGeneration[J].EducationalMeasurement:IssuesandPractice,,38(01):48-53.
导读:周文静
审校:江哲涵
预览时标签不可点收录于话题#个上一篇下一篇转载请注明:http://www.shijichaoguyj.com/wxjs/9167.html