计算机辅助测试是使用计算机支持的评估和测试流程。这个条目侧重于历史,品种,和计算机辅助测试的未来的发展方向。
历史
计算机辅助测试始于1950年代初,当光学扫描仪适应读特殊答案表和成绩测试。这导致多项选择题测试的广泛使用在各种各样的测试应用程序。由于越来越多的大型计算机,电脑的使用在测试中扩大。
第一个扩张重点从考试成绩中提取更多的信息与多个分数。因此,除了评分测试,计算机开始解释考试分数和分析测试数据。分数概要文件的测试是由专家解释,和他们的知识体现计算机生成的解释报告工具得分多尺度。著名的例子包括明尼苏达多相人格量表和库存的浓厚兴趣。解释报告已经扩大和改善这些年来和突出的今天使用的教育和心理工具。
第二次扩张发生在1960年代末。随着电脑变得更容易在教育、电脑主机配备多个终端可以显示信息在阴极射线通过键盘终端和接受响应。这些“哑巴”终端通过拨号调制解调器连接到电脑主机的运行速度每秒10到30个字符。基本的调查“分时”软件的终端响应和传播信息终端。这些硬件配置了第一代计算机辅助教学(CAI)。
CAI在1970年代和1960年代由电脑功能与基本页面车工,分支逻辑来支持教学过程。屏幕呈现给学生,学生做出了反应,和基本的计算机软件决心在下一个屏幕上呈现给学生。基于计算机的测试,使用相同的翻页方式,是这一过程的自然结果。
最初,共享计算机管理基于逐个问题进行测试。然而,终端和电脑主机之间的通信是非常缓慢的。分时系统的响应时间是不可预测的,而且有时延误一分钟或更多发生在测试问题。这个问题严重影响测试过程的标准化和CAI的可接受性。因此,CAI和基于计算机的测试非常成功的那些年。
微型计算机的发展,在1970年代早期的主要硬件的进步被允许计算机辅助测试。小型机小(相对于大型机,但大以今天的标准来看)和单个用户提供了完整的硬件和软件。因此,可以编写软件的测试过程和独立运行的其他应用程序。这使得几乎完全控制系统响应时间测试问题和更快的吞吐量时间之间,导致更好的测试过程的标准化。这些功能被进一步加强个人电脑(PC)在1980年代中期才开始广泛使用。今天的电脑使用多线程和高速芯片允许计算机执行广泛的计算在几分之一秒。
品种的计算机辅助测试
传统的测试
最简单的计算机应用程序在测试交付是常规测试的管理,所有考生收到相同的测试问题在相同的顺序,通常是一个问题。虽然这似乎是一个微不足道的进步在纸笔测试,它有许多优点。首先,说明了电脑,考生收到前测试问题,通常还有一些练习题。这确保每个考生都有阅读和理解指令。第二,可以提供给考生分数或测试管理员后立即完成测试。此外,所有考生的反应被记录电子化,从而消除需要光学扫描测试答案表。的时间需要考生应对每一个问题都可以记录下来。此信息可用于评估考生的注意力的任务,并提供考生的信息处理时间可能有用的评估他或她的性能。没有测试过程中使用的纸,从而减少复制测试材料的费用和申请纸记录。最后,测试过程可以提高音频,视频,和颜色,因此能够用于测量特征不容易以纸笔考试管理。
分支或Response-Contingent测试
分支或response-contingent测试是有用的在测量变量,可以评估通过一个解决问题的场景或一系列步骤。在这种方法中,提出了一种问题情境的考生数量的选择。每个替代“分支”到一个不同的第二阶段在解决问题的过程。后续分支为每个后续问题继续导致不同的变化情况提供给考生。因此,每个考生可以按照不同的途径解决问题的过程,其中一些导致一个适当的解决问题的办法而另一些没有。
这些“情境”测试通常得分的充足率和效率与考生到达(或不)来到一个解决提出的问题。也许最成功的实现计算机辅助分支测试医疗培训。在这个应用程序中,假设的病人提出了医学生以及他们对“病人可以访问的信息。“学生试图“治愈”病人通过订购各种医疗测试和评估,得出结论通过测试可用的信息交互,并根据需要要求更多的信息。练习不同程度的困难和在信息提供给挑战学生的知识和技能。
部分自适应测试
自适应测试是为了适应每个考生实现测试过程。分支或response-contingent测试自适应在这个意义上,但部分和完全自适应测试进一步发展这一过程。
部分自适应测试从银行经营结构的困难的问题。最简单的这些测试包括子集的问题分为短期测试,或testlets,组成不同的平均难度水平的问题。testlet媒介管理困难,一个问题,并立即得分。考生得分高的testlet testlet然后获得更加困难。那些得分较低的人更容易进行testlet。如果只有两个testlets给个人,测试是一个两阶段的测试。多级测试包括三个或更多testlets管理,与每个后续的困难testlet基于前testlet的考生的分数。
在testlet方法中,分支是基于每个testlet考生的分数。这种方法的一个变体包括分支管理每个问题之后。这允许考生更快的走向问题,符合他们的能力水平。其他可能的部分自适应结构也被开发出来,但他们很少使用,因为他们不充分利用银行的问题。唯一的例外是支testlets用于测量技能,如阅读理解,许多问题被问及一个给定的阅读文章。
完全自适应测试
完全自适应测试,基于家庭的数学模型称为项目反应理论(IRT),是目前最常用的方法适应性测试。一个完全自适应计算机自适应测试(CAT)五个需求和特点:
- 它使用一个题库中所有问题已经被适当的校准红外热成像模型。红外热成像家族包括模型问题在两类(例如,选择题得分正确或不正确,或真或假,是或否)和评定量表得分为多个类别的问题。
- 先前存在的每个考生的信息(例如,他或她的学校年级)可以用作起点选择的问题。
- 问题是管理一次,考生的分数估计每个问题后回答。
- 管理每个问题之后,整个银行的问题是搜索问题,将提供最精确的测量的考生(考虑到考生的分数在这一点上测试)是政府选择。
- 这个选择的过程和管理问题,改重复直到到达合适的终止准则。完全适应猫可以终止时,考生的分数达到指定的精度水平,在没有更有用的问题银行测量给定的考生,或当考生被可靠的分类对一个或多个切割的分数。
完全适应猫比传统测试中,基于红外热成像大大缩短他们测试管理所需的时间减少50%到90%。他们可以测量个体在更高水平的精度比传统的测试长度相同。此外,测试问题在两个类别(例如,正确的或不正确的),大多数考生会正确回答约50%的问题不管他们的分数是高或低。少能力考生可能会经历考试比类似的测试,他们采取了“简单”,因为猫会适应他们的能力水平,让他们更容易的问题。相反,学习成绩考生会经历考试的难度比许多他们了。因此,测试的“心理环境”将为所有考生更好,结果在一个适当的具有挑战性的测试环境。完全适应猫一直在实施一批重大测试程序。
连续测试
许多人称为顺序测试作为猫,但他们是一个分离的程序集。连续测试通常用于做一个分类决定(例如,雇佣或不雇用,研究生毕业,或是否有人或不是抑郁)使用一个或多个指定截止分数。通常,问题在测试中排名的顺序他们有助于使多少精度分类决策。然后,问题是管理排名顺序,直到一个分类。完全适应猫相比,问题并不是根据考生的选择特征level-indeed,顺序测试通常不是测量连续特征而设计的。测试终止个性化以来连续测试,然而,顺序测试可能不同的长度在一群考生。
当前的问题和未来的发展方向
因为互联网的出现在1990年代末,相当数量的测试是通过互联网。尽管20年的研究表明,严格设计计算机支配测试相当于或优于纸笔测试,大多数互联网或网络测试的开发人员很少考虑等效(即。、互联网或网络测试没有经过严谨的设计)。因此,测试了PC之间可能存在的巨大差异和那些通过网络交付。这些差异会影响标准化和一些测试的有效性。这些因素包括:
- 不同的浏览器使用不同设置字体、颜色和其它的显示特征提供基于网络的测试。这些可能呈现一个给定的问题以不同的方式不同的考生。此外,不同的屏幕尺寸和分辨率降低实现saas的等价测试PC-delivered测试。电脑,所有考生的测试管理软件标准化显示,和一个标准的监测可以在测试室使用。
- 很大程度上取决与Web access和响应时间问题问题。影响响应时间的一些因素包括考生的连接速度和网络上的流量即时考生响应和接收一个新的问题。响应时间进一步的速度影响Web服务器和Web服务器上的其他要求。对猫来说,所需的计算服务器时间估计特质水平和选择下一个问题是影响响应时间的另一个因素。相比之下,在PC上,只有一个人正在测试一次,between-question响应时间几乎是瞬时的,从而更好的规范测试交付。
- 当测试管理在一个不受控制的环境中,如与Web交付,可能发生在测试环境变量存在交货会影响个人的测试性能。标准化测试的基本原则是,纸笔测试管理在一个安静和舒适的环境。在很大程度上基于pc的测试还在测试房间精心管理控制环境。当测试是通过网络,然而,各种各样的外部因素可能存在和潜在的干预无效产生的分数。此外,当个人考试没有监督,是不可能知道谁实际上是考试,他们访问测试执政期间,哪些材料,协助他们在测试过程中。
显然,需要做相当多的研究以评估实现saas的可比性测试PC-delivered和纸笔测试。之前实现saas测试可以被认为是替代其他测试模式,缺乏标准化的影响和物理条件的测试在测试成绩必须评估。此外,监管条件下实现saas交付测试必须以保证测试的完整性和有效性。
虽然计算机辅助测试成为可能的发展新类型的测试,可以利用电脑的多媒体功能,这一承诺尚未实现。很少关注计算机支配测试测量的新能力,技能和个人特点,通过纸笔测试无法衡量。未实现的可能性包括测试来衡量个性特征的发展以新的方式(例如,使用交互式场景和视频)和新方法测量个体差异等特征的记忆,推理和复杂的感知能力。这些发展,加上完全自适应猫,将有助于计算机辅助测试,充分发挥其潜力。
引用:
- 巴特拉姆,D。&哈姆布赖顿,r (2005)。基于计算机的测试和互联网:问题和进步。纽约:威利。
- Drasgow F。& Olson-Buchanan j . b . (1999)。创新电脑评估。Mahwah新泽西:劳伦斯Erlbaum。
- 米尔斯,c . N。Potenza, m . T。Fremer, J·J。&病房,w . c (2002)。基于计算机的测试:构建未来的评估的基础。Mahwah新泽西:劳伦斯Erlbaum。
- Parshall, c·G。喷雾,j . A。戴维,T。& Kalohn j . (2002)。实际问题的基于计算机的测试。纽约:斯普林格出版社。
- 北斗七星,H。多兰,N .。Eignor D。Flaugher, R。、绿色、b·F。Mislevy, R。,et al。(2000)。计算机自适应测试:底漆(第二版)。Mahwah新泽西:劳伦斯Erlbaum。
- 维斯,d . j . (2004)。计算机自适应测试咨询和教育的有效和高效的测量。测量和评估在咨询和开发中,37 (2),70 - 84。