成就测验是任何的测试,用来评估一个人的成就的特定知识或技能内容区域中指定个人得到了一定程度的指导或培训。然而,成就测验通常与性向测验混淆。能力倾向测试可能不会从成就测验形式各不相同,但他们通常都使用和解释不同。能力倾向测试通常用来估计一个人的未来业绩任务和/或他或她的能力来开发新的技能或知识如果提供指导或培训。从本质上讲,成就测验评估当前性能在特定的培训;能力倾向测试评估潜在的未来的表现。
100多年来,成就和能力倾向测试稳步上涨势头,心理学家的支持,教育者,决策者和公众。最近在联邦和州法律水平显然证明了新兴的成就和能力倾向测试的重要性在一个数据驱动的政治体系。然而,不管如此明显的支持,相当大的混乱仍然是本质,成就测试的使用,和适当的解释。
能力倾向测试
因为成就和能力倾向测试经常结合使用,才能做一个简要的讨论测试是十分必要的。16心理测量年鉴(MMY)组织能力和能力测试为一个分类(即。、智力和学习能力倾向),其中包括措施一般或特定的知识和能力和认知能力。如前所述,能力倾向测试本质上是测量个体的性能选择的任务,然后用来预测,同一个人的未来表现。他们可以协助外部各方在甄选过程中预测性能,并帮助个人更好地了解自己的能力在生活决策(例如,选择职业或教育)。MMY包括大量的评估在这个类别,包括语言和非语言的推理;关键,抽象,和创造性思维;认知和心理能力(包括传统智力测试);记忆能力;和学习能力、潜力和效率。
能力倾向测验的预测结果并不总是有限的任务或情况,类似最初测量。事实上,一些能力倾向测试关注预测看似无关的任务和技能,而另一些则用来预测未来表现在完全不同的情况。例如,高中学生感兴趣的特定职业可能会给这些职业能力倾向测试衡量自己的能力。学生的测试结果可以用来帮助建议他们对学术或培训高中以上(而不是简单地指定他们是否应该追求的职业)。
能力倾向测试还可以具有不同的能力来衡量一个仪器的数量。Multiaptitude电池能力倾向测试测量领域广泛的能力(例如,语言推理、数字推理和机械推理)在一个单一的管理。这些电池主要用于知识、教育和职业评估,适合展示个人的相对优势和劣势。出于这个原因,multiaptitude电池通常是更有用的职业和学术咨询比single-aptitude评估。
更常见的一种multiaptitude电池是军事职业资质电池(ASVAB), 1966年首次开发,现在在形式23和24日。大多数,如果不是全部,美国武装部队新兵ASVAB。测量资质一般学术领域和职业领域,参与大部分民用和军用的事业。八个单项成绩的分数可以用来定位可能的职业选择OCCU-FIND-a手册清单400多个职业,其中包括约150名军事生涯。
虽然multiaptitude电池比single-aptitude更有用的测试在某些情况下,也有更专业能力测试是最好的实例。例如,广泛multiaptitude测试如韦氏成人智力量表(极冰原)可以预测各种认知和精神能力。然而,他们没有测量所有可能的认知能力,他们不一定提供最准确的预测未来表现的特殊任务,如力学、艺术和音乐。事实上,MMY提供了一个分类的专业评估工具(如美术、数学、阅读、科学和社会研究)和列表资质和能力测试在每个组。下面的例子提供了一些迹象的广泛的专业能力倾向测试可用于心理学家:
- 机械能力倾向测验是一个45分钟的测试,检验高中学生和成人的机械能力,如机械的理解任务,使用的工具和材料,和匹配工具与操作。
- 奥康纳的手指灵巧测试评估精神运动能力(即。,执行身体动作)的能力,它是用来预测一个人如何能够执行某些电动机在各种情况下的任务(例如,在快速组装、执行手表维修)。
- Meier艺术专业评估的测试例子的艺术能力。在这些测试是一种美感。这个测试提供了一个考生的四个版本不同的艺术作品在一个重要的审美维度(例如,比例或形式)。个人排名在等第工作,结果可用于预测个人的未来成功的任务涉及这些美学概念。
- 海边的音乐天分的措施是60分钟音乐能力的评估。评估电池包括一个听力考试有六个单项成绩的测量维度听觉歧视(如音调、响度、节奏和音调内存)。
混合测试
入学考试是最常用的一些评估的范围内才能和成就测试,但他们也最困难的定义根据传统定义。应用时都会出现混乱成就或能力测试的标准定义学术评估,因为学术能力/能力倾向测试相结合的预测目标能力倾向测试与性能评估目标的成就测试。因此,它并不少见的分类系统将入学考试进入混合类别。
SAT是三种最常见的一种招生测试,和一个典型的例子混淆关于入学考试是否成就或能力测试。最初在1901年推出,现在坐了200万多名学生,每年接受几乎所有美国学院和大学入学考试录取过程的组件。坐的目的和作用的争论导致了一些它的名字在整个20世纪的变化。SAT首次引入“学习成就测验”,1941年更名为“学习能力倾向测验”,并成为1990年的“学术评估测试”。1994年修订后,并继续最近的2005年修订,“坐”不再是一个缩写词。测试目前被称为“SAT推理测验”。
另一个广泛使用的混合测试法和研究生考试(GRE)记录。类似于坐,“美国大学测试”在1996年改名为“行动”。大多数美国院校使用行为和GRE考试,分别作出决定的入学申请者本科和研究生课程的学习。
成就测试
虽然混合测试包含的元素成就测试,更多的传统定义成就测试显然是有区别的资质和能力测试。成就测试的重点测量获得的知识使他们的主要类型的仪器用于各级教育项目。虽然这个要素是一致的成就测试,这些测试可以进一步使用一些无排他性的特征分类。
标准化和列举了成就测试
一个特点,可以用来区分成就测试是测试已经标准化。是那些被管理,标准化考试的成绩测试和修订,建立平均水平的性能。标准化允许将个人的测试结果相比其他考生。因为个人的成就是与参照组的相比,标准化成就考试成绩通常表示百分等级。分数也可能表示使用年级水平的等效性(例如,一个八年级的学生分数10标准化成就测验,表明她得分以及平均水平的十年级学生)。
虽然标准化考试通常被认为是更健壮的和有效的措施的成就,成就测试的大部分用于教育设置列举了。这些列举了测试包括考试,测试,和其他实例,目的是简单地表明个体学到多少,没有引用一个特定的性能标准建立了一个参考。为此目的,列举了测试评估个人成就的比例最大的潜在水平的成就,按照教练的定义,教育家,或外部测试开发人员。列举了测试可以打进更多的主观(如论文测试和简短回答测试)或更多客观的(例如,多个选择和匹配测试),但是最终的得分总数的比例将永远是一个潜在的成就。一般来说,分数报告通过或失败的结果,可能的得分总数的百分比(例如,93%的可能100%),信等级(例如,a、B),或许多年级32)(例如,17。
Norm-Referenced和标准参照考试的成绩
正如上面提到的,标准化考试的成绩需要引用一个人的表现一个既定标准的性能水平。有两种方法来建立这些标准化的性能级别:规范引用(也称为nomathetic和引用标准)和标准引用(也称为具体和域引用)。Norm-referenced成就测验比较每个人的成就和他人的成就采取相同的措施。因此,成就水平是基于标准组的平均表现,而不是实际的正确答案的百分比。为了提高个人分数常模组比较,norm-referenced测试通常用来模拟正常的曲线。个人提供一个按比例缩小的分数或百分等级根据正常的曲线。一些最常见的norm-referenced测试是加州成就测验(CAT),全面的测试基本技能(施)和测试学术能力(TAP)。
有几个norm-referenced成就测试的批评。例如,因为norm-referenced成就测验是为国家或国际使用设计的,有可能被测试的内容实际上是不受教育或培训提供给个人。当这个困难变得突出,教师有时改变材料他们教,导致一些教师的批评是“为考试而教学。“除了内容之外,批评人士指出,许多成就测验的标准太老了按照目前的标准来衡量成就和/或教学方法。此外,规范可能过于局限于提供有意义的规范比较所有人群,特别是那些文化或种族。也有争论,这样评估可能牺牲准确性或宽度,以确保考生的分数符合正态分布。此外,正常曲线的数学性质,正确答案的数量的变化不会导致相同的所有个人的百分等级的变化。这些争论导致了重大考验厂商通过重新设计和/或解决批评renorming成就测验,并强调norm-referenced成就测验不应该做出关键决策的唯一依据学生保留或毕业。
尽管大多数成就测试规范引用,其局限性导致在某些情况下继续使用标准参照测试。标准参照测试比较每一个既定的标准或准则的性能水平,而不是一个标准组。他们专注于一个给定的目标技能的掌握,并通常包括许多项目测量单个目标。因为对一个绝对的标准,标准参照测试得分通常正确答案的百分比,标准参照测试的应用都是口头较多、笔头的日常评估个人在教育设置。与norm-referenced成就测试,迫使个人进入一个正常的曲线,标准参照测试不限制考生的数量能够展现出杰出的表现,而且在掌握。
为了利用norm-referenced和标准参照测试的优点,一些成就测试合并两个标准化程序。成绩等方面的测试报告如何比较考生和其他人以及他们掌握了评估内容。例如,•(也称为加州成就测验,第六版或猫/ 6)表明一个学生的分数相等和学生的掌握程度。
单独与Group-Administered测试
大部分的成就测试可以为一群人。这是特别有用的在教育环境中,成千上万的学生可能会采取同样的仪器在一个类似的时间框架。然而,信息,如行为观察可以获得只在一个单独的测试管理。个性化的成就评价是特别有用的职业康复评估成年人和学习障碍的儿童和青少年。有好几个人管理的成就测试,以及许多可以管理个人或团体。
调查成果电池
成就测验也不同的成就领域的评估。调查成果电池,评估一个广泛的领域,是最广泛使用的格式。调查成果电池通常有很多基于subject的单项成绩。他们是最常用来评估成绩在k - 12教育强调的领域,从而为教育工作者提供学生成绩信息教育课程与一个政府。调查最受欢迎的成就是爱荷华州测试电池的基本技能,为幼儿园到8年级的学生设计的。这个电池评估成果等领域的词汇,阅读理解,语言,数学,拼写、科学、地图和图表、参考资料。
成就测试的例子
虽然有成百上千的成就测试,以下提供的例子更频繁的管理工具:
- 还是伍德科克·约翰逊认知能力测验的®III (WJ III)是一种广泛使用的(即综合系统。混合动力电池)测量一般智力(或g),特定的认知能力,学习能力倾向,口头语言和学术成就。这些变量是通过两个不同的电池测量:WJ III认知能力测试和WJ III的测试成绩。WJ III可以管理任何个人2岁以上的。因为它的广度和成就的评估,WJ III常被用来诊断学习障碍,引导教育计划,评估增长,识别差异个人的能力和成就水平。
- 韦氏的个人成就测验——第二版(WIAT-II),是阅读和数学的考试成绩,适合4岁以上的人。WIAT-II评估响应的正确性和考生到达的过程响应,从而允许更精确的评估比其他成就措施解决问题的能力。WIAT-II也是conormed Children-Fourth版的韦氏智力量表(WISC-IV),这是最常用的测试知识和儿童认知功能。
- 4广泛成就测验(WRAT4)是用来评估个人年龄之间的5和75。WRAT4评估成绩的阅读、拼写和算术技能。
- 考夫曼测试的教育成就,第二版(K-TEA II)提供了一个广泛的学术成就的评估。它可以管理在较长(five-subtest)综合形式或短暂(three-subtest)筛选形式首先通过十二年级的学生。全面和简短的版本提供一个评估的关键学术技能在阅读,数学,书面语言和口头语言。
联邦政府授权的全州成就测试
2002年1月8日,2001年的《不让一个孩子掉队法案》(NCLB)颁布,它强调标准与教育系统和问责制。NCLB法案的目的是保持状态,学区和学校负责适当的教育的美国青年。NCLB内具体倡议旨在评估和减少民族/种族之间存在的差距,少数民族学生和大多数组学生,以及来自不同的社会经济状态的学生。NCLB法案创建的必要性进行评估的成就在全国范围内推广。
自1969年以来,全国教育进展评估(NAEP)提供了唯一的国家评估学生的主要学术领域的成就。然而,NAEP最初评估只是一个国家样本的四年级学生每2 - 4年。目前,在该法案下,NAEP评估一个国家样本,四年级、八年级学生每2年。然而,这显然是有限制的国家norm-based测试。特别是,它是不可能单一的测量准确测试所有个人学术标准所定义的每个国家的教育部门。因此,NCLB法案要求所有国家和地区接受联邦资助的独立开发和实现过程数据在所有公立学校的学生获得成就。
状态评估要求的目的是提供一个独立的、客观的衡量每个学生的教育进步,学校、学区和州/领地。预计这些评估来衡量每个学生如何实现各个国家的学术标准在阅读、数学和科学。学术标准已经由每个州来表示特定年级的学生应该学会在特定主题领域。潜在的假设是,学生将在州测试中成绩表现良好如果教师能力和求职所需的材料标准。因此,教育部门认为不应该有需要“教”和/或从事特定的测试准备或指导。
NCLB法案规定,国家评估过程必须包括至少一个标准参照或norm-referenced评估,可能包括多个评估,必须解决国家学术标准的深度和广度,而且必须可靠和有效的。因为所有的学生都期望实现相同的高水平的学习,NCLB法案要求各州举行所有公立小学和中学学生相同的学术内容和成就标准。因此,必须使用相同的严格的测试在整个国家。从2007 - 2008学年开始,所有国家必须管理年度成就测验的阅读/语言艺术和数学成绩3至8日,并在10到12年级至少一次。此外,年度科学成就测验必须有至少一次的以下:3年级到5年级6到9,10到12年级。
与其他高风险测试,数据从国家获得的成就测试对考生的未来产生重大影响。聚合结果会有后续影响学校、学区,甚至国家。最基本的使用遍及全州的成就测验是为教师和行政人员提供个人信息,和定制的服务来解决学生的困难。这种成就测验的“高风险”的名称来自这样一个事实:许多国家使用学生的表现来确定学生是否获得了足够的知识进步到下一个年级。虽然教育标准和心理测试压力的重要性考虑几个点的数据做出这样的决定时,许多国家认为成就测验结果否决所有其他措施。
全州成就数据还可以提供信息所使用的课程和教学的质量。这样,全国范围内的评估也成为“高风险”教师和他们的课程。可怜的结果可能表明需要修改课程,以更好的实现所需的学术标准,或需要为老师提供额外的培训来提高教学的质量。在一些州,教师有很大比例的低水平的学生可以从他们的立场,作为校长和学校负责人。相反,教师有很大一部分优秀学生有时接受额外的货币补偿作为奖励他们的成功。
全州范围内评估也成为“高风险”学校和学区,NCLB法案要求分数的所有符合条件的学生被聚合,以确定学校或学区“年度进步”过程中指定的一段时间,一般2年。这样做,国家指定了一个最低水平的提高学生成绩,学校必须实现。这是基于最小并且关注学习最差性能并且关注学习最差的人群或学校。国家足够的进展,然后设置一个阈值,这个阈值提高每3年至少一次。我们的目标是,在12年年底,所有学生在每一个州将演示适当水平的成就在各自的国家评估。学校不让年度进步可以要求制定纠正措施计划或基金选择学生参加另一个学校或接受额外的辅导。此外,学区可以启动重组,结果替代全部或大部分的人员,或在学校的假设操作由国家或私人公司。
缺陷在全州成就测试
虽然成就测验证明有用性在各种情况下,争议和批评仍然存在如何这些测试开发,标准化,利用。这样的一个批评是,改善可靠性、准确性和有效性的许多成就测试已经缩小他们的应用范围。例如,一些测试开发人员改进规范引用多个规范组通过标准化测试基于年龄、民族/种族和季节性的规范。因此,每个形式的测试适用于狭义的群体。因此,它是重要的选择成就测试,可靠和有效地衡量的东西,产生的结果可归纳的人口正在测试。
虽然成就测验都是有用的工具来指导决策,最强烈的批评之一的成就测试表面当教育决策仅仅是在成就测验结果的基础。这种批评批评者聚焦于微分处理时尤为突出的文化团体(如种族、收入水平、特殊需求)。例如,美国公民自由联盟(ACLU)已表示担心联邦要求相同的测试给那些有特殊需要和/或有限的英语水平。其他评论家认为成就测验不一致表明成就在其他文化团体,如种族和性别。虽然良好,通常这些批评是陈旧的,作为使用最广泛的开发或修改成就测试解决许多以前批评微分适用于各种人群。的确,对成千上万的考生的荟萃分析表明,使用最广泛的成就测验不预测精度的函数不同种族或性别。
更具体的全州成就测试,批评人士认为,这类评估评估使用的课程和教学方法的老师,而不是学生的学习提供的信息的能力。这些批评者认为,成就测验结果的消极后果(例如,阻碍学生年级)可以惩罚学生的失败学校或老师。进一步的批评者认为,这一点变得尤其有问题在美国最贫穷的学校,教育质量明显低于在较富裕的学校。虽然没有研究反驳这一说法,课程和教师素质是学生成绩呈正相关,反驳这样的批评经常引用的研究和荟萃分析,揭示大量的其他变量影响学生的成绩。这些变量包括学前教育支出,扩大招生规模,家长参与,学生动机、学校出勤率,学生对学校的满意度。此外,重要的是要注意,全州成就测试的意图不是个别学生的教育决策,但要确定学校和学区,需要额外的援助和/或资源,以确保学生在学术成就使收益。
因为成就测验只能测量一个有限的信息,他们无法评估信息的全方位学习的学生或学生的能力他们学会了在实际情况下应用信息。与此相关,批评者认为,成就测试铅教师过分强调记忆和不再强调思维和知识的应用。因为有限的成就测验的本质,“为考试而教学”可以有效的提高成绩分数,但它也缩小,削弱学术课程。批评者认为,这可以使学校删除课程没有明显促进死记硬背必要成就测试中得分高(如体育、艺术和音乐)。事实上,正如联邦政府定义的“改进”的成就测试结果,并与资金这个定义,批评者认为,学校正从教育测试指导。话虽这么说,全州的支持者成就测试注意的区别“为考试而教学”和“教学测试,”这位前当教师调整其课程学生成功的可靠指标,后被当老师只提供测试的确切信息。事实上,支持者认为基于标准的教学知识和技能课程与特定的指标,然后成就测验评估,被认为是“课程对齐”,被认为是导致高质量的学校和课程。
结论
10多年来,成就和能力倾向测试获得了声望和相当大的注意力从心理学家,研究人员、教育工作者和公众。尽管最初成就测验是严厉的批评和有限的适用性,在过去的四十年戏剧性改善质量、可靠性、有效性和普遍性。这样的改进进一步提高和加速了州和联邦资助的联邦法律要求全州所有公立学校孩子的成绩测试。心理学家和教育工作者现在可以选择从数以百计的研究成就测试信度和效度。毫不奇怪,越来越受欢迎和成就的高风险特性测试在许多设置(如教育、法医、诊断)导致了新批评和谩骂的批评。然而,几乎每一个批评的成就测试主要由心理和教育研究驳斥了。最终选定时,应用,并适当地解释和专业,成就测试提供了最好的方式获得知识和技能的评估个人的各种设置。
引用:
- 艾肯,l·R。& Groth-Marnat, g (2006)。心理测试和评估(12日ed)。波士顿:培生教育。
- 美国教育研究协会,美国心理协会,和国家教育委员会测量。(1999)。教育和心理测试的标准。华盛顿特区:美国教育研究协会。
- 美国心理协会,联合委员会测试实践。(2005)。教育公平的测试实践的代码。华盛顿特区:作者。
- 木匠,美国(2001年)。教育考试的高风险。监控在心理学,32 (4)。
- •达玲•哈蒙德l . (1999)。教师素质和学生成绩:国家政策的审核证据。西雅图,华盛顿州:教学研究和政策中心。
- Gronlund:大肠(1998)。学生成绩评估(6日ed)。李约瑟山庄,MA:阿林和培根。
- 凯恩,t·J。&小马,d . o . (2002)。使用不精确的承诺和陷阱学校问责措施。《经济视角,16 (4),91 - 114。
- 林,r . l . (2003)。责任:责任和合理预期。教育研究人员,32 (7),3-13。
- 国家教育委员会测量。(1995)。在教育测量代码的专业责任。麦迪逊,WI:作者。
- 雷斯尼克,m (2003)。NCLB行动警报:工具&策略进行工作。亚历山大,弗吉尼亚州:国家学校董事会协会。间谍,r。& Plake b . s . (Eds)。(2005)。16心理测量年鉴。林肯,NE:布罗心理测量研究所。