语音识别或“耳养”识别尚未收到目击者识别近年来获得的研究或公共利益的数量。然而,1983年对英国法律案件的一项调查发现,当时有180多个案件将语音标识用作证据。但是,越来越多的研究表明,在法庭上使用语音识别与依赖目击者身份相比,在法庭上使用语音识别同样危险。研究一致地表明,在类似情况下,语音识别的准确性不如面部识别,并且影响目击者可靠性的相同因素也会为earwits带来问题。然而,潜在的陪审员通常高估了法医背景下语音识别的准确性。
法庭上的语音认可
在刑事审判中,最著名的语音识别证据使用可能是在布鲁诺·理查德·豪普特曼(Bruno Richard Hauptmann)的审判中,于1936年因绑架和谋杀飞行员查尔斯·林德伯格(Charles Lindbergh)的婴儿儿子而被处决。林德伯格(Lindbergh)案被称为本世纪的审判,而审判中最戏剧性的时刻之一是林德伯格(Lindbergh)本人站了起来。林德伯格(Lindbergh)在审判前3年描述了赎金的夜晚,他在等待着一个朋友交出赎金时,听到从100码外的声音听到的声音。29个月后,Hauptmann被捕时,Lindbergh被带到派出所,听Hauptmann重复了绑架者的话:“嘿,医生!在这里,在这里。”林德伯格(Lindbergh)在宣誓下作证说,他确定霍普曼(Hauptmann)的声音是绑架者的声音。专家们仍然不同意陪审团是否在裁定Hauptmann有罪的情况下做出了正确的判决。
语音识别在加拿大至少有一个错误的信念案件中发挥了作用。1984年10月,一个叫克里斯汀·杰索普(Christine Jessop)的9岁女孩从安大略省的家中消失了,大约三个月后被发现死亡。她失踪后不久,她被刺死了。调查迅速集中于邻居,盖伊·保罗·莫林(Guy Paul Morin),他于1985年4月被捕。尽管莫林(Morin)有强大的阿里比(Alibi),但他于1986年被审判,最初被无罪释放。但是在加拿大,检方可以对无罪释放,莫林于1991年重新审判。第二次审判持续了将近9个月,第二次陪审团裁定莫林有罪。
尽管在对克里斯汀·杰索普(Christine Jessop)的死和盖伊·保罗·莫林(Guy Paul Morin)的审判的调查中发生了许多错误,但审判中的一项戏剧性证据来自克里斯汀(Christine)的母亲珍妮特(Janet)。她作证说,在克里斯汀的葬礼之夜,她听到一个未知的男性声音在她家附近哭泣:“帮我,帮我,哦,哦
神救救我!”后来,她将这种声音确定为她的邻居莫林(Morin)的声音,她几次与她在篱笆上说话。检方声称,葬礼后,莫林经历了re悔,并在他家中哭泣。尽管我们不知道这一证词在陪审团的决定中扮演的角色,但很明显:错误的人最终被定罪。几年后,DNA测试表明,莫林不可能成为杀手,他在1995年被免除。从未发现真正的杀手。
耳信研究
莫林的声音被一个随意的熟人错误地识别出来。相比之下,林德伯格(Lindbergh)被要求确定他只听一次的声音。两种类型的识别都有法医相关性。通常,在证人或受害者由于黑暗或肇事者戴着口罩而无法看到肇事者的脸的情况下进行声音识别。有时,犯罪的受害者可能会认出肇事者的声音是前同事甚至亲戚的声音。受害人告诉警察他或她认出了声音,而被识别的人成为主要嫌疑人。但是,许多将语音识别用作证据的情况都涉及识别陌生人的声音。在这种情况下,当犯罪嫌疑人揭露时,可能会为证人播放一个声音阵容,通常是以录音带录制的一系列短片的形式。要求证人指出是否有任何声音是肇事者的声音。还可以使用声音表演,其中要求证人只听一个声音,并指示这种声音是否是肇事者的声音。 For example, witnesses to a bank robbery in North Carolina were asked to listen to a tape-recording from a previous convenience store robbery, in an effort to gather evidence that the two crimes were committed by the same person.
为什么这样的标识会导致错误?与目击者的面部识别一样,重要的是要认识到声音的记忆不像录音机或摄像机那样运行。当听到时,听众将声音的某些显着特征编码为记忆(例如,音调,响度,口音或异常发音或节奏),但后来对声音的识别为熟悉的声音也受到了上下文,期望和逻辑的重大影响推理。例如,如果您立即接到电话,那么您在行的另一端对声音的识别将部分取决于您的实际听觉记忆,部分原因是您对谁打电话给您的期望,您对您的知识了解您的电话号码,甚至是一天中的注意事项。而且,我们几乎所有人都有接电话,期望一个特定的呼叫者,将声音“识别”为朋友或亲戚的声音,只是在几分钟后意识到呼叫者实际上是一个陌生人数字。
在一个典型的耳透实验中,参与者会听取特定持续时间的记录陈述,并可能会被告知他们以后会要求他们识别声音。一段时间后,参与者接触到由几个不同声音组成的语音阵容,并被要求选择发表原始陈述的声音。参与者还经常对自己的选择信心进行评分,或者被问及是否有足够的确定能够在法庭上证明自己的身份证明。例如,在丹尼尔·雷德(Daniel Read)和弗格斯·克雷克(Fergus Craik)的一项研究中,大学生听到了一系列陈述,其中包括一个男性目标声音,说:“帮助我,帮助我,哦,上帝,帮助我!”(克里斯汀·杰索普(Christine Jessop)的母亲听到的话)被要求评估每个陈述的情感。他们不知道将来会要求他们认出任何声音。在17天后的一次课堂会议上,同一学生被6位男发言人要求听取一系列20秒的对话说法,并选择一个说出所讨论的声明的人。目标声音是阵容中的声音之一。纯粹的猜测将导致机会表现水平为17%(6分之1)。实际上,研究中的学生的准确性只有20%正确,没有比机会更好。
大多数研究还结合了“目标无限”阵容,以测量阵容不包含实际肇事者时的错误识别的可能性。这样的研究指出,误认为陌生的声音是熟悉的危险。即使对独特的目标语音的持续较长的曝光率,这种目标阵容中的错误识别率也可能高达90%至100%。
影响语音识别准确性的因素
正确识别语音的可能性取决于许多因素或估计变量,其中许多变量也影响目击者的准确性。有限的声音暴露会导致准确性降低;犯罪者花在说话的时间越长,证人就越有可能正确编码语音特征。但是,重要的是要认识到,证人可能会高估肇事者花在讲话的时间长度。例如,通常会记住一个30秒的语音样本是从90秒到超过2分钟的持续时间。在最初听到声音然后进行识别测试之间的时间也至关重要。暴露和测试之间的延迟越长,错误的机会就越大,尤其是以虚假识别无辜者声音的形式出现的错误。背景噪声会干扰证人编码语音特征的能力。证人与说话者的接近也很重要,更紧密的距离与更高的准确性相关。
看到肇事者脸的能力也可能会对肇事者声音的认识产生不利影响,这种现象称为脸部遮盖效果。据认为,目击者可见时对面部的关注相对更多,导致语音识别精度降低。但是,研究表明,注意声音的指示并不能显着降低面部遮盖效果,这表明可能不受证人有意识的控制的过程。因此,在肇事者脸上可见的情况下,使用语音识别证据被认为是不可靠的。
目击者识别的研究始终在识别自己的种族面孔时始终如一地表现出色,而不是另一个种族的面孔。关于口音和语言的语音识别研究也有类似的发现。例如,说英语的人在识别说英语的语音方面比强调英语的声音更准确,并且在识别用外语说话的声音方面最不准确。因此,语言熟悉对语音识别准确性具有重大积极影响。(另一方面,性别与语音识别没有一致的关系。)
压力还可以降低语音识别的准确性。在观看实验室中的录像犯罪时,研究参与者通常会在造成暴力威胁或存在武器时在面部和语音识别中遇到更多错误。在任何情况下,我们注意周围环境各个方面的能力受到限制,在压力条件下,它变得更加有限。当制造威胁时,对我们的生存而言,倾听和记住口语信息的内容而不是说话者的声音素质更为重要。
声音可能很容易被掩饰,进一步降低了证人准确识别声音的能力。当目击者在犯罪犯罪中听到愤怒中发出的声音,然后试图认出说话者以正常语调说出某些内容时,准确性就会降低。窃窃私语是掩饰声音的一种极其有效的方法,因为它涵盖了许多独特的声音特征,例如音调。
耳信精度也可能与证人的年龄有关。研究倾向于表明,很小的孩子在识别的声音中并不像10岁以上的儿童那样准确,他们经常与成年人相提并论。说话者识别准确性也降低了40岁,可能与老年人听力损失的增加有关。此外,尽管有相反的观点,但盲人在识别声音或其他自然声音的能力方面并不优于视力。
常识告诉我们,认识到熟人,朋友或家人的声音比认识陌生人的声音要容易得多。在一定程度上,研究支持了这一结论。但是,根据事件的特定情况,对熟悉声音的认识的研究发现了广泛的准确性水平。尽管一些研究在识别熟悉的声音方面发现了高度的准确性(超过95%),但研究通常显示出小于70%的准确性率,有时明显降低。Daniel Yarmey and colleagues, for example, compared participants’ recognition of highly familiar voices (immediate family members or best friends), moderately familiar voices (co-workers, teammates, or friends), or low-familiarity voices (casual acquaintances) and found that accuracy for identifying voices of low and moderate familiarity was only about 65% and participants misidentified the voices of strangers as being familiar almost 40% of the time. Thus, according to Yarmey, when a witness claims to recognize a perpetrator’s voice as that of a familiar person, police officers should not simply take this statement at face value but should construct a voice lineup to test the witness’s ability to identify the voice in question.
不幸的是,陪审员的语音识别准确性最突出的指标通常是证人对法庭的信心。研究一致地表明,语音识别精度几乎完全与信心无关。极其自信的证人在对声音的识别时通常是错误的,准确的证人通常对他们的身份证明很少信心。此外,陪审员可能高估了任何语音识别是准确的可能性。例如,当心理学专业的学生被要求估计反映实际实验室和现场研究的情况下准确识别的百分比时,他们始终提供不切实际的高准确性预测。虽然外行人对与earwitness识别相关的问题的了解可能不足为奇,但最近的一项英国研究表明,警察对语音识别问题的知识并不比一般人口更加知识。
语音识别程序
在与目击者研究的另一个相似之处,在语音识别中使用单人表演被批评为过于暗示性。在丹尼尔·雅梅(Daniel Yarmey)和他的同事的一项研究中,一名年轻女子在公共场所单独与公民接触,并与他们互动约15秒钟。遭遇大约5分钟后,为参与者提供了语音识别测试。当测试是一个单人表演而不是六个声音的阵容时,无辜的嫌疑人更有可能被识别出来。在这两种情况下,对真实演讲者的声音的准确识别都是很少见的。
在美国,在大多数情况下,在国际上,很少有标准化程序可以用于法医语音识别。荷兰法医研究所的研究人员提议制定语音阵容构造准则,类似于许多目击者阵容中许多警察部门使用的准则。除嫌疑人外,他们还主张阵容中至少有五个声音,以与犯罪嫌疑人的性别,年龄,口音,社会经济背景和人声特征(例如音调和说话速度)相似。他们还建议使用双盲管理员和标准化的指示来进行耳透,这在目击者程序的领域中变得很普遍,但需要在语音识别领域中更强大的倡导。
参考:
- Breeders,A。P. A.和Van Amelsvoort,A。G.(1999)。法医耳养识别的阵容结构:一种实用方法。在第14届国际语音科学大会(第1373-1376页)中,加利福尼亚大学伯克利分校。
- Read,D。和Craik,F。I. M.(1995)。耳养识别:对语音识别的某些影响。实验心理学杂志:应用1,6-18。
- Solan,L。M.和Tiersma,P.M。(2003年,11月/12月)。陷入充耳不闻的耳朵[电子版]。法律事务。2015年6月27日从http://www.legalaffairs.org/issues/november-december-2003/story_solan_novdec03.msp检索
- Van Wallendael,L。R.,Surace,A。和Hall-Parsons,D。
- (1994)。“ earwitness”语音识别:影响准确性和对陪审员影响的因素。应用认知心理学,8,661-677。
- Yarmey,A。D.(1995)。耳信扬声器识别。心理学,公共政策和法律,1,792-816。
- Yarmey,A。D.,Yarmey,A。L.,Yarmey,M。J.,&Parliament,L。(2001)。常识信念和熟悉的声音的识别。应用认知心理学,15,283-299。