作者 | 萨比娜·格雷斯(Sabine Gless), 瑞士巴塞尔大学法学院刑法学、刑事诉讼法学和国际刑法学教席教授。
译者 | 樊文,中国社会科学院大学法学院副教授,中国社会科学院法学研究所副研究员。
来源 | 《诉讼法学研究》第26卷(2022)。为阅读便利,注释从略,建议阅读原文。
内容摘要:随着人工智能(AI)的普及,机器和软件机器人对人类行为的监控产生了所谓的机器证据。这种新型证据对传统上为人类的证言证据量身定制的世界各国司法系统的刑事程序提出了新的挑战。本文的重点是在刑事审判中作为证据提出的、由人工智能驱动的系统产生的信息,此类系统观察和评估人类使用者的行为,预测其未来的行为,以便提高产品使用的安全性。
这类证据源于消费品产生的数据,一个鲜明的例子是自动化驾驶:以安全为特征的驾驶辅助系统会观察和评估驾驶员在必要时重新控制车辆的能力。以欧洲为例,从2022年开始,包括睡意检测和分心警告系统在内的新型智能设备将成为新车的强制性配置。在人机互动造成伤害的情况下(例如,涉及自动化汽车的事故),可能会有大量的机器证据,或者说,人工智能驱动系统产生的数据,可供刑事审判使用。
目前还不清楚人-机交互过程中产生的数据能否以及如何在刑事案件事实调查中用作证据,而且对抗式和审问式庭审制度处理这一问题的方式上也非常不同。对抗式诉讼具有对立双方进行审查的优势,这使得双方都有机会对作为证据提供的消费品提出质疑。相比之下,审问式制度有特定的机制来引入法庭外记录的专家证据,包括确立事实,而且这一特定机制对于彻底测试人工智能装置是十分必要的。
本文以德国和美国的联邦制为例,强调机器证据在刑事程序中带来的挑战。文章比较的主要领域在于,如何在法律为适应使用机器证据而进行改进的过程中维护(公众)对于事实调查的信任。这种比较的视角突出说明了人工智能证据在法庭上适用的困扰,并且预示了这种困扰在不太远的将来定然成为无法回避的问题。文章的结论是,目前,刑事司法制度还没有足够的能力来处理嵌入消费品中的人工智能所产生的各种新型的信息。文章建议,我们应该将对抗制中双方审查证据的制度工具与审问制中在特定条件下的庭外陈述的采纳相结合,以建立起充分的机器证据测试手段。
关键词:刑事程序;比较刑法;德国;机器证据;人工智能;专家证据
一、导论
能够处理特定任务的自动化系统,比如驾驶一辆汽车,目前被定义为狭义的人工智能(AI)。这应该与一般的人工智能区分开来,后者拥有类似人类的认知能力和对环境的经验理解,还具有以比人脑快得多的速度处理大量信息的能力。本文主要探讨由人工智能驱动的系统,这些系统可以观察和评估人类使用者的行为,以预测未来的行为,例如安全增强驾驶系统,该系统可以自动和自主地对人类驾驶员的行动和反应等外部信息,做出反应。在法庭上使用一般人工智能技术产生的数据的可能性(潜力),对刑事实体法和刑事诉讼程序都提出了新的挑战。人工智能有能力观察和评估人类的适当性,从而为广泛的合作行动做出贡献。这是否会产生另一种数字化的证据收集工具?这种可以在刑事诉讼中使用的数据是否足够可靠?在发生事故时,这种观察是否可以等同于一种 "机器证言(证词)"?要解决这些问题,首先必须承认机器人和软件机器人——即与消费品使用者互动的独立运行的机器或者程序——不同于呼气酒精测试仪、DNA检测试剂盒或雷达测速枪等法庭鉴定工具。后者的设计是为了测量特定的输入数据,并执行简单明了的计算或者提供其他(可预测的)输出,而嵌入在消费品中的狭义人工智能则有能力从各种各样的输入中收集信息,自主评估信息的模式,并基于算法和机器学习传达一种既不受人类指导也不完全被人类理解的信息。它们原本也不是为证据的目的所设计的。因此,这种信息可能很难用传统的证据规则进行分类和分析。
通过对与此主题相关的法律的分析可以发现,事实调查程序,尤其是证据可靠性的评估是一种以人为中心的现象,其目的是为事实认定者(trier of fact)提供透明、客观的信息,同时也保障事实调查程序的可靠和有效。因此,在法庭鉴定工具中,应用狭义的人工智能已经对当今的证据法和事实鉴定提出了挑战。例如,数字化的呼气酒精测试仪(Breathalyzer)已经揭示了此类证据助手所存在的问题,问题包括固有的暗箱*问题,即无法充分解释其内部的工作原理。
如果法庭可以接受人机合作中人工智能产生的数据,那么此类数据有可能被归类为一种书面证据,甚至是一种证人证言。但无论如何,根本的问题仍然是:如何有意义地评估人工智能及其产生的数据的可靠性(reliability)和可信性(credibility),特别是当呈现在法庭上的数据是由评估人类行为的技术产生的,这些技术不是为了产生有形的证据(tangible Evidence),而是为了满足特定的商业需求,并没有考虑到刑事司法制度方面的问题。
对德国和美国的联邦制中这一问题的研究将表明,在对抗式制度中,事实调查中的审查要复杂得多,检验证据可信性和可靠性的方法有很多,学者们已经提出了新一代数字化证据的解决方案。在德国这样的审问式制度中,由于先天缺乏评价证据可靠性和可信性的手段,如果在刑事案件事实调查(认定)中努力创造系统地评价机器证据的手段,就需要创建起一条新的法律途径。也就是说,逐步建立案卷和依靠庭外陈述的纠问(审问)式传统,可以更容易地对复杂的证据检验进行全面的评价,同时一并进行纸质记录,而且从审判程序开始,各方当事人就可以获得此类记录。检验一个人工智能驱动的工具的性能,除了用机器进行实验和显示所有结果的详细记录外,还需要时间和连续的试运行。对于技术上很复杂,但仍必须在法庭上以言词(口头)方式陈述和解释的证据来说,由法院指定的专家进行彻底的检查,并将结果提供给双方当事人,这可能是一种更可行的评估证据的途径。
从比较法的角度,本文认为,无论是欧洲大陆流行的审问式制度,还是美国使用的对抗式制度,都没有为可能出现在法庭上的人工智能数据做好准备,因而就无法利用潜在的相关机器证据。审问式制度一直在努力寻找合适的防御工具来对抗这种新形式的信息,而在对抗式制度中,包括记录对人工智能驱动的设备进行彻底审查的庭外测试在内的可行手段,却寥寥无几。为应对世界各地法院都将面对人工智能产生的证据这一趋势性问题,本文建议对这两种制度进行重大变革,并主张采用一种从对抗式和审问式法律制度中吸取经验的方法路径。这条新路径将包括对抗式制度中,当事人模式下对证据的彻底审查,以及审问式制度中对法庭外评估复杂的技术证据所需的时间和空间的分配,以及所有各方在案件上的知识共享。本文的最终目的是为刑事审判中机器证据的呈现提供一种新的方法。
本文首先以涉及自动化驾驶的交通事故为主要例子,对人工智能产生的机器证据进行简单的勾勒,据此,监测人类驾驶员面部是否有睡意的数据、睡意警报的启动或者对驾驶员行为的驾驶辅助系统的评估,所有这些都可能成为相关证据。其次,分析人工智能产生的机器证据如何通过专家报告调查结果的方式进入审判,或者设计一种方法将软件或机器带入法庭。从确保事实调查的可信性来看,很难简单地将机器证据作为某种形式的文书证据引入,也很难将其与证言证据联系起来。机器证据可能不属于这两类的任何一个,我们需要一种新的证据方法,这种新方法能考虑到这一点:像人类证人一样,人工智能能够根据自己的评价(指认)认定某位被告人是某犯罪的行为人。因此,必须将其作为证人而不是作为提供检测结果的工具进行审查。
1、人工智能的法律定义
并非只有法律学者在持续为定义人工智能、机器人或自动程序等技术术语而努力。这种(技术术语仍不明晰的)困难表明技术在快速而重大的进展着而法律还没有跟上。无论如何,人工智能缺乏法定定义的现状,不应妨碍我们分析外围的智能环境(即那些能够监测和响应人类行为环境的电子设备)会如何影响刑事司法。恰恰相反,只有当律师和法律学者讨论新技术的各个方面及其对法律制度的潜在影响时,一致的法律定义才有可能形成。就本文的目的而言,重点在于人工智能驱动的系统,这些系统观察和评估人类使用者的行为,并预测其未来的行为,以便在自动和自主地做出反应的同时提高安全性。这种系统可能采用机器人或软件机器人的形式,但是始终拥有它们自己的(程序)议程、自动性和自主评估的能力。
2、方法论
本文采用了两种方法。第一种是分析刑事审判中围绕机器证据的实体法和程序法,以及无论在哪个司法管辖区或者哪种法律制度下都可能出现的问题。第二种是基于茨威格特(Zweigert )和科茨(Kötz)原创著作的功能比较法。比较中项(tertium comparationis),即最相关(重要)的比较点,是在提出机器证据的刑事案件事实调查过程中评价可信性的手段。本文将以德国和美国的联邦制作为例子,因为它们代表了对比鲜明的刑事司法制度,而且两个国家都是重要的汽车工业(制造)国。
本文分析了两个法域中每个法域与事实调查中的可信性有关的法律规定、证据规则和相关判例法,特别是对机器自动生成的证据有争议之处。本文还研究了专家和技术报告的使用情况,并说明了对此类证据的相反做法。虽然这样的一种法律比较不可能永远是完全中立的,因为每个术语的含义在不同的文化和司法管辖区都会有很大的不同,但它确实可以将具体的司法概念纳入一个总体的法律现实中。在此,值得信赖的事实调查的概念是与不同的基本价值观念(即对美国公民陪审员和法官的信任与对德国完全由法官组成的法庭的信任)密切相关,并且充满了规范性的层面,这些规范如果没有适当地进行语境化,可能会使比较结果的有效性失真。任何功能性方法的目标都是超越规范层次,并将其作为一种分析刑事审判中机器证据的具体事实问题的工具,这个程序与如何评价机器证据这一更普遍的问题直接相关,这最终将成为所有司法管辖区的问题。
二、人工智能产生的机器证据
本文的这个部分认为,自动化驾驶在各种刑事司法领域提出了新的、但又相互交织的问题。刑事责任问题在实体法上没有得到解决,这将导致人机互动造成损害情况下的证据问题,因为人工智能可否与人类驾驶员共同承担刑事责任的问题还未明确,这也给该如何处理人工智能生成的机器数据造成了困惑——是将这些机器数据视为提供专家证言或者感知证言的证人,还是应将其归为共同被告人的陈述?
1、自动化驾驶
自动化驾驶是技术迅速发展使得人工智能得以监控人类行为的一个常见例子。随着这项技术的进步,人类将越来越多地与所谓的 "驾驶辅助系统(驾驶助手)"或者说软件机器人共享转向盘,这类设备可以支持人类驾驶员的驾驶表现,并在特定情况下协助甚至接管驾驶。然而,在后一种情形下,目前还不清楚在任何给定的时刻,谁将会被视为驾驶员,而这对责任归咎有着重大的影响。
自动化驾驶技术已经能够不依赖于人类驾驶员而执行一系列复杂的动作。这些系统可以监测车辆在车道上的位置以及驾驶员的转向(控制)模式、体温和面部动作(尤其是眼球运动)。它们能够学习驾驶员的典型姿势、头部位置、眨眼率、面部表情和转向模式。在检测到异常时,会警告驾驶员停车休息(例如,用闪烁的橙色咖啡杯标志)。尽管有些驾驶辅助技术看起来几乎像玩具,但在人类对车辆放手而不加控制时,监控人类驾驶行为的系统就至关重要。此时,自动化驾驶技术就是主要的驾驶员,但如果驾驶辅助技术无法处理特殊的情境,人类还是必须响应系统的干预请求,并接管对汽车的控制。因此,接管-请求(TOR:take-over-request)设备会持续不断地监测着人类驾驶员必要时是否有接管的能力。
由于许多事故都是由疲倦不堪的驾驶员引起的,因此,或许睡意检测系统中最关键的安全特性就在于它能够观察人类驾驶员并记录他们的行动和反应。欧盟修订了其《通用安全条例》,从2022年开始将睡意检测系统指定为欧洲车辆的强制性安全配置。该技术很可能建立在面部识别技术的快速发展及其令人印象深刻的成功的基础之上,同时该技术也是一个不断发展的行业的一部分——该行业投资于涉及人类监控的人机界面。
虽然显得有些未来主义(未来派),但是有标准睡意检测系统和其他能够持续监控人类驾驶员系统的汽车不会是科学幻想。除欧盟之外,还有一些司法管辖区已经允许自动化驾驶中的人机互动。例如,2017年6月,德国就此问题通过了一项法规,瑞士政府目前正在考虑最终允许全自动车辆的法律。美国多个州也有类似的法律。
在何种条件下一个设备只是一个工具,而在何种条件下它又会达到软件机器人或机器人的水平(而被视为软件机器人或者机器人)?驾驶自动化和驾驶辅助的应用,既体现了围绕使用人工智能进行取证的分界线,也体现了其灰色地带。利用实用功能测试,考察使用此类证据的事实问题,我们可以区分以下两种情况:一种是人工智能驱动的设备,它本身不传递任何信息(即仅仅是为人类使用者服务的工具),另一种是自主性程度更高,可以被认为是人工智能生成的、提供意见的机器证据(例如,评估人类驾驶汽车的能力)。只有后者会被要求在法庭上进行单独的可信性测试。自20世纪50年代以来,为汽车安装防抱死制动系统(ABS)已是常例。这种安全配置会进行自动顿挫制动,来防止车轮锁死,比仅靠驾驶员的制动能更有效地保持与路面的摩擦。防抱死制动技术已日趋成熟,但该技术仍被视为只是对非人类实体(路况)做出反应的东西,因此,它只是一个供驾驶员使用的工具,并没有添加它自己的任何信息,即它不会在制动过程中评估人类的表现并提供意见。
相比之下,睡意检测系统是驾驶辅助软件机器人,它通过观察和评估人类驾驶员的行为,并在驾驶员打盹时发出警报,从而提高驾驶安全。这些系统可以在驾驶员保留对车辆的控制时使用,或者也可作为接管-请求(TOR)助手的一部分。该系统发挥作用的技术可能包括监视转向模式、车道位置、驾驶员的面部变化以及驾驶员的坐姿。与防抱死制动系统(ABS)相反,睡意检测系统会添加自己的信息;也就是说,如果它们评估到驾驶员犯困要打盹,就会发出警报。然后,这个警报会被记录和存储,并有可能用作刑事审判中的证据。
2、实体法
近年来,由人工智能、机器学习和大数据操控的智能设备,已经开始在许多个人和专业领域创造新的机会。如今,数字化辅助可以帮助医生诊断预示着某种疾病的症状;智能住宅可以为年迈的居民、残疾人士或者寻求更多便利者提供帮助;自动驾驶可以分担驾驶责任,为那些想要在通勤期间获得一点额外空闲时间的人提供选择。
人工智能技术创造的这些新的可能性,大约花了50年的时间才得以公开。当学者们在20世纪50年代创造出人工智能这个词时,他们指的是创造 "智能机器 "背后的科学和工程。他们不太可能预料到人工智能的能力,它可以学习自我重组以提高效率,包括重写自己的代码。尽管如此,人工智能的进展并没有达到能够被广泛应用去更为全面的解决问题的程度,而只能处理特殊(特定具体)的任务,这也是它被称为狭义的人工智能的原因之一。
尽管人们期望的是自动驾驶或使用驾驶辅助技术会提升道路交通安全,但是随着人机互动的新的可能性的增加,造成损害(这种互动合作的一种后果)的可能性也增加了。当此类损害发生时,就有必要进行责任归咎。在这个方面,可以说,人工智能驱动的设备(或者其创造者)可能会被视为与人类使用者共同承担责任的潜在的被告。
就目前的情况来看,我们并不认为任何形式的人工智能在伦理上可以代理被告接受审判。它的智能在很大程度上是单一维度的,至少目前还缺乏反思和解释过去行为的能力。尽管如此,技术的发展已经引发了一场关于机器人责任的学术辩论,大家承认,虽然责任(Blame)是一种社会性建构(social construct),但在某些时候,社会不得不认为机器人是合适的责任代理人,那么责任就会扩张适用到机器。这种发展的可能性似乎与人工智能在不同领域能够准确评估信息的程度有关,也与它们能否发展出类似于人类常识的推理能力有关。
即使肯定那些否认人工智能代理的传统观点,人工智能不承担法律责任也不一定意味着它们就是中立的旁观者。在某种程度上,机器人或软件机器人可以被视为次要的(也许不一定要承担法律责任)嫌疑人,或者甚至是汽车制造者的代理嫌疑人。因此,虽然我们认为人工智能缺乏代理权和道德指针,但它可能会有一些过错,大多数人都希望它为这些错误承担一定形式的责任。例如,某睡意检测系统可能是不精确或者模糊的——它可能包括带有偏见的算法或者标准化数据等等。沿着这个思路,一些人工智能已经被证明在软件设计中存在有利于企业自身利益的 "自动偏差"。
当有人类受到自主运行的汽车的伤害时,谁应承担责任以及如何分配罪责的问题是紧密相联的。最早出现的一批法律问题是对实体法的挑战,随着更多的人工智能进入我们的生活,我们对代理的概念、罪责应该如何分配、谁是犯罪行为人(正犯)或者共犯等问题的理解很可能要发生变化。到目前为止,实体刑法倾向于将人类作为道德代理者、有能力的行为人以及某些情形下的刑事风险承担者。虽然国内立法者确实已经对于诸如公司等非自然人可以承担刑事责任的观点有更大的接受度,但起诉的基本理念仍然是只有人类行为才需要承担刑事责任。
3、人工智能和刑事审判中的证据周期
与之前出现的其他形式的技术一样,机器证据有可能成为新的信息源,从而为在刑事审判中更为准确地查明事实提供机会。然而,在刑事诉讼中引入无法解释某种结果的内在暗箱技术是要付出代价的。事实认定者将不得不决定是否采信人工智能生成的、专家也只能解释明白一部分的陈述。过去,法院反对使用呼气酒精分析仪等法庭鉴定工具,认为它们是"协助检方给公民定罪的魔法暗箱"。随着人工智能在未来数代法庭鉴定工具中越来越多地融入,法院对此问题保持怀疑态度是明智的。为解决消费者的需求而开发的人工智能,并不当然意味着它可以是为法庭提供证据的工具,这就对如何认定在消费品(如驾驶辅助)中产生的机器证据提出了新的挑战。
起初,人工智能在我们日常生活中使用的扩张,不太可能增加机器证据在刑事审判中对建构事实的重要性,特别是考虑到法庭过去对使用一切可用技术手段(如测谎仪)的犹豫态度,但持续的技术发展可能会转变法官的观念。随着人工智能的普及,如果这种技术能够对人类行为进行准确的评估,那么更多的人就可能愿意承认它是可靠的和值得信赖的信息源。尽管存在这种可能性,但这种信息能否以及怎样为法庭(court of law)所接纳,仍不清楚。早在人工智能出现之前,其他领域技术的发展也创造出了新的证据形式(如DNA检测),而当这些新的证据形式突然被引入刑事审判中的时候,就更加凸显刑事诉讼程序对此毫无准备。
1)从沉默的证人到数字分析工具
每当新型记录技术出现时,法院都面临着登记或记录手段是否可靠、准确和客观的问题。后文将把这一过程称为证据生命周期。这一周期涉及根本性的利益,因为它产生的法律问题超越了证据层面,涉及到重要的宪法问题,如对质条款(Confrontation Clause)。这还涉及到在刑事审判中使用新技术进行事实调查和专家证据基础的基本问题。值得注意的是,从比较的角度来看,目前美国学者的辩论似乎更集中于对质不利证词的权利(质证权—译者),而在德国,这种争论(仍然)主要是在隐私权的问题领域展开。
我们希望,法学者们最终能将争论统一在以下范围:人机互动过程中人工智能生成的数据的相关性和可靠性,以及由此产生的隐私权问题。一方面,一些人可能抛开隐私和其他方面的顾虑,会支持这种看似更为精确的新型评估手段,希望更准确地建构事实。另一方面,批评者可能会认为这种技术是侵入性的和容易出错的,并指出其设计和/或所使用的机器学习技术存在的缺陷。这种技术的功能在于,它在传统的沉默证人(如模拟摄像机或防抱死制动系统)、数字化法庭鉴定分析工具(如DNA测试套件或法庭鉴定的面部识别)和人工智能驱动的设备(如睡意检测系统)之间划出了界限。与前两者不同,这些人工智能驱动的设备通过对情境的独立评估传达它们自己的信息。
随着某种形式的技术进入我们生活的各个领域,数字化证据进入刑事诉讼程序也就不足为奇。有趣的是,"数字化证据 (digital evidence)"一词在教科书和法学期刊中被广泛使用,但它似乎并不是一个技术性的法律术语,而是对于在刑事侦查中和在法庭上以二进制形式存储或者传输信息的现象(或者需求)的描述。数字化证据可以存在于计算机的硬盘、云端技术为基础的存储(云存储)、手机或个人数字化助手、闪存盘(flash drives) 甚至数码相机中。数字化证据可以给人们提供大量的信息,包括电子邮件的内容、电子邮件的发送者和接收者的身份、摄像录影镜头的连续监控报告、移动位置的跟踪记录、浏览器跟踪信息或者社交网络映射数据(mapping data)。它可以是 "小数据",也可以是大数据的某一类,它可以由人类产生,也可以由机器产生。当下,它最常被用于起诉犯罪,但像DNA测试一样,它最终也有可能有利于辩方,因为使用者越来越意识到此类消费品提供不在场证明的能力。
以 "0"和 "1"编码的数字化信息给法院带来的迫在眉睫的问题是,此类信息想要发挥作用,必须由专家将其转化为类似(/模拟)形式。有时,专家只有在信息被解密后才能获取信息,此时还需要其他的专家来解释信息是怎样获得的以及信息的含义是什么。不过,如果仅仅是存储格式的问题,即信息只是以不同的形式存在(例如,以电子邮件代替书面说明,以JPG文件代替打印的照片等),那么这还不会给刑事司法系统的应对造成太大困难。
然而,随着技术持续快速发展,刑事侦查中的数字化证据很快变得更加复杂:呼气酒精分析仪配备了智能技术,提供个性化基因信息的DNA试剂盒向公众开放,而不再为执法部门所独享。虽然这种数字化分析工具可以由人工智能驱动,但它首先是一种仅供检测使用的测量工具,如检测某人呼气中的酒精含量。即便如此,基本的问题仍然是:事实认定者在什么情况下(以及为什么)能开始信任这项技术?什么条件下我们会达到这样一个程度,即技术变得如此受到信任,以至于它不再受到强烈而充分的质疑(挑战)?而在什么情况下又会对其值得的可信性产生新的怀疑?
2007年,艾琳墨菲(Erin Murphy)提出了将第一代法庭鉴定证据(如指纹分析、弹道学)与第二代证据进行区分的方法,区分的基础是第一代证据在适用、观测功能和机械功能十分有限并且设计狭窄;第二代法庭鉴定证据的特点是更为复杂、科学性更强,因此使用范围更广(如DNA分析、位置跟踪)。
法庭鉴定中的数字化分析工具可以与第一代证据(如指纹鉴定或者笔迹鉴定)区分开来,因为前者是由源代码而不是人的专业知识指导,而且更难看到其背后的运作基本机制。仅仅是这种透明度的缺乏就给查明案件事实中的可信性带来了巨大的风险,因为潜在的缺陷很难被事实认定者发现。虽然最近DNA测试的可信性引发了热烈的讨论,但其根本的技术却截然不同,因为DNA测试并不存在人工智能所能实现的代理(可能性),包括监控周围环境、评价人类行为和自主行动的能力。因此,机器生成的证据必须被视为第三代法庭鉴定的证据类型。
2)数字化分层和可信的事实调查
随着数字化复杂性的增加,获取相关信息变得更加困难,并需要(某些)事实认定者可能不具备的专门知识。法律对证据的可靠性和可信性的规定产生了额外的问题,这些问题不仅影响到证据的可采性(对抗式诉讼程序的一个关键要素),而且影响到证据的重要性(审问式诉讼模式中事实认定特别重要的一个方面)。
a.暗箱问题和专家证据
虽然使用者可能还看得见汽车中睡意检测系统的特定组件,但其背后的评估过程对使用者或法庭上的事实认定者来说并不完全透明。即使是被法庭传来解释机器证据的专家,在深入全面解释人工智能驱动的设备如何评估人类使用者的行为,或者展示清晰的因果关系链的方面也束手无策。正是这些问题构成了当下研究人员正在研究的机器证据中的 "暗箱问题"。迄今为止,研究表明,人工智能可以被解释的程度与系统准确性(或者其他性能目标)成反比。尽管如此,为了达到对证据充分的理解和对事实调查的值得信赖,我们仍然必须使用人类专家向事实认定者解释机器数据。但是说到准确的数据收集和评估,机器当属无可否认的超级优秀的 "专家"。
在事实认定者缺乏相关知识63]的情况下,利用专家来提高事实认定的可信性的道理在对抗制和审问制中都是一样的,不过其手段却大不相同。在对抗制中,专家证人通常由当事人申请传唤,并根据其专家认证资格、技能或经验在法官或陪审团面前作证,以协助案件的审理。在审问式制度中,如果法官认为他们自己缺乏相关知识,则他们自己主动寻找专门知识;专家证言一般在公开听证会上口头提供,但也可以以书面报告的形式提供。
无论事实认定者是陪审员还是法官,就一般的人的知识范围和理解能力来说,如何理解与可靠性问题有关的此类能自主进行评估的设备,以及设备在重构案件事实方面到底有用还是没有用等问题,都已经超纲了。正因如此,在查明事实中使用复杂的技术,使得专家证据在对抗式和审问式司法系统中都至关重要。
b.人工智能产生的机器证据
本文的重点是消费品在人工智能驱动的互动过程中产生的机器数据。与此相关的是,罗特(Andrea Roth)创造了 "机器证词 (machine testimony)"或机器证据这一术语,以区分仅仅作为协助人类传达信息的工具和智能机器,后者可以根据设备的设计和算法,登记和评估特定数据来传递它们自己的信息。潜在的基本的问题是,当所提供的机器数据被认为是所主张事项的真相时,是否应当适用与人类的陈述相同的保障措施。这将包括类似于与证人对质(和怀疑)的权利,以及在无法充分对质证人的情况下对相关证据排除的权利。
这场辩论主要集中在用于刑事诉讼的法庭鉴定工具上——即在后续进程中(可以)产生作为事实提供的证据的工具。围绕着为法庭使用而设计的数字化工具的可适用性问题另当别论,不是本文的重点。就机器生成的数据而言,它的生成并没有考虑刑事诉讼,而更重要的是,其产生过程中包括了机器对人类的观察和评估。
在睡意检测系统的情况下,各种来源的数据都会被记录,每一个数据都可以作为一个单独的证据。这些数据包括面部特征的观察、驾驶员是否困倦的评估、向驾驶员发出的警报以及驾驶员对警报的反应等情况。虽然其中有些数据并没有体现并传达出来自机器的评估,但很大一部分数据确实来自软件机器人的自主评估,而且传统工具和机器人之间的界限变得模糊。在刑事诉讼的事实调查中,如何处理证据产生中的可信性问题,将是区分单纯的工具和作为信息来源的工具二者的关键所在。
c.生成机器证据的消费品
连接人类和机器人的数字化界面经常被设计成针对消费品技术解决方案的一部分,比如自动化驾驶,如果这些数字化界面也能被用于执法目的,这些消费品就会提供巨大的可能性。
挖掘人工智能驱动设备的潜力也带来了大量的证据法方面的问题和在刑事诉讼中确定事实的一些问题,其中一些问题已经提到过【参见上文二3. 2). a】。机器人和软件机器人具有一种几乎无限的、不知疲倦的能力来记录所处的环境信息,并且由于它们能够持续记录、评估和归档人类行为,因此它们也不只是单纯提供测试结果那么简单。在自动化驾驶的情况下,这种持续的监测为判定人类是否适合驾驶提供了大量的数据。
尽管有能力收集大量数据,但人工智能驱动的设备无法解释它们自己是如何评估人类行为或者做出决定的。因此,执法部门和法院必须谨慎对待他们从机器生成的数据中了解到的信息。
d.应对证据方面的挑战
前面的解释已经说明,机器证据对很多方面都构成了挑战。首先,人工智能产生的信息是以数字化方式存储的,必须由专家检索调取出来并予以解释。其次,更重要的问题是,使用人工智能来评估驾驶员灵敏度(alertness: /清醒程度)的证言可能会被定义为专业意见,但由于人类的理解力受到黑箱问题的限制,许多细节无法解释清楚。尽管存在这些问题,但人工智能可能会扮演目击证人的角色,表明被告人的不法行为。人们担心事实认定者会像偶尔相信目击证人那样,毫不犹豫地相信这种陈述,这种担心似乎是有理由的。
迄今为止,机器证据能够可靠地转化为可理解的信息的具体手段尚不明确,相关的采信标准仍未统一。暗箱问题的程度似乎与机器人生成信息的准确性直接相关,这就限制了专家的解释和其他检验可信性的手段。机器生成的证据与更多传统类型的证据之间的根本差异,让审查人工智能证据真实性的传统手段失效。与人类证人不同,无论是机器人还是软件程序,都不能列于证人席上出庭,也不能要求它们宣誓说真话。它们也不会因为可能被起诉伪证的威胁就不撒谎。尽管存在所有这些问题,然而在人机互动不断增加的情况下,在与人类的交互协作过程中人工智能产生的机器证据仍有望提供大量可能有助于刑事调查的相关信息。
3) 证据周期和协助执法的消费品
判例法和学术研究表明,新类型的证据都有一个可预测的生命周期,开始于这个理论假设:起初,证据因为形式太新而不可靠;之后,它成为新的但要经过检验的证据,进而成为一般来说是可靠的但偶尔会出错或者被不适当地应用的证据;最后,许多这类证据达到了被盲目信任的程度。事后看来,这个证据的生命周期并非不可逆转——例如,DNA检验曾经被盲目信任,但现在却受到越来越多的仔细审查。逆转证据周期是一场艰苦的战斗,一场先要经历大量的人类痛苦的战斗。因此,当机器证据作为一种潜在的第三代法庭证据被提出时,其初始可采性的问题就显得尤为重要。这是因为,相关证据是通过使用消费品,由人工智能驱动的人机互动而自动生成的。虽然看似客观,但这种证据却容易出错,还是必须由专家来解释(至少部分解释)。
今天,我们大多数人认为,在事实调查中越来越多地使用机器数据,包括法庭(如DNA测试)和非法庭(如GPS的跟踪)技术,使得重建案件事实的准确性和客观性全面提高。然而,除了巨大的隐私问题外,这个假设还带有盲目相信机器准确性的风险,而且鉴于大多数人,包括刑事案件中的法官和陪审员,都不了解基本的技术,因此这个假设是有悖于直觉的。
虽然对抗制的学者(特别是在美国)越来越多地谴责对这种不透明机制的盲目信任,并列举了20世纪60年代错误使用呼气分析器和21世纪DNA测试的错误鉴定的两个例子,但在欧洲却没有出现类似的辩论。此外,尽管美国有这样的学术争论背景,但是对于审查已被广泛认定为可靠证据的诉讼请求,大多数美国法院仍然十分慎重。
这暗含的意思是,一旦达到了相关性和有证明价值的门槛,可能就会导致需要提高有用(useful)证据(而不是旨在误导和迷惑事实调查者的证据)可采性推定的标准。如果社会对人工智能驱动系统(比如说自动数字化驾驶辅助系统)的平稳运行已经建立了信任,那么在刑事审判期间当被告人试图挑战其所谓的完美无缺的功能时,法官可能会特别犹疑。这个问题可能与这样一个事实有关,即法官和其他任何人一样,不可能对审理的所有问题都有专家级的知识。这种局限虽然可以理解,但也可能导致被告人无法有效地质疑某些专家证据的相关性,因为这种质疑很可能误导陪审员。
在这个数字化的时代,我们还不清楚上述这种普遍问题将如何转化。随着人工智能驱动的消费品(如自动化汽车)的增加,评估机器证据的可信性问题可能会变得更加紧迫。随着高科技产品的增加和普及,随着机器证据在证据生命周期中的后移,特别是从太新而不可靠的阶段到新的但有待测试的阶段,其可信性也将变得日益重要。
机器证据目前仍处于第一阶段,其中原因有很多。首先,迄今为止,还没有已受认证的程序来支持生成的机器数据在刑事审判中使用的可靠性,因为这些人工智能产品的设计并不是为了准确记录用于刑事审判事实调查的具体数据,而是为了满足更广泛的消费需求。此外,这些数据由私人或者公司拥有,并存储在云系统中;而在云系统中,这些数据还可能被制造商以商业秘密特权为由进行加密和屏蔽。
在这一点上,政府方对于消费品产生的任何一项机器证据的可靠性几乎一无所知。以睡意检测系统为例,在驾驶员不知道的情况下,算法的编写者可能将监测人类行为的智能系统设计得有些偏颇,从而使其将责任从汽车本身转移到人类驾驶员身上,以保护企业的自身利益。
造成系统输出不精确的方式有很多,包括编程阶段的人为错误、有偏见的算法或者有偏见的标准化数据,等等。相较于更受管控的政府设施,能够产生数据信息的消费类产品可能更容易存在不易为我们察觉的(可能是无意的)主观倾向。即使假设使用狭义人工智能的制造商会确保机器证据的最佳中立性,计算机工程师也会在无意中、不可避免地造成误差。以睡意检测系统为例,选择某些特定的设计来捕捉驾驶员的脸部表情或者身体姿态,以及为实现一定功能而做出的牺牲,都可能会导致严重的后果。例如,需要考虑到不同种族之间眼睑位置的差异,以避免将个体差异错误地解释为困倦的迹象。类似的保障措施亟需制定,以确保算法设计特定程度的透明和真实。
三、法庭上的人工智能:比较视角
基于比较,本文建议对德国和美国的刑事司法制度在机器生成的证据方面进行重大改革。德国必须增加被告人可用的法律手段,而美国则需要通过诉讼双方对专家庭外陈述和报告的承认、分享,继续扩大被告人获得法庭证据的机会,以优化向事实认定者提供的客观、科学的证据。
1、对真相的追求
在任何刑事诉讼中,事实调查的主要目标是确立真相。在德国和美国,人们寄希望于法院根据 "真实的"事实作出有罪或者无罪的决定,因而真相的确定代表着极大的公共利益。今天,这两种制度都以某种类型的辩诉交易(plea bargaining)来结束大多数刑事诉讼,这一制度并不一定与其寻求真相的承诺相矛盾,因为这两种制度运行的基础,都是假设被告人的坦白悔罪会揭示真相。
当然,以寻求真实可信的证据为基础,这两种法律制度有着类似的规则,包括独立、公正的法官以及围绕证据程序的形式要求。尽管如此,对抗式审判和审问式审判所采用的程序方法还是非常不同。产生这些不同最主要的原因在于事实调查主体的不同:在审问制中,事实调查机构是由法官和非专业人员组成的全体法官(/法官席bench),而在对抗制中则是法官或者陪审团。这种差异塑造了证据规则,包括如何使用陈述来确立事实,以及是否有必要作出经得起上诉审查的合理判决。这两个司法管辖区追求真相的共同目标(尽管在程序上不同),以及它们对自动化驾驶和人工智能驱动设备的信任,就促成了有趣的比较研究。
2、对抗制和审问制法庭中的人工智能
近年来,随着人们越来越愿意与技术和人工智能驱动的设备进行互动,机器监测人类行为的机会大大增加。由此产生的机器证据可能会有力地促进事实调查,但是由于缺乏特定的工具来彻底审查其可靠性或者有效性,审问制和对抗制都必须依靠专家证人向事实认定者解释这种肉眼无法理解和把握的证据,因此,目前世界各地的刑事司法制度还不具备充分处理此类数据的能力。
1)现代法庭上的机器证据
在传统的证据与程序设计中,人们以正式的方式交流沟通、寻求真相,但是机器证据并不适合于此。因此,人们要么选择创造一种全新的模式来评价机器证据在刑事诉讼中的可靠性,要么重新思考现有的证据类型,并检视法律制度和司法过程中的薄弱环节,看看法官、检察官和辩护律师是否能够在现有法律制度的框架内,以某种方式充分审查此类证据。
对于在刑事审判中机器证据的使用来说,专家证人至关重要。除了解释特定自主学习设备的影响、说明造成事实发现错误的可能原因外,他们还必须捕捉并释明特定数据是如何被记录的。在对抗式诉讼中,专家证据通常被用作案件当事人的部分陈述;而在审问制的调查中,检察官通常会委托专家,随后将他们的报告加入到案卷材料当中。需要注意的是,这些报告往往只是描述方法、解释结果,并不解释如何测量原始数据,也不说明数字化证据手段是如何设置和使用的。因此,还不等辩方能够提出主张,质疑不同形式的证据为何应该或者不应该进入事实调查,专家报告对案件的叙述就已经纳入了卷宗。如果案卷中有证据报告,法官可以根据书面报告选择采纳专家证据,可以传唤专家出庭作证,也可以召唤其他专家提交新的报告。法官还可以预见到进一步收集事实的需要,并在口头审理时传唤其他专家。
在德国,辩护律师在审前调查结束前可以查阅整个案卷卷宗,并能请求法庭传唤专家出庭,以便对其进行询问。如果律师对专家的可信性有严重怀疑,他们可以带他们自己的专家到庭(只要有相应的资源),但法官作为事实调查的推动者,并不是必须听取这种证词。如果在法官看来,被质疑的事实已经被第一个专家意见明确证明(或反证),德国法律允许驳回(基于怀疑的申请)。值得注意的是,这一规则不适用于以下情况:"第一位专家的专业能力受到怀疑,或者其意见基于不正确的事实,或者意见内容中有自相矛盾的地方,或者新专家掌握的研究手段可能优于前一位专家 "。随着证据在证据周期中位置的变化,这一法律规定有着不同的适用:法官更有可能允许多个专家对一项新颖的法庭技术发表意见,但是却很难倾向于请第二位专家对一项普遍可靠的、甚至是被盲信的证据发表意见。
德国的诉讼法是在十九世纪发展起来的,但是它至少在某种程度上受到了来自二十世纪五十年代欧洲人权法院(ECtHR)的判例法中对抗性理念的影响,该著名的人权法院是以《欧洲人权公约》(ECHR)为根据建立的。特别是公平审判的理念,包括审查定罪证据的权利(《欧洲人权公约》第6条),对欧洲大陆的事实调查产生了深远的影响,并常常成为救济传统的审问制对个人权利保护不周时的手段。根据《欧洲人权公约》第6条第3款(d)项,用质问不利证人的权利来质疑机器证据的可靠性的想法短期内不太可能被德国法院接受,但最近来自高等地区法院(即州的最高法院)的案例法确实表明,越来越多的法官可能对允许获取所谓 "原始测量数据(实测数据)"的想法持开放态度,以便更彻底地审查类似数字化雷达枪一样的机器证据。这些判决力求实现“双方信息平等(knowledge parity)”,以努力达到关于《欧洲人权公约》第6条的欧洲判例法基准,进而实现控辩双方 “武装对等(equality of arms)”,并强化辩方在法官面前的庭审地位。这一理念,虽然看起来是对抗性的,却是欧洲人权法院以大陆法和普通法传统为基础,建立一种跨法域的程序公平理念的尝试结果。
这种新的论证思路在某种程度上与美国学者的呼吁相类似,即把机器证据看作是当事人提出的、为证明己方主张的真相(并且需要语境)的庭外证词。即使人们认同,人工智能驱动的设备因其具有精密的设计、标准化数据的基础或者内置机器学习软件,而应接受与证人类似的可信性测试,也必须意识到,一旦这一论证观点被接受,可能会不恰当地使此类机器处于近似于自然人证人的地位。
为了说明这一点,如果让汽车中的人类乘客出庭作证来证明被告人的驾驶能力,证人在感知能力、潜在的偏见、错误的判断,甚至是故意撒谎(有可能被起诉并受到因伪证的刑罚处罚)等方面都会受到对方质问。就目前而言,即使仅仅是评估人类使用者并得出结论(比如驾驶员是否具有操作车辆的能力)这一方面,人工智能驱动的设备也无法接受相当于交叉询问(cross-examination)的同等审查。如果人工智能作出的这种测定被用作证据,法庭就应当特别审查它的设计、算法和机器的学习(/训练)数据方面。
考虑到人工智能驱动设备的复杂程度,以及企业保护自己商业机密的愿望,对设备内部运作的彻底评估和理解就只能在法庭之外进行,这使得事情就变得异常复杂。结果就是,在对抗制中,这种评估将不可能被庭审接纳。相反,只能请专家作为一种代理人,与特定设备直接接触之后,再出庭汇报检索、审查数据的结果,以及对设备的可靠性和有效性的判断。
2)机器证据关联性和可靠性的检测
在德国或美国,只有具备关联性和可靠性的证据才能在法庭上提出。虽然德国法律缺乏明确的有关证据可采性的要求、如何确定证据的可靠性的通行规则体系,但法院遵循的原则是,所有具有关联性的证据都应被认作其寻求真相任务的自然组成部分。
这一原则在普通法中也有规定,例如《美国联邦证据规则》在第401条和402条。虽然只有具备关联性的证据才可以被采纳,但并不是所有具备关联性的证据都可以被采纳。如果证据与其所提供的证明或者反驳的事实之间有特别的联系,该证据便是具有关联性的。不过这种联系不一定要强烈到仅凭单一项证据就可以决定某事实的可能性,如果该证据能够成为证据信息链中的一个环节,那就足以满足关联性的要求。设备在监测人类驾驶员的脸部表情时,或者因启动睡意警报时收集的数据可能具备关联性。但是,如果驾驶辅助系统对驾驶员行为的总体评估,被纳入证据之后与排除它相比,使一项重要事实更有可能或者更不可能,那么该证据也可能具备关联性。
有许多规则会导致可能具备关联性的证据被排除,包括《美国联邦证据规则》第403条,该规则授权法官在一项证据的证明价值与接受该证据可能造成的损害之间进行权衡。该规则还规定,如果相关证据的证明价值被不公平损害、给事实认定者造成混淆、被认为是在浪费时间或者具有积少成多的危险性后患,则应排除该证据。如果来源可疑,证据也会被视为不太可信。因此,如果法官认定触发汽车中的睡意检测系统的原因不足以证明驾驶员是否犯困了,他或她将排除该证据。虽然法院倾向于对第403条进行狭义解释,但很大程度上取决于法官的推理,特别是在证据是否会迷惑或误导陪审团的问题上。鉴于机器生成的数据具有高度的技术性和有限的解释手段,这个问题特别关系到机器生成的数据所固有的暗箱问题。
证据除了需要具有关联性外,还必须是可靠的。例如,测谎仪所得证据缺乏可靠性,因此,美国联邦法院一般禁止使用测谎仪。用托马斯大法官在Scheffer案中的话说,"对于测谎仪提供的证据是否可靠,根本没有达成共识。"不过,一些联邦上诉法院已经放弃了这一排除规则,而是根据Daubert案确立的原则(多伯特标准)将采纳或排除的决定权交给地区法院自由裁量,为将来判断新技术的关联性和可靠性留出更多的回旋空间。随着人工智能技术越来越有用且普遍,法官的态度可能会继续改变。
鉴于欧洲法院对使用测谎仪并未明确表态,人们可能会猜想,类似美国的情况是否会很快出现。1998年,德国联邦最高法院(Bundesgerichtshof)认为测谎仪证据是 "一种完全不合适的证明手段",没有任何证明价值。法院还认为,测谎仪对身体机能的测量,特别是对数据的登记和评估,缺乏足够的科学依据,不能被视为可靠的证据。
尽管世界各地的法院对测谎证据态度不一,但技术仍在不断发展,人工智能驱动的面部识别技术和其他通过机器监测和评估人类行为的程序被使用的越来越多。因此,如果继续认为机器生成的证据不足以评估一个人的精神状态或预测人类的行动,刑事法庭可能会面临更大的困难。关于睡意检测系统,有证据表明,它们能很好地预测驾驶员短暂的打盹,正因为如此,这种技术将成为欧盟车辆安全措施的一部分。因此在欧洲,机器证据可能不久就会进入证据的生命周期。
3)使用书面报告引入机器证据
如果机器证据被确定为足够可靠,那么是否可以在审判中以专家提交的书面报告的形式提出(而不是通过口头证词提出)证据?或者,因为机器的认定被作为所主张事项的真实性而提出的,从而引发了对质权,包括证人质询和传闻规则,这类报告是否会被排除?在德国,只要双方当事人信任法院指定的专家,并且可以通过案卷共享充分查阅报告,原则上这种报告是可以接受的。然而,在美国,鉴于长期以来对证据可信性需要进行当庭评估的传统,以及对何为"证词 "(及其构成)有很宽泛的不同理解,此类报告提交庭审可能会遇到相当大的阻力。
a.德国
在德国,刑事审判中的正常操作程序是,检方在诉讼程序初期将实验室报告列入案件档案。这类文件将说明检察机关或法庭任命了一名专家来评估案件的是非曲直,并包括专家进行的测试和随后的结论。不过,实验室报告一般不会透露实验室机器的细节,比如雷达枪这样的数字测量设备。只要该设备已被认证为证据手段,测量的原始数据和数字设计的细节一般不会向被告人披露。例如,在案件中,睡意检测系统提供的作为证据的数据报告可以包括诸如:驾驶员是否被提醒、何时被提醒疲劳驾驶而不能开车,以及专家计算出的警报强度随时间的变化;但是目前报告还不会包括软件设计、机器学习中使用的方法或者机器训练数据等细节。
事实认定者(本案中的法官)可能会接受这类报告、将其作为专家证据,即主张例如睡意检测系统的咖啡杯信号亮起是事实,但也可以作为补强证据(corroborative evidence)以证明驾驶员疲劳驾驶没有停车休息;这些可能意味着驾驶员在当时的情况下没有尽到应尽的注意义务,甚至可能达到轻率的(过失)程度。法官作为审讯程序中事实认定的天生推动者,也可以选择指定另一位专家提供新的报告,或者在言词审理中传唤更多的专家来评估机器的结论。目前,我们尚不清楚为了确定 "真相 ",可以对人工智能驱动的设备进行多少修补或者评估,以及人们认为进行多少次修补或者评估是必要的。然而很明显,至少在理论上,法院指定的专家有足够的时间和强有力的手段,借助那些指定他的检察官或者法官获取必要的数据。
在调查阶段,被告人可以通过向首席检察官提供专家报告,非正式地提供专家证据来支持其主张。当然,这取决于被告人是否有财力聘请专家,以及是否能获得必要的案件资料。这样的报告一旦产生,就会被控方加入到案卷材料中,然后被告方就会提出自己的证人意见。这样,案卷中的所有文件就成了法院调查真相任务的一部分,在案件进入审判之前,所有当事人都可以查阅案卷。
审问式司法程序是建立在以下一般假设基础之上的:法官作为专业人员,在每个案件开始时都是公正的,并且有足够的经验来识别不可靠的证据。关于法庭的科学证据(forensic evidence)*,人们对与检方密切合作的各政府机构给予了很大的信任,而检方也必须寻找既能定罪又能免责的证据。米里扬达马什卡(Mirjan Damaška)认为,欧洲大陆阶段分工的案卷移送制度和非对抗性的诉讼传统,很可能是导致其缺乏明确证据规则的主要原因,而且这个问题在未来可能持续存在。然而,审问制的一个特别重要的方面是允许在法庭外对专家进行充分的询问,人们也可以说,缺乏明确的证据规则为更灵活的制度选择提供了余地。
虽然如此,信任法官足够开明、执法机构足够公正显然是理想化的,而且需要人们对国家抱有很大的信心。传统上,所谓的安全网是通过上诉法院对事实的认定进行审查而形成的。因此,在实践中,法官在执行诉讼程序时,都会考虑到上诉审查的可能性,因此,尽管缺乏严格的证据规则,但证据审查的程序是可以预见的。相应地,法官有义务在判决书中解释自己为何如此评价证据,法官的说理可能是全面的,这有利于法律程序透明化,但法官的判决也可能导致武断的千篇一律、一刀切,后者在上诉时或许能经得住审查、维持原判,但是却没有顾及到特定案件的具体情况。
鉴于在调查阶段有各种方式获取证据,机器证据在这个制度中的发展路径就有些难以预料。机器证据会如何发展,在很大程度上将取决于检察机关,他们很早就通过案件卷宗设定了事实调查的蓝图,也取决于法官,因为法官最终决定一项证据在成为确定真相的可靠依据之前,到底需要受到多少审查。有趣的是,在过去的几年里,经过认证的数字化证据工具围绕着案卷的获取范围,或者更广泛地说,围绕着“信息对等”的理念,引发了一场激烈的辩论。从目前的情况来看,检方或者法官只是将专家报告加到档案中,以便辩方查阅,但是报告并不包括数字化工具是如何工作的详细信息,法官也不向辩方提供任何收集或者获取这些信息的手段。最近,各地区高等法院的判例法对这一不足之处进行了审查,但联邦法院尚未就此作出裁决。不过,看来今后专家很可能会提出比现在更加详细的机器证据,无论是采取书面报告还是口头报告的形式。
b.美国
与欧洲大陆相比,在美国记录不出庭的专家调查结果的报告会遇到更多来自辩方的阻力。也就是说,在现行的证据制度下,法院在法庭上询问证人时,往往依靠法律备忘录和科学文件资料,而不是口头听证。这种做法是否也应该适用于在法庭上出示的机器证据?反对这种新事物的学者们已经详细解释了使用机器证据在设计上的缺陷(暗箱问题),同时其他的人机错误也会导致的不可靠的事实认定。他们将这种缺陷比作隐藏在证人证言中的传闻危险,因此反对采用书面证据的提议。
传闻规则是否以及何时应适用于专家报告,或者是否应将报告(和其他书面证据)作为事实的主张予以接受,这是一个有争议的问题,判例法也尚未作出任何澄清。下文的论述也是证人证据问题讨论的一部分【见二、3、3)】。值得注意的是,有学者提出这样的论点:就机器证据而言,用多样的代替性方案取代要求严格的言词(口头)听证,对于需要复杂手段才能全面检测的智能仪器来说,可能更为有效。鉴于当今的法院和立法机构往往更愿意进行庭外的评估和实验,这一主张可能会得到支持。
从比较的角度看,如果机器证据可以作为书面证据提出(例如,作为传闻规则例外的实验室报告),其可信性可以通过披露来评估。换句话说,被告人将有权与执法部门对证据可靠性有同等程度的了解。根据传闻例外所采纳的庭外机器的或者自然人的主张,可以通过辩护方主张机器是陈述人(declarant)来进行测试。辩护方可以利用 "陈述人"任何前后不一致的叙述来质疑其可信性,包括引用睡意检测系统的有效性测试(亦或缺乏有效性测试)。
在消费品产生的机器证据的案件中,披露手段是否足以检验其可靠性是个值得怀疑的问题。首先,与民事案件中的证据开示规则相比,刑事被告方在开示期间获取证据的权利并不是特别强大。此外,判例法提供的旨在强化披露规则的救济措施,也不能满足作为消费品副产物的机器证据的特殊需要,更何况相关数据由有利害关系者掌握。基于第十四修正案的正当程序条款,Brady v. Maryland案规定,控方有义务向辩方提供任何可能合理改变审判结果的实质性证据。因此,近年来,检方的法庭证据披露给被告方的范围扩大了许多。
尽管有这一义务,但在消费品产生的定罪性机器证据的案件中,检方往往不掌握那些有可能会破坏法院对汽车驾驶辅助系统所产生的数据的信任的材料。睡意检测系统所使用的源代码、机器训练数据和算法通常会由汽车制造商掌握,制造商可能会以商业秘密特权为由拒绝出示这些材料。因此,被告人如果想寻求质疑这些数据的可用材料,就不能仅仅依靠检方已经掌握的东西。机器证据不同于专门设计用于事实调查的法庭数字化工具(如呼吸测试器或者DNA采样),因为《联邦刑事诉讼规则》强制要求披露后一类信息。尽管有这一规则,但法院一直不愿意批准披露任何用于编制最终报告的 "基本文件",尤其拒绝披露使用的数字化工具进行法庭电子取证的文件。类似的问题很可能出现在人工智能使用大数据进行预测的情况中。此外,法院将如何应对作为证据的、由消费品产生的数据,还有待观察。
如果被告人试图质疑来自 "智能机器 "的陈述的准确性,如睡意检测系统,可能需要访问源代码以了解它是如何编程的。被告人可能还想了解机器的学习算法,以审查其他方面的信息,例如在人工智能驱动的过程中,为了进一步提高效率和有效性而做出了何种牺牲。正是在这样的背景下,学者们要求适用"数字化布雷迪(digital Brady)"规则,或者公开特定数据的生成程序,以及公开这些数据的可靠性信息。虽然这种呼吁的严肃性无可非议,但现实情况是,大多数刑事诉讼程序都以辩诉交易告终(典型的情况是,被告人并不完全理解对其不利的机器证据的证明价值),因此也就没有质询证人的权利。资源问题也始终是一个决定性因素。因此,即使有数字化布雷迪的披露规则,也只有在以下情况中才发生作用:即使在认罪之后,被告人仍然能够主张自己的证人质询权,也有机会和资源聘请己方专家对证据进行批判性评估,并提出适当问题。这也使得人们更加关注经济拮据的被告人,关心他们目前实际可采用何种手段来质疑证据。
4)机器证据与情景化和质询的需要
当机器证据被作为事实真相提出时,法律保障措施无论是在德国(如查阅案卷、直接言词原则、证人出庭义务和对质权)还是在美国(如对质和质询证人的权利、反对传闻的规则),都不能保证有效的事实调查,因为这两种制度都缺乏足够的手段在法庭上 "对质 "这类证据,并对其进行彻底的审查,以及为事实认定者提供必要背景。
如果假设通过书面报告提出的机器证据可以作为预先录制的证词,作为所主张事项的真相提出,那么问题就有根本上的不同。根据最高法院在Crawford v. Washington一案中的裁决,一项被视为属于证供性质的陈述,不得针对被指控人在审讯中提出,除非被指控人已经有机会质证作出该陈述的人,而后者又无法在庭审中作证。然而,如果一份陈述不被视为证言性质,则对质条款对采纳该陈述不会构成什么障碍。
"证言 "一词的含义,或者说,哪类证人会触发对质条款,一直是激烈辩论的主题。在欧洲,欧洲人权法院曾处理过第6(3)(d)条下的对质权产生的一些诉讼。美国的主流原则规定,如果控方证人不能在审判中作证,则除非辩方事先有机会通过交叉质询对该等陈述提出质疑,否则控方证人的陈述必须予以排除。欧洲的学说(原则上)则含糊得多,因为欧洲人权法院目前采用的是在Al-Khawaja & Tahery v. U.K.一案中首次提出的三步分析法:(1) 审判中证人缺席是否有充分的理由;(2) 定罪是否完全或决定性地基于缺席证人的陈述;(3) 是否存在足够的平衡因素,"以补偿因采纳未经检验的证据而给被告造成的障碍,并确保整个审判是公正的"。"欧洲人权法院在最近一个涉及德国的案件中适用了这一检验方法,强调审判法院有义务 "谨慎对待缺席证人的未经检验的证据",并寻找确凿的证据,这说明了这一判例法的不可预测性。
虽然对美国权利的严格解释在实践中可能也在减弱,但学者们坚持认为,宪法保护要求证人宣誓,并由被告人亲自对质,在交叉质询下坚持其主张。为了防止虚假指控,使得事实认定者更准确评估陈述的可信性,通常宣誓作证者也需要出庭,以便事实认定者能察其言观其色。
但是以上问题在机器证据的情况下显得毫无意义,因为它不可能在法庭上经历类似的审查过程。将人工智能驱动的设备替换成它的创造者的方式,似乎也不太可行。这不仅仅是因为人工智能的制造和操作通常涉及到许多个人,即便在使用了可以自主学习的机器的情况下,也没有一个人能够完全解释机器人的行动。在审核自然人的证词时,我们希望知道特定的事实因素是如何被感知并考虑的,以及这些因素如何导致人类得出特定的结论,但是今天的技术下,人工智能还无法回答这些问题。尽管人们在"可解释的人工智能"或者可被人类解释的机器自主学习模型的开发以及能够自我解释的人工智能的创建方面已经做了大量工作,但在可解释的决策方面,有意义的进展微乎其微。鉴于某些信息可以仅从其系统中获得,对人工智能进行充分的审核似乎是不可能的;但研究人员仍在努力实现这一目标,尝试使人工智能自行解释内部运行机制。最近,在教会图像识别软件展示其做出结论的证据基础这一方面,各方科学家小有进展。
目前,我们需要功能相当的手段来评估人工智能的陈述,这不仅需要专家证人的解释,而且要提供机器运行的全部过程,具体包括:数据的输入、数据如何被处理以及直接来自机器的、而不是经过专家解释的一手运行结果(就像我们不允许专家作为人类证人证言的中间媒介一样)。
a.德国
在德国法律中,人工智能驱动的设备得出的结论是否就类似于人类证人一样可以得到准确评估,这起初是个悬而未决的问题,因为德国法律没有规定人类证人的真正对质,而且德国没有类似于对抗式的传闻规则,也没有实质性的交叉询问程序。这主要是因为评估消息来源可信性的不是由非专业人士组成的陪审团(对案情了解不够)进行,而是由具有审判经验和了解案情的人组成的陪审团。不过,德国的刑事司法制度确实也承认,根据事先准备好的案卷进行审判存在特定的风险。为了防止检察机关的调查预先干扰法院的真相调查任务,法庭应当遵守所谓的即时审理原则:该原则规定,法院只应根据公开审判中的言行作出判决。庭审过程的审问性质允许法官采纳在普通法体系中会被视为传闻的信息。基于对专业法官的事实调查能力、对人性的洞察力和自身公正性的坚定信任,法律规定赋予法官权力,允许他们自己判断,决定给证人或专家提供哪些案件事实背景是合适的。
作为事实的认定者,法官的任务是听取所有相关证据,并自由地(不带偏见地)评估这些证据,以确定其证明价值。初步比较一下德国的刑事诉讼程序就会发现,它缺乏类似于对抗式司法管辖区的可信性测试。不过,通过欧洲人权法院在《欧洲人权公约》第6条中围绕对质权的判例法,使得被告方询问不利证人的权利得到了显著加强。该条款规定的公平审判权在机器证据方面,变得更加重要。在最近的案件中,由于事实调查的基础是数字化工具(例如雷达枪)产生的证据,这一权利几乎成为被告方要求信息平等的第二位救济。这也揭示了在案件卷宗缺乏相关信息,且检方或者法官又不愿意赋予辩方适当反驳检方主张的手段时,传统德国法律在充分救济方面存在的空白。
审问式传统允许在诉讼程序中使用传闻证据,这是它与对抗模式的若干根本的区别之一。乍一看,人们可能会认为德国的制度与美国坚持严格适用传闻证据规则形成了鲜明的对比。然而,仔细比较德国和美国的联邦证据规则,就会发现这两种制度之间的一些共同点。例如,两者对于详细说明实验室调查结果的报告都采取了类似的办法,包括必须传唤谁出庭解释实验结论。
在德国,事实调查中阐明可信性的机制可能不像在对抗式管辖区那样透明公开。与其他审问式制度一样,德国法院的事实调查它在很大程度上依赖于涉案各方的参与,以帮助在整个调查过程中确定真相。这一过程以法官在最后事实调查之前传唤相关证人参加口头听证会结束,但直接言词是不变的原则。
这种直接言词原则是德国制度中最重要的保障措施,目的是实现事实认定者与信息来源之间的直接接触。通常情况下,所有的证人都必须出庭,或者引用德国诉讼法的规定,"如果对某一事实的证明是基于某人的观察,则应在主审庭审上对该人进行询问。不得以宣读以前的询问记录或宣读书面陈述来代替询问"在数字化证据设备的情形下,问题就出现了,因为其对设备的分析是在法庭之外、在该设备的"封闭的门(closed doors)"中进行的。
由于法律改革和对法官的高度信任,对证人陈述的可信性的评估由法院负责。证人不会被安排到 (控方或者辩方) "一方"(选边站队),而是中立的,作为法院整体真相调查任务的一部分;控辩双方询问证人的权利,其行使方式也不如对抗制的当面诘问形式正式。鉴于德国的这种诉讼结构,要求对作为准证言提供者的机器人进行相当于对证人的询问,似乎并没有不合理的地方。
德国法律界将如何应对这一问题尚不清楚,特别是考虑到随着时间的推移,作为保障质证权盾牌的直接言词(原则)已经漏洞百出。虽然程序法一般都是建立在传统的判例之上,即法院必须仅以公开审判中的言行为依据,但今天的德国法律规定了一些例外情况,将缺席证人的证言也纳入可接受的证据,因此,原来的最佳证据规则已经失去了基础。此外,当"疾病、体弱或其他不可克服的障碍 "使证人、鉴定人、甚至是同案被告人 "长期或者无限期地 "无法在主审中出庭,或者 "公诉人、辩护律师和被告人同意宣读证言"时,那么记录证人、专家、甚至是同案被告人审前的质证的书面记录可以代替其口头质证。
这些例外情况既给机器证据带来了风险,也带来了可能的解决方案。一方面,它为在法庭外彻底测试人工智能驱动的设备提供了空间,以便为事实认定者提供相关文件,也是为评估机器证据可信性提供基础。另一方面,它也带来了机器证据不被当作证言证据的风险,这就使得机器证据在没有经过充分审查的情况下,最终可能进入事实认定环节。如果我们认为,人工智能可以通过对人类使用者行为的评估作出自己的判断,我们会希望知道人工智能输入的数据类型是什么,以及它是如何得出特定结论的;这些与我们会向出庭作证的人类证人提出的问题其实是一样的。因此,问题仍然是如何充分评估人工智能以确保证据可信性。
b.美国
如果联邦法院将机器证据视为一种预先录制的证人陈述,需要接受交叉询问以确定其主张的真实性,那么谁会被传唤到证人席?是机器?还是机器背后的人?
有趣的是,这个问题引起了美国法律学者的激烈争论,但它也暗示了对抗制与审问制的交叉融合。在美国对抗式诉讼制度的集体记忆(传统观念——译者)中,传闻证据排除是不可或缺的。在Crawford一案中,斯卡利亚大法官解释了为什么在美国法庭上向裁判官提供的证词通常是不充分的,尽管在大陆法系司法管辖区认为并不如此。虽然在审问式事实调查过程中,证人证言和专家证言可以由双方当事人和法官进行评估,但是在对抗式诉讼中,这些信息仍然是不可采纳的,除非属于例外情况。因此问题就在于:证据的可靠性和可信性的基础是某一项复杂的技术,而这项技术的运作原理必须能被人们理解、被后续测试,并能向事实认定者充分解释。正是由于这个原因,一些学者认为,应当扩大现有的可信性测试形式,或者为机器证据创造一个类似于测试证人证言可信性的检测方式。
克里斯提安舍斯曼(Christian Chessmann)提出了一个想法,即询问创造相关机器或软件的自然人,而不是试图将机器人送上证人席。虽然这是一个合理的想法,但对于法院来说,这一提议也有不便之处。鉴于询问证人往往涉及到对其可信性的质疑,为了质疑像自动化汽车这样由人工智能驱动的设备所产生的数据,法庭必须传唤大量的证人到庭,因为至少在本案中,设备依赖于许多 "驾驶辅助系统",而每个这样的辅助系统都有自己的源代码和机器学习的标准化数据。
作为该领域的早期学者,安德烈亚罗斯(Andrea Roth)提出了一条新的路径。根据定义,传闻仅指人们的庭外陈述,但是她指出,在数字化时代, 人们被持续关注的“传闻“所误导。在分析智能机器的诸多潜在缺陷时,她鼓励采用一种新的形式——质询非人类实体证人。这与典型的法庭测试的要求有所不同,但于对抗制和审问制两者都可以适用。
与其对负责设计具体软件的程序员进行口头质询,不如在审判前通过让双方获得某些信息,以便发现机器在错误的设计和数据生产方面存在的总体上潜在的缺陷。理想的情况下,此类信息包括源代码、标准化数据和训练数据(在适用的情况下尊重商业秘密),以及对机器进行实验和分析算法系统的可能性。对机器的这种测试可能相当于庭外的"对抗",随后需要由参与评估的专家向法院介绍以上的所有内容。
5)机器证据通过专家证言翻译的必要性
由于必须对人工智能生成的数据进行解释,机器证据和专家证词密不可分。在德国的制度中,法官作为事实调查者,通常会在认为自己缺乏必要的专业知识时聘用专家,但被告人却几乎没有可采用的方式质疑法院的专家证据。在美国,由于专家由当事人一方聘请,所有可能存在偏袒、片面的陈述,所以这些专家提供的结论有可能不再只是一般的科学知识,而是误导事实认定者的内容。当经济拮据的被告人没有资源聘请受人尊敬又有经验的专家时,面临的这种风险会更大。
如前所述,专家对于在刑事审判中使用机器证据至关重要。除了处理和评估与事实调查有关的数据外,专家还必须捕捉固定、解释机器人是如何输入这些数据的。当人工智能的评估结论或者其他数据被认定为证据时,人工智能本身在某些方面就充当了专家证人。例如,人工智能驱动系统能通过分析人类无法理解的大量数据,判断分析人类的面部动作。这超过了人类自身的能力,人类专家即使有足够的时间对人工智能进行质疑和评估,也往往无法解释操作过程和结论的所有细节。这就是机器数据问题的症结所在。人类仍然需要能帮助他们评估证据的可靠性和可信性的、对证据的解释,这个问题仍然亟需现代法庭解决。
在审核人类专家证言时,程序法一般允许对专家得出结论的过程进行评估。在人工智能生成的信息被认定为证据时,类似的评估也是必须的,但很可能有不同的评估模式。尽管如此,事实认定者必须明白机器如何收集信息、评估信息并做出判断。最好的方式是事实认定者直接了解人工智能驱动的设备或者软件本身,但就目前的情况而言,我们不得不借助于人类专家的解释去理解智能设备的运行,而专家的解释又受到暗箱问题的限制,我们还要考虑到这一不利事实:解释若追求能被普遍理解,就必定会失于精确。那么问题就来了,面对一个既不能为自己说话,也不能解释其评估结论的人工智能驱动的设备,人类专家虽然可以对它进行解释,但是又如何保障专家证言背后可能存在的对于可信的事实调查的风险呢?
a.德国
一种行之有效的方式是,允许对机器证据进行全面的庭外测试,并将复杂的测试结果汇编成各方共享的案卷,特别是针对人类专家提供有关机器数据证据的情况下。这种形式能够使得法庭充分评价人工智能驱动设备准确评估人类行为的能力的优势和弱势,但是缺点在于,无法确保公正性和法官自行评估的准确性。
除了在法庭上作证,法庭指定的专家还可以通过深入的庭外评估来促进事实认定者对案件事实的了解,那么这样的评价就会得到法院的信任,因为专家 "一般都已宣誓要提出有关的意见"。根据直接言词原则的例外情况之一,专家的报告可以作为书面的专业知识被法官接受,但专家也可以被召唤到庭,做口头解释报告,并接受询问以澄清任何有疑惑的地方。例外情况例如,如果预先没有足够的时间准备报告,辩方专家可以在没有预先提交书面报告的情况下出庭。
放弃专家的口头报告会带来重要问题得不到问询的相应风险。在机器证据的情况下,与软件或设备的 "沟通 "完全是由专家居间传达的,而缺少当事人双方的任何审查。法庭是否以及在多大程度上愿意传唤专家口头解释他们的方法和结论,取决于法官认为在法庭上听取专家意见的价值(以支持事实调查)和控辩双方对同一报告的意见。基于自由评估现有证据的权利,法官会考虑其寻求真相的义务,还会考虑在有根据的判决中对事实确立过程的说理和必要的解释,以避免上诉时判决被推翻。尤其是在控方或辩方指出专家意见存在缺陷的情况下,更是如此。在复杂证据有争议的情况下,建立案卷式的审理过程为详细、彻底审查专家意见提供了充分的机会。在机器证据的情况下,这使得调查人工智能驱动的设备的构造和操作成了可能,在此期间,各方可以指出任何潜在的缺陷。当然,这取决于双方是否有足够的资源,取决于他们是否能够获得所有相关信息。
虽然侦查期间的事实调查和庭审前的准备工作由检方和法院决定,不过被告人试图质疑法院接受书面专家意见时,则有三种选择。首先,被告人可以带自己的专家出席口头听证会。然而,在审问式诉讼中,自行聘用并自行支付专家出庭是例外而不是常规。除了实际上的困难之外,如果发现待证明的事实已经确定,或者法院认为被告方提出要求专家意见的动议只是为了拖延诉讼,当然还有其他原因,那么被告人还需要克服法律规定允许法官拒绝听取专家意见所带来的障碍。
其次,辩方可以在主审准备期间提议提交新的专家意见,此时被告人必须陈述这样做的事实理由以支持提取新的证据。理由说明可以在检方向法院登记案卷后进行。如果检方在审前调查期间已经委托了一名专家,应立即通知辩护律师。
第三种也是最有效的方式,是根据第244条要求审判法庭为被告人指定一名额外的专家。然后,法官必须传唤专家,除非它认为额外的专家意见 "是多余的,因为该事项是众所周知的,要证明的事实与本案无关或者已经得到证明,证据完全不合适或者无法获得,提出申请是为了延长诉讼程序,或者一项旨在提供证明以使被告人免罪的重要说法,可以像所称的事实属实那样来对待(即一项若被证实则会脱罪的重要指称——译者)。"如果法院本身拥有必要的专业知识 "或 "如果第一个专家意见已经证明了与指称事实相反的事实",法院也可以驳回提供额外专家证据的动议。"然而,该规则不适用于 "以下情况:第一位专家的专业能力受到怀疑,他的意见是基于不正确的事实假设,意见中包含矛盾,或者新专家掌握的研究手段有可能优于前一位专家的研究手段"。
由于辩方可以查阅全部卷宗,至少在假设的情况下,它应该知道提出的专家意见是否符合一般标准,或者是否有新的方法。值得注意的是,法院驳回补充专家证据的动议是可以上诉的。然而,虽然有大量的判例法涉及到法官何时可以驳回这种动议,但大多数判例法并没有深入探讨在对抗性诉讼中经常受到质疑的事实调查的可信性问题,而是侧重于法官本身在没有专家协助的情况下评估有争议问题的能力问题。
遗憾的是,如果法官认为自己能够回答机器证据本身的具体而复杂的科学问题(往往是不太现实的自我评估),或者已经倾向于相信某位专家,那么任何一方都没有办法对此信念提出质疑。在这些案件中,如同在处理法官过早评估事实问题的其他案件中一样,可能特别难以确保法院对新类型的证据保持开放的态度。
在这方面,德国的制度有一个盲点,即在法庭任命专家保持中立,并且有大量时间充分阐述证据的优势情况下,现有制度并没有权衡到对法官发现事实能力和其思维开放程度的质疑。2015年专家法改革委员会讨论了一项来自法官的提议,即为了高效工作,"在某些领域,法院应当依赖与专家的持续合作,在此,专家的专业知识不被质疑,而且在个别案件中,还需要专家保证他们能迅速执行法院的指令"。
b.美国
美国法律提供了一个带有高度倾向性的结构来检验专家证据,这是一种彻底的庭外测试手段(尽管还不发达),其强烈倾向于让事实认定者能够不受干预地接触任何特定意见。以自动化驾驶为例,这将转化为希望所有人工智能的证据用途在法庭上公开化,以确保它在司法程序上的可信性。在机器证据的评估方面,美国的制度在庭外证据测试方面完全没有变通,仍然坚持人们应当能与人工智能技术的 "直接 "交流。这也让人相信,尽管人们试图通过向事实认定者提供客观的科学知识来提高事实调查的可信性,但专家可能存在偏见。
虽然在美国,双方都有权选择自己的专家,但是法官是包括专家意见在内的证据把关者,由他对证据的可接受性作出决定。在联邦法院,科学性证词和专家意见必须符合多伯特(Daubert)案确立的可靠性标准,为事实认定者提供评估消息来源可信性所需的案件背景。出于各种原因,包括现行的证据法,法官的任务是根据Daubert v. Merrell Dow Pharm.Inc.案及其后续案件所确立的四级检验标准,用处理法律问题的方式,处理涉及科学性证据的方法论的问题。法官在确定科学性证据和专家证据的可接受性时必须考虑多种因素,包括:科学技术是否成功地经受住了检验;是否经过同行审查和公开评价;是否有已知的出错率和控制其操作的标准;以及是否为科学界普遍接受。
使用多伯特(Daubert)标准来确定机器证据的可采性,将有助于排除明显不可靠的机器证据。然而,这一特测试对于人工智能生成的人机交互数据的有效性仍不清楚,因为生成数据的消费品将如何作为法庭证据还不甚明晰。那么问题就变成了,除了最极端的案例之外,这种听证会还有多大用处?可能的情况是,只要有一些验证性研究证明机器的出错率很低,而应用的方法是合理的,大多数法官就会接受机器证据;但是,几乎可以肯定,商业自动化系统不会被公开、接受同行评审,针对机器设备的研究依旧有必要进行。显然,多伯特(Daubert)标准并不适用于机器生成的结论,而是适用于包含这些结论的证人陈述。正因为如此,问题其实是多伯特测试是否可以、是否应该被修改。如果陪同机器进入法庭的专家是机器信息的 "单纯抄写者",那么专家必须通过多伯特(Daubert)测试;如果机器的评估被用来证明对案件有重要意义的事实(比如评估驾驶员事实上已经犯困),那么机器本身必须通过多伯特(Daubert)标准测试。
总的来说,多伯特标准对机器证据作为一种专家陈述的可采性的影响尚不明确。鉴于政府在刑事案件中负有举证责任,严格的把关将直接影响他们提供的新类型证据和专业知识。在被告方发挥更积极作用的情况下,核心问题很可能成为证据在《联邦证据规则》401条和403条规定的证据的关联性。确实,使得具备相关性的信息被法庭采纳,并能够彻底评估所采用的人工智能的工作原理是至关重要的。
《联邦刑事诉讼规则》第17条允许被告人独立申请证据出示、传唤证人,但是他仍必须遵守商业秘密特权。这条规则既有可能为被告人用来提出自己的专家证据来对控方的案情提出质疑,也有可能迫使控方对任何被用作取证工具的源代码、算法和数据扩大证据开示的范围。尽管如此,当被告方成为提出新的科学证据的推动力时,作为把关人的法官仍然至关重要。例如,如果法官认为辩方倾向于歪曲科学知识,故意在陪审员中制造合理的怀疑,法官就倾向于拒绝接受证据,依靠多伯特(Daubert)标准将这种不客观的专家证据挡在法庭之外。所以,虽然原则上辩方有办法独立于控方调用专家证据,但实际上,情况(以及相关判例法)比较复杂。
关于消费品产生的机器证据,《联邦证据规则》第17条具有特别的意义,因为它可以被用作获取第三方掌握的信息的工具。这类情况尤其经常发生在汽车上的人工智能驱动设备产生了相关数据之时。规则第17(c)条的传票是一种传统上携带证物或文件出庭的传票(subpoena duces tecum),它要求被送达人在审判时出示物证。它还允许物证"被提前带入法庭......以便随后可以提前检查,目的当然是让当事人自己判断是否能够、是否愿意使用它"。根据规则第17(b)条,如果被告人能证明自己无力支付,法院必须决定公共财政是否需要为这种传票支付费用。如果怀疑被告人试图以一种故意导致陪审团产生合理怀疑的方式来解释相关事实证据的科学道理,法院往往会犹豫不决,进而拒绝动议,至少部分原因是为了减少不必要的公共开支,但也是因为担心让 "诡辩的伎俩(hocus-pocus)"进入法庭。
涉及在法庭环境中使用数字化工具(如DNA测试)的判例法表明,数字化工具就类似于上述的证据生命周期。如今,大趋势是采用更严格的标准,联邦证据规则咨询委员会讨论了可能增加第707条规则的问题,该规则将限制司法自由裁量权,以提高专家证据的可靠性。它还将扩大适用至庭外陈述,以便事实认定者能更好地理解复杂的证据问题。
6)文本化(情境化)和可信性测试的新机制
我们有必要建立一套新的机制,不仅要能考虑到机器证据的背景并测试其可信性,而且要使事实认定者能够评估机器证据的可靠性。在美国,数字化时代新型对抗权的建立,可以通过将可信性测试与现行的以法庭为中心的传闻模式进行部分的分离而实现,例如对人工智能驱动的设备的庭外评估权。相比之下,德国模式,应当向辩方提供新的工具,使其能够有效质疑法官的事实调查和专家证据;特别重要的是,辩方必须能获准取得法院指定专家所掌握的任何相关数据。
对审问式和对抗式刑事司法系统的比较分析表明,如果机器证据进入法庭,就会出现新的证据问题,而且可能没有统一的解决方案。人机互动在增加的同时,我们获取海量信息的潜力也在释放,前提是我们不考虑其可靠性的基本问题,也不考虑我们尚无有效手段充分评估这些信息。此外,使用这些数据还会引起对商业秘密和隐私的进一步问题,但是这些超出了本文的范围。
尽管如此,对比分析为机器证据的独特性质提供了有价值的信息,也为人工智能在各法域的法庭上可能造成的证据问题提供了更加清晰的认知。传统上,纠问式(如今的审问式)和对抗式系统维持事实调查可信性的方式,都是指出证据程序中的人为错误。如果试图在刑事诉讼中引入机器证据,这两种诉讼模式都必须修正其传统方法。在某些方面,这两个司法管辖区的结论是相同的:必须承认人工智能的独特地位,必须让诉讼各方,以及法院和公众,看到人工智能所承载的信息。
如何让人工智能的信息在法庭上得到最好的呈现,与每个刑事司法体系的细微差别有很大关系。在美国,罗特(Andrea Roth)提供的一个制度建议,在审前对机器证据的前端设计、输入和操作协议进行可信性测试。这种在审判前对相关设备进行有意义的接触,使得双方当事人能够审查(partisan review)机器的功能。最终,有效的情境判断和可信性检验将取决于机器或软件的设计和构造。除了国内的单一的或者多样的技术之外,有必要确定一种规范的方法来确保可靠的事实调查。这样,当机器证据出现问题时,两种诉讼模式就可以不拘泥于现行的可信性测试方法来提高事实调查的可信性。
在对抗制中,这将意味着改变以法庭为中心的证言模式。为了确保智能机器的可信性及其证据的可靠性,可能要在独立于案件的法庭之外对基础技术的复杂性能进行更好的审查。评估机器的设计、学习模式、源代码和其他编程的专家,可能在法庭外能够更好地对其可靠性和可信性做出初步决定,这些初步决定可以作为对案件中所提供的证据的个人评估。法庭可以考虑接受此类新的证据代理方式,因为他们在评估智能机器证据可信性方面做出了必要的贡献。
在审问制中,必须设法解决事实调查程序中对传统辩护工具的坚定信任的问题,而传统辩护工具的基础是假定法官能够在整个诉讼过程中保持开放的心态。要做到这一点,可以赋予被告人(必要时)对法官和专家提出质疑的权利,这就超越了目前仅仅允许被告利用案卷中的报告准备辩护的框架。这也是因为现有的证据工具可能无法解决机器证据可靠性的关键问题。关于机器证据,需要从以法官为主导的模式转变为以审查为导向的模式,即根据《欧洲人权公约》第6条对所有提供定罪性证言的证人进行评估。德国大多数地方高等法院都采用了这种更具对抗性的方法处理机器证据,用这种方式在审查数字化证据工具方面也更有前景。
四、结论
在刑事审判中,如果机器证据被作为证据提出,就必须对其进行充分的背景分析和可靠性测试。这种证据——就像人类的证词一样——不是无懈可击的。有些智能设备难以被人们理解,而且最初作为满足消费者需求而生,当这些不透明的设备的数字化输出逐渐被法庭接受为事实或者间接证据时,立法机构和法院必须以开放的心态和批判的态度处理这个问题。
随着人工智能在人类生活各领域的兴起,法律学者指出,我们对机器运作的规律性和公正性的假设往往是不准确的,这一点很重要,必须考虑多方面的因素。跨领域的研究表明,人工智能驱动设备的物理形状和认知能力直接影响我们对其可靠性、健全性和整体“特性”的认知。我们很少意识到这一事实,遑论质疑设备的哪些特征,会引起我们对其结果的可靠性的信任或者怀疑。
从法律角度来看,如何在刑事诉讼中使用人工智能生成的证据仍然是无解的。法律没有提供围绕审查 "智能机器 "可信性的规则,只要机器和软件缺乏必要的特征来使其就其结论接受有意义的交叉询问,法律就会继续把它们只是当作没有传达自主信息的、只会数字化运算的工具。这种武断的做法受到了批评,认为它没有暴露出刑事诉讼中可靠的事实调查的所有潜在风险。
比较的视角可以帮助我们发现解决机器证据问题的潜在方法。对抗制创造了审查证据可靠性的工具,而审问制则发展了一种连续的庭外证据收集模式,使各方能够有意义地评价复杂的证据。
机器证据的基本问题对所有法域都是一样的。鉴于人工智能产生的数据无法像人类证人那样经过审查,但在数据处理和评估系统中,人工智能仍然可能出现类似人类的偏见,那么到底如何对其进行充分的审查呢?我们知道机器和软件虽然在法庭上看不见,但却可能成为起诉的积极推动者,我们如何利用这些数据?
如何处理像刑事诉讼中机器证据的使用这样的新问题,是普遍存在于所有司法系统的众所周知的困境。我们是从技术角度还是法律角度入手,即代码服务于法律抑或法律服务于代码?这一阶段的决定不仅决定了对抗制和审问制在未来面临的问题是相似的还是不同的,也决定了事实调查是否仍然是我们所熟知的以人为本的程序,即专注于向事实认定者提供透明的、(理想的)客观的信息以帮助决策。
为满足消费者需求而设计的与人类互动的人工智能,是有其内在价值的。一般来说,它的形成并不符合证据法的相关法律规范,当然也不符合刑事审判中典型的事实调查程序或者宪法保障规则。在没有获得新的证据工具的情况下,相信人们愿意而且能够在刑事审判中破解数字化设备的谜题而追求真相,实在是太过天真了。
因此,现在是为高度智能化环境下的刑事诉讼的事实调查做准备的时候了。要做到这一点,我们首先必须了解各类机器证据的特点,并与有资历的专家合作,既要了解技术,又要搞清基本的法律概念。只有这样,才能在法庭上从所有必要的角度对人工智能驱动的设备进行有意义的评估。如果从技术角度(从而要求技术为法律服务)解决将机器证据纳入刑事审判事实认定的问题,对抗制和审问制将面临同样巨大的挑战。理论上,两种诉讼模式都可以采取类似的行动,比如对人工智能驱动的设备进行认证,提供对源代码的开放访问,以及指定机器学习的标准参数等。如果要寻求新的法律解决方案,每种模式都需要找到自己的答案,不过向对方借鉴经验仍然是可取的。机器证据可能会遵循技术证据的生命周期:起初,证据被认为形式太新而不可靠;随后,它被纳入需要经过检验的新证据,进而成为总体可靠的、偶尔出差错的证据;最后,许多证据达到了被盲目信任的程度。回顾刑事司法的近代史,它告诉我们,扭转证据循环是一场艰难的战斗,而在这场战斗胜利之前,司法错误给人类造成了巨大的痛苦。对于法庭上的人工智能,人们应该采取哪些程序性保障措施,将是非常重要的。
无论人工智能是否成为入罪或者出罪的新工具,在刑事诉讼中使用机器证据的事实调查过程中,我们必须确保其可信性。一般来说,尽管有大量证据的可靠性受到质疑,但人类还是会相信对方的证词。我们能够被证据说服,因为我们可以诉诸人类的感知和经验来求证其真实性;总之,我们拥有同理心。机器证据可以试图创造一个类似的印象,或许,正是因为机器缺乏人类的同理心,反而能够弥补我们缺失的所谓的客观性。我们目前还不完全清楚,为什么人们倾向于直接相信人类同胞的陈述。也许是因为我们相信人们固有的善良,或者我们认为人类害怕因作伪证而受到处罚。然而,我们今天所知道的人工智能却不受这些限制。
如果法律要跟上科技快速发展的步伐,这些问题亟待解决,而解决这些问题的最好办法就是对抗式和审问式司法制度之间的相互学习。没有任何一种证据制度是完美的,但是让美国的司法制度引以为豪的,正是它的强大、灵活和勇于尝试新的方法,现在是再次发挥这些优势的时候了。事实认定者不应仅仅因为出现了一种我们不熟悉的、目前还不能被有效质证的新证据,因此就在证据的可靠性和可信性上做出让步。为了维护刑事审判中事实调查的真实性和合法性,我们的法庭(事实认定者)仍然必须坚持以人为本的原则。