焦点播报:算法和思维应两条腿走路


来源: 检察日报-数字检察

你如何看待大数据?


(相关资料图)

不少观点认为,大数据即是提炼算法,通过算法设计软件,然后从有关方面获取大量的数据。在此过程中,将办案逻辑运用于软件设计中,从而实现将数据导入软件,通过算法自动获取大量监督线索。

虽然纯熟的模型软件会实现类似的效果,但这一定需要大量的资源投入和长期的算法打磨,在短期内实现远非易事。这也因此会出现有的检察院用办理成功的个案和类案监督经验去构建模型,但发现尽管模型逻辑明晰,但就是做不出自己“想要”的模型;或者做出一个模型,也获取了不少数据,就是“算不出”新的监督线索。没有模型的时候,通过电子表格作为分析方法来发现案件线索的路径还能奏效,为什么做成模型后却失灵了呢?

在笔者看来,某种程度上,是我们把大数据算法想得过于简单和理想化。事实上,我们很难将司法逻辑完全数学化,因为数学化需要抽象的表达,而抽象就需要对数据进行概括,需要删减一些看似冗余的事实和情节。比如,我们对言辞证据的判断就很难数学化,但是如果只剩下客观证据,案子还好不好办、能不能办就成了问题。而且,也并非所有客观证据都能够数学化,像图片、影像就很难数学化,最容易数学化的就只有银行流水、支付记录这些数字化的证据。

有些时候,我们通过数字化证据的比对分析就能够得出一条非常有价值的线索,其实这也是我们审查了相关言辞证据、社交通讯记录、影像证据等多重证据之后得出的结论。数字化的证据可能是最重要的,但其他证据也并不是可有可无的,它们对于提高线索的成案率有着重大意义。监督线索往往并不是单纯的数学化分析所得出的结论,而是需要与外围证据进行综合判断才能发挥作用,需要的是司法性的审查而不是算法化的审查。

也就是说,算法工具并不是最重要的,最重要的其实是大数据思维。有了大数据思维,依托电子表格等基本的工具,再加上身处案件的具体情景之中,也在一定程度上可以为大数据的应用创设场景。如果我们抽离了具体的案件,失去了案件中所承载的外围证据,仅仅依靠数字化证据进行纯粹的数学化分析,那么监督线索的发现就会变得困难。

因此,笔者认为,在推进数字检察工作的过程中,要尊重算法,但不能迷信算法,我们应该通过算法和思维两条腿走路。具体来说,有三点建议:

一是在通过个案提炼算法、设计软件的同时,要提炼大数据思维的经验。软件的设计有一定的研发周期。在设计软件的同时,我们应该对案件中积累的大数据办案思维进行文字性的总结,比如制定大数据办案指引,提炼大数据办案思维的精华,包括监督线索识别的具体特征、需要重点调取和审查的证据种类、发现线索的核心逻辑等。通过大数据办案指引,可以直接引导检察官在办理相似案件中运用大数据思维,在暂时没有模型软件的情况下也能上手操作,让大数据思维早日发挥功效。

二是注意通过大数据思维推广所获取的经验,进而反向完善算法。我们从个案提炼算法,往往会遇到样本单一的问题。因为个案虽然典型,但仍具有偶然性。而在算法推广的过程中,我们要面对各式各样的情况,有时会因为考虑不周全而频频卡壳,让检察官觉得不好用。因此,通过大数据办案指引在个案上的先行先试就变得更有意义,可以为算法完善积累更多的经验,让算法在试用初期减少碰壁,从而有利于尽快扩大试用范围。试用范围越大,积累的经验就越多,算法也就变得更加完善,从而进入使用上的良性循环。

三是算法再完善也不能完全代替思维的重要作用。大数据思维的提炼、应用和推广并不是阶段性的救急之策,它具有不可替代性。单纯应用算法通过数据发现线索是不可能实现自动化监督的,它离不开具体的案件情景和证据环境,而将两者结合起来的是办案检察官。一个懂大数据办案思维的检察官和一个不懂大数据办案思维的检察官在算法应用效率上是有天壤之别的,甚至可能存在有算法也不会用的问题。

算法是一种大数据的办案工具,它可以极大地提升我们的监督能力,但前提是为具有大数据监督思维的检察官所用。对于一个会用工具的检察官来说,工具就可以变成生产力;而对于一个不会用工具的检察官来说,工具只是摆设而已。对于大数据来说,算法固然重要,但让检察官拥有大数据思维更为重要。

(作者为北京市检察院第一检察部副主任、三级高级检察官)

[版面见习编辑:高航] [责任编辑:刘蕊]

[责任编辑:谢涵宇]

责任编辑:谢涵宇PF085

标签: