畅想!如何用好大数据,实现类案检索平台进阶?

2023-04-04 14:36:36 来源:新浪财经

打印 放大 缩小

转自:上观新闻

本期作者


【资料图】

赵丹阳

上海金融法院申诉审查与审判监督庭四级法官助理

近期,AI绘画、ChatGPT霸占热榜

人工智能的一路“狂飙”

引发了社会各界的强烈关注

ChatGPT与office“全家桶”的结合

将更深刻地影响每个人的日常生活

现代科技全面融入各行各业

已是大势所趋

将法律知识与人工智能结合起来

以达到事半功倍的效果

类案检索平台

无疑是一个重要的突破点

类案检索平台的本质在于从数据中输出知识,实现知识管理的精细化和智能化,其研发离不开人工智能的基础原理,即数据和算法。

2023年2月14日,最高人民法院统一法律适用平台上线,标志着统一法律适用工作进入了新阶段。如何实现易用、好用、愿用类案检索平台的不断进阶,在具体设计和技术应用上,或许可以在以下两个方面为法律运用插上科技翅膀,为智慧法院建设更添一抹亮色。

让“大数据之源”充分涌流

一、加强文书质量筛查

1.质量筛查两步走

在现有的检索平台中输入检索关键词,往往会出现检索结果质量参差不齐的问题,不妨在文书收录入库时设置裁判文书质量检测程序,该检测程序又可以分为以下两步:

一是智能化的文书质量检测系统。比如,有研究着眼于裁判文书规范性,确定了篇章结构规范等18个检测模块,并结合裁判文书说理的智能评分模块,设计出智能文书质量检测系统,从而快捷地对入库文书质量进行初步筛选。

二是人工化的裁判规则提取程序。通过专业团队对智能化筛选出的优秀文书进行解析提炼,归纳裁判规则,可以有效发挥优秀文书的裁判指引作用。

2.文书质量三分法

智能化质量检测和人工化裁判规则提取之间通过“文书质量三分法”进行衔接。

具体来说,在智能化检测后设置系统评分高低两个阈值,将文书质量分为三个段次:

低阈值之下的文书将直接排除在录入范围之外;

中端文书直接进入类案检索系统的基础数据库;

高阈值之上的文书进入文书质量检测的第二道程序,即人工化的裁判规则提取程序,进一步凝练高质量文书的智慧成果。

类案检索平台数据输入端流程构建

二、规范流程数据采集

类案检索技术的发展应该与全流程在线办案相辅相成,流程数据相对于裁判文书来说更符合用户的用词和认知习惯,同时也能够弥补裁判文书由于篇幅有限而无法展开的案件详情。

将案件审理流程数据科学合理融入类案检索之中,包括以下三个层面的考量。

1.从数据的来源上

利用目前法院系统已经建立的各审判流程信息系统、案件流程查询平台和庭审直播平台等,实现一键上传、多平台共享。

当然,并非案件审理过程中所有流程数据都需要作为类案检索的数据基础,应排除与案件认定无关的流程信息,比如延期审理申请书等,将分析的重点集中到当事人诉辩意见、证据以及庭审笔录之中,避免对数据分析结果产生干扰。

2.从数据的应用上

审理流程性数据相比裁判文书来说更加原始和零散,因此不宜直接作为检索结果。应该更注重发挥审判流程性数据贴近用户习惯的特点,将其中的关键词作为标注和建模的重要信息源,并将流程性材料以链接的形式附在文书的同一界面,辅助审判人员进一步了解案件流程信息。

数据标注:如果把人工智能领域比喻成为一座高楼,数据标注工作就是用砖块垒筑地基的工作。在初始阶段,计算机无法自动识别出特定的字词,需要人工在数以百万计的文本上为字词“打标签”,即数据标注,然后将标注后的字词输送给计算机,从而达到“训练”计算机“学习”的目的。

数据标注流程

3.从数据的权限设置上

对于不同查阅人的身份设置不同的权限,尤其对于案件审理的流程性信息,应严格遵守民事诉讼法及相关法律法规的规定,防止司法秘密的泄露。

让处理数据的科技之手更加智能

一、精确率与召回率双向发力

精准率(Precision)也叫查准率,衡量的是所有预测为正例的结果中,预测正确的比例;召回率(Recall)也叫查全率,衡量的是实际的正例有多少被模型预测为正例。

两者就如沙里淘金,精准率关注的是淘到的东西中真正金子的比例,召回率则关注真正的金子是否被全部淘到,而不论淘到的东西中混进了多少沙子。因此,一般来说精确率和召回率是一对相互矛盾的指标。

目前,类案检索的精准率过低,而召回率过高是我国检索系统普遍面临的问题。考虑到用户的时间成本以及现有的检索实践带来的困境,类案检索不同于只专注召回率的检索类型,例如专利检索中的现有技术检索或文献综述检索,而是应当将提升查准率放在首位。

二、法律逻辑与知识图谱深度融合

2012年,Google正式提出知识图谱的概念,它是指以结构化的形式描述客观世界中概念、实体及其关系。

就类案检索平台设计而言,要实现法律思维和技术思维的更好融合,可以在法律逻辑向知识图谱转化的过程中,通过“正向构建”和“反向排除”两种方法,将逻辑推导环节切合人工智能算法,实现类案精准推送。

1. 正向构建即确认两个案件为类案的过程

作为大陆法系国家,我国常常采用三段论的形式进行演绎推理,即:假使任何一个案件事实实现T,则应赋予其法效果R(大前提)。如果特定案件事实S实现T(小前提),则对S应赋予法效果R(结论)。

而类案检索则更偏向于普通法系的类比推理思维,即已知甲事物具有a、b、c的属性,且已知乙事物具有a、b的属性,因而得出结论乙事物也具有c这种属性。在类比推理的逻辑之下去检视演绎推理的过程,则可以得出以下三种主要模式:

1

S1+S2+S3→T,即S1、S2、S3均属于法律关系构成要件的不可缺少法律事实时,类案的a、b、c三种属性应该完全包含S1、S2、S3。

2

S1或S2或S3→T,则类案a、b、c属性只要满足其中之一即可。

3

S1→T,某一法律事实是某一法律后果的唯一必然要素,此时属性a、b、c只能通过满足特定案件事实S1来实现T,从而实现法效果R。

2.反向排除即排除两个案件为类案的过程

有的案件之中,通过两个案件之间的不同之处排除两者为类案的可能性,可能会更加高效。主要包括以下两类排除方式:

1

案件事实的区别,是指案由不同、关键事实在案件中发挥作用的不同等情形,导致案件事实的不同,则非类似案件。

2

法律适用的区别,是指关键事实与法律后果之间因果关系不同,则非类似案件。

类案检索系统的功能在一定程度上

决定着类案检索和类案应用的效果

从而影响司法审判的公正和高效

相信随着大数据的深度运用

和人工智能的高速发展

类案检索平台一定会

更加精准和高效

成为助推审判现代化的利器

作者简介

赵丹阳,中国政法大学民商法学硕士,蒙特利尔大学国际商法硕士。撰写的论文获全国法院学术讨论会二等奖,课题获评上海依法治市课题三等奖,案例获评上海法院服务保障长江经济带、长三角区域一体化发展典型案例。

注:为方便阅读,本文删除相关脚注。

来源丨上海市高级人民法院、上海金融法院

高院供稿部门:审判管理办公室、信息管理处

文字:赵丹阳

责任编辑丨郭燕

关键词:

责任编辑:ERM523

相关阅读