“只有被应用到实际生活里,科学技术才能产生价值。”
作者丨王悦
编辑丨董子博
大模型赛道的竞逐进行到6月,AI 行业的共识正发生着迅速而激烈的变化。
从开始对泛用大模型的追求,到对更具落地能力的行业模型,越来越多的从业者开始发现,如果无法实打实地成为生产力,那么无论是“大模型”还是“AGI”,都不过只是一个被炒热炒红的概念。
“只有被应用到实际生活里,科学技术才能产生价值。”如此坚信着,北京大学信息工程学院助理教授、博士生导师袁粒一门心思,扑在了大模型的应用层开发上。
今年早些时候,袁粒便带领团队开发了一款名为“ChatExcel”的产品,意图利用大模型技术,来帮助用户更高效地完成图表工作,一时间获得了不少好评。
而今天,袁粒和团队又推出了一个新的项目——“ChatLaw”。应用大模型技术,ChatLaw 可以帮助对法律知之甚少的普通人,让他们能够获得一些初步的法律建议,并且还能够进一步地帮助他们,完成分析证据、起草诉状、寻找法律援助中心等工作。
“ChatLaw 可以让老百姓获得专业法律帮助之前,完成律师30-40%的工作。”袁粒对 AI 科技评论表示道。
作为国内首个法律场景下的落地大语言模型产品,袁粒带领课题组和北京大学-兔展AIGC联合实验室,完成了不少工作。
一方面,袁粒和团队收集了大量的公开数据——如法律法条、判例、司法解释等,又通过北京大学的平台,在北大国际法学院和相关的律所收集到了不少私有数据,以及一个比较完备的知识图谱,形成了一套专业的数据库,让 ChatLaw 在法律领域,具有对场景的更好理解能力;
另一方面,大模型常常会“一本正经地胡说八道”,尤其是在专业领域,常常给出失之毫厘,差之千里的结果。为了最大程度上解决困扰大模型的“幻觉”问题,让 AI 能在法律领域保证输出的正确性,ChatLaw 并不是单个大模型“一人成军”,而是由四个分管不同能力的大模型“强强联合”,针对不同的专业法律领域,完成更高质量的生成输出。
在 ChatLaw 的实际测试中,袁粒说,单看法条输出的正确率,已经可以达到80%-90%,偶有错漏;而就给出的法律建议而言,也能达到60%以上的满意度——相较其他大模型产品高出不少。
ChatLaw 在今日已经开启了邀请制的内测,乘这个机会,AI 科技评论和袁粒进行了一场对谈,对有关 ChatLaw 和当下大模型产品的技术判断,讨论了许多先进的认知。
以下是 AI 科技评论与袁粒的对谈实录,AI 科技评论在不改变原意的情况下做了编辑和调整:
1
专业数据+知识图谱
让 ChatLaw 变成最专业的法律大模型
AI科技评论:专业数据对于大模型的垂直领域场景理解至关重要,ChatLaw 在数据收集的角度,做了哪些努力?
袁粒:法律领域相较其他比较特殊——很多最高质量的数据,都是公开数据。这其中就包括法律法规、判例文书、司法解释等等。我们的数据处理,主要就是基于这些公开的数据。
同时,我们也获得了一部分比较有价值的私有数据。这部分数据,主要是北大国际法学院,以及这个部分的行业律师事务所,提供给我们的私有数据。不仅如此,他们也对我们的数据集进行了一个专业的加持——具体而言,就是把这些数据集中,再将不行的部分删去。
但总体上,我们最大规模的数据集还是以法律法规为基础的公开数据。
AI 科技评论:具体而言,法律场景会用到的数据有什么特殊性?
袁粒:首先,我们认为法律法条其实是个有限子集,因为条文是有限的。而事实情况,则可能是会多种多样的。
在这样的情况下,用事实来带入法条,这些处理都是有迹可循的。所以,我们是以案例去构建了整个数据的核心,而不是单纯以法条或事件。
除了案例之外,我们还有几套支柱。对于每个案例,我们基于同案同判的原则,对每一种具体的 case 都会有一个律师的标注。
这也是我们数据集非常重要的一个环节,因为它包含了人的专业性在里面,在事实判例和法律之间完成了一个连接。
通过这个图谱,我们可以去对各种各样的法律的案例进行回答;并且也能让模型知道,什么是对的回答,这个非常重要。
2
“四合一”的架构
让“幻觉”更少出现
AI 科技评论:法律作为一个相当严肃的场景,和医疗、金融区别在哪里?
袁粒:法律这个行业,跟金融、医疗场景有一个比较大的区别——它的流程是非常程序化和标准化的。实际上 ChatLaw 去模拟的,就是一个法院、或者说律师,通过理解用户的事实,然后对他的事实提出对应的法条,然后最终做出整套的判断。
实际上在这套流程中有三个步骤:
我们的 ChatLaw 虽然是大模型产品,但实际上包了四个模型,但其中放在 GitHub 上开源的只有一个模型。
AI 科技评论:这四个模型分别有什么功能?他们之间是如何协作的?
袁粒:四个模型中,第一个模型是调动模型,负责理解用户的这个语义,再来依据事实,来调度特定的子模型。
余下的三个模型,主要功能是从事实归纳出法律,或者说,法律加争议交锋点去做推理。
对这三个模型,我们在训练的过程中,关键是在训练阶段将对应这个模型专有和特定的知识,在模型里面去大量地输入,再去做特殊处理和强化学习。
那么这样,我们确保模型在一个单独的场景下,它具有非常高的推理能力,这三个模型就能针对专有的问题,完成高质量的输出。
AI 科技评论:1+3的这个模式相当新颖,并且听起来也更能应对专业领域的问题。这个模式,会成为以后行业大模型的新趋势吗?
袁粒:这里面有两个问题。
第一个问题,就是法律场景有它的特殊性。法律是一个非常流程化的场景,但是如果迁移到一个别的领域——比如说教育——它可能就不是这样了。
我认为,可能只会有两到三个特定领域的场景,它会可以使用这种方法,其他的场景应用起来,提升效果可能不会这么大。
第二个问题,是它的投入产出比可能会比较小,因为 ChatLaw 的模式,相当于为一个产品训练了三个模型。
AI 科技评论:在 ChatLaw 研发的阶段,最大的难点在哪里?
袁粒:其实我们现在是有一个瓶颈,它就是我们的调度模型。
因为参数量的问题,我们认为其实百亿级的调度模型,它的效果可能并不那么令人满意,我们之后会把它替换成别的算法。
3
千模大战下
袁粒的技术判断
AI科技评论:在团队建设上,我们的团队平均年龄有多大?
袁粒:我们的团队不少都是00后,当下有些还正在读研。其中几个比较优秀的同学,比如伯华,负责顶层设计和产品化,是我们项目的主要推动者;以及家熙,负责模型的训练,在科研上非常强。
AI 科技评论:在这样一个年轻的团队里,您观察到,大家对 AI 和大模型有什么新的看法?
袁粒:这一届年轻人都非常理性,从年初开始,团队就在讲,这是这会是一波巨大的科技浪潮,但是团队也同时深知这个过程会比较慢,可能会持续很久。
在这样一个比较慢的赛道,我们从一个商业的角度来说,更应该是“以终为始”。
AI 科技评论:具有一种“终局思维”。
袁粒:是的,我们更关注这个局面下,哪些要素更重要?掌握哪些要素的人会赢?而我们现在做的,就是要去提前把这些成功要素给凑出来。
AI 科技评论:商业化一定是个很重要的要素。
袁粒:没错,但对于 ChatLaw,我们不会急于把它变成一个太商业化的项目。主要是,ChatLaw 的模式,可能并不适合大规模向 C 端收费——毕竟法律帮助是一个低频需求。
现阶段,我认为 ChatLaw 还只是个showcase,是在我们一个名为 ChatKnowledge 这样一个计划中的第一步。
在做这个项目的同时,我们也积累了一整套的能力,包括我们刚才提到的模型调度能力,也包括外挂知识库对生成内容约束等等。
我们慢慢沉淀出来的 ChatKnowledge 这一整套打法,才是未来我们眼中的“终局”。未来我们也会走一些面向企业和政府的项目,来迎接大模型 AI 2.0 的潮流。