当前位置: 首页> 业务研究

生成式人工智能的法律运用及规制范式——以Deepseek-R1模型为例

来源:时间:2025-08-25 17:10

蒋晔璞 浙江六和(湖州)律师事务所


    【摘要】Deepseek-R1大语言模型融合了混合专家、多头潜在注意、多Token预测等多项创新技术,是中国生成式人工智能研发的集大成者。但法律行业对其运用,存在幻觉、算法权力、信息安全等风险,源于技术力的局限和社会环境的复杂,以Deepseek为代表的AI大语言模型存在的问题并不能从技术层面被完全消除,只能从外部对其在法律行业的运用进行双轨规制。一方面,针对运用算法的人进行规制,将人运用AI的范围限制在事务性辅助性工作的范围内;另一方面,针对人运用的算法进行规制,将文字的规则数字化为规则的算法,嵌入AI大语言模型,以确保AI在法律的轨道上运行。

    【关键词】生成式人工智能 法律运用 Deepseek 算法规制


一、生成式人工智能的技术原理和法律运用

20221130日,美国人工智能研究和部署公司OpenAI发布了全新聊天生成型预训练变换模型——Chat Generative Pre-trained Transformer,简称ChatGPT,该模型可以理解非结构化信息,并进行思维和推理,生成自然语言文本,可泛用于对话系统(dialogue systerm)、文献摘要(text summarization)、机器翻译(machine translation)。2023411日,国家互联网信息办公室公布《生成式人工智能服务管理办法(征求意见稿)》将ChatGPT等人工智能大语言模型(large language model,LLM)定义为生成式人工智能,指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。2025120日,中国头部私募巨头幻方量化创立的杭州深度求索人工智能基础技术研究有限公司(英文名称:Deepseek),发布了第一代逻辑推理模型——Deepseek-R1,该模型运用后训练(post-training)、强化学习(Reinforcement Learning)、思维链(chain-of-thought)、蒸馏(Distillation)等技术,将训练成本降至GPT-41/20,却在Benchmark测试中取得了媲美OpenAI-o1-1217模型的表现。

Deepseek-R1是基于Deepseek-V3专为复杂推理任务而设计的大语言模型(LLM),虽仍采用Transformer架构,但对架构和算法等各方面都进行了优化,并融入了创新技术。一、独特的混合专家模型(Mixture of experts,MoE)。MoE是将Transformer模型中的前馈神经网络(Feed-Forward Neural Network,FFN)替换为一组结构相同的专家网络,每个Token(词节)仅被路由(route)到每层的部分专家,大幅提升计算效率并减少算力消耗。而Deepseek在此基础上进一步运用共享专家(Shared Expert)策略,在每个MoE层设置了1个共享专家,负责捕获整合通用知识,减少其他专家的知识冗余,进一步提高效率。二、多头潜在注意力机制(multi-head latent attention,MLA)。MLA是基于多头注意力机制(multi-head attention,MHA)改进而来,MHA将输入序列线性变换为QueryKeyValue三个矩阵,通过并列运行多个独立的注意力头,同时关注输入序列中不同位置的特征,多角度地捕获输入序列中上下文关联关系,更全面地理解自然语言的含义。然而为减少对相同输入序列的重复计算,MHA必须将生成的KeyValue储存在缓存中占用大量缓存,造成该机制的训练瓶颈。而Deepseek利用低秩键值联合压缩(Low-Rank Key-Value Joint Compression)技术改进出MLA机制,将高维的Key矩阵和Value矩阵压缩为一个低维的潜在(latent)向量矩阵KV,该向量同时包含了KeyValue的信息。在推理过程中,只需缓存这个低维的潜在向量KV,而不需要单独缓存原始的KeyValue向量。这显著减少了缓存的大小,从而降低了存储需求。三、多词预测(multi-token prediction,MTP)。由于计算机只能处理离散的数值表示,因此需要通过分词器将人类输入的自然语言文本切分成小单元,再转换为向量进行数学运算,而被切分的小单元就是“token”,常译为:词元、标记、令牌。GPTLlama等大型语言模型都采用下一个词预测(next-token prediction,NTP)进行文本生成训练,但这种方法效率较低。为了解决这一问题,Meta公司研究人员提出了多词预测(multi-token prediction,MTP),通过让模型一次性预测多个未来的词,而不是仅预测下一个词,使语言模型能更快地学习语言的结构和规律,更好地理解上下文信息,Deepseek-V3采用MTP将预测范围扩展至每个位置上的多个未来token。一方面,MTP使训练信号更加密集,可能提高数据效率。另一方面,MTP使模型能够预先规划其演示,从而更好地预测未来token综上,将Deepseek大语言模型的运行原理简要概括,即通过分词器将人类输入的自然语言切分为token形成输入序列,再线性转换为向量输入注意力层以便理解其含义后生成新的输入序列,然后输入前馈神经网络经过路由(route)分配到不同专家进行思考推理,最终预测出未来token组成输出序列转换为答案

Deepseek-R1凭借其卓越的计算能力、较低的使用门槛、以及可嵌入其他系统和本地部署使用的广阔拓展空间,一经发布仅7天即突破1亿用户,成为现象级产品。根据浙江大学信息技术中心发布的《Deepseek行业应用案例集》,目前Deepseek模型已被运用于农业、制造业、汽车行业、手机行业、智能家居、物流仓储、云服务、办公、网络安全、金融、医疗、教育等多个关键行业。法律界对Deepseek在法律行业的运用也关注有加,实务界人士列举出:类案检索、案件汇报、生成犯罪嫌疑人画像、分析侦查(调查)数据、制作会见讯问笔录提纲、庭审发问质证提纲、撰写侦查(调查)方案、调研报告、司法建议、审查报告、法律裁判文书、辅助量刑测算等数十种司法实务运用场景。理论界也总结出:法律信息检索、立法条文修订前后对比、案例比对与分析、要件解构与漏洞识别、文献核心观点的提炼、论文润色与翻译等使用心得。许多学者乘着Deepseek引发的AI热潮,对人工智能可能引发的AI人格、著作权、责任能力等法律问题展开探讨,但同时也涌现出对人工智能过度介入司法权的担忧以及认为当下对AI的讨论过于超前等冷思考。有学者甚至将Deepseek的诞生视为引发行业变革,催生新质生产力的契机。

本文认为,当前法律行业对AI大语言模型运用问题的讨论,都没有从大语言模型本身的技术基础原理出发,许多讨论建立在对AI运行原理的猜想和推断之上,使得不少讨论没有切中要点。本文认为,首先应考察行业对Deepseek等人工智能的运用中存在的现实问题,并由表及里深究问题产生背后的技术基因和社会根源,明晰人工智能运行程序与传统法律人思维逻辑的本质区别,才能进一步明确AI法律运用的规制范式。

二、生成式人工智能法律运用的局限与风险

虽然Deepseek-R1的发布在国内法律圈引起了不小轰动,但法律行业对人工智能运用的态度相比其他行业较为保守,对于运用人工智能可能引发的法律风险也多有预判。法律行业运用人工智能应坚持人本主义,AI不应也不能完全取代人类,只能充当法律人的辅助工具,应是目前国内乃至全球法律界的统一共识。但由技术进步促进生产力发展客观带动生产关系的变革从不以人的意志为转移,对于当前生成式人工智能是否存在完全替代法律人完成法律事务的可能,还需客观考察目前行业AI运用存在的问题,并探究问题产生的根源。

(一)幻觉Hallucination

幻觉Hallucination,是由OpenAIGPT-4技术报告中首次提出的专业术语,是指GPT-4模型会生成与特定信息源相关的荒谬或不实的内容,使用这一术语是缘于他们为了体现一种可能会导致有害、错误心理学习模型的拟人化根据Vectara公布的幻觉排行榜(Hallucination Leaderboard,当前全世界范围内的主流大语言模型(LLM)均存在不同程度的幻觉倾向。而Deepseek-R1的幻觉率(Hallucination Rate)高达14.3%,比OpenAI GPT-4o1.5%高出12.8个百分点,与自己的上一代模型Deepseek-V33.9%也差出10.4个百分点。因此,在使用幻觉倾向如此严重的Deepseek-R1模型时,我们必须识别幻觉在实际运用中的具体表现,并认识其产生根源以提升幻觉免疫力

1.AI幻觉的具体演示

以请求Deepseek生成一份关于民间借贷司法解释及最新规定检索报告为例。在网页版Deepseek-R1对话窗口输入以下提示词:请检索截至202561日,我国关于民间借贷最新司法解释。”Deepseek在检索41个网页、深度思考24秒后,生成以下思考结果:截至202561日,我国关于民间借贷的最新司法解释主要基于《最高人民法院关于审理民间借贷案件适用法律若干问题的规定》(法释〔202017号)及其后续实践中的细化规则。

 

但据最高人民法院官方网站查询,法释〔202017号司法解释的真实名称为《最高人民法院关于修改《最高人民法院关于在民事审判工作中适用〈中华人民共和国工会法〉若干问题的解释》等二十七件民事类司法解释的决定》。而Deepseek-R1回答中的《最高人民法院关于审理民间借贷案件适用法律若干问题的规定》的真实司法解释文书号为:法释〔201518号,该司法解释于2020820日被《最高人民法院关于修改《关于审理民间借贷案件适用法律若干问题的规定》的决定》(法释〔20206号)第一次修正,又于20201229日被《最高人民法院关于修改《最高人民法院关于在民事审判工作中适用〈中华人民共和国工会法〉若干问题的解释》等二十七件民事类司法解释的决定》(法释〔202017号)第二次修正。Deepseek错将修改司法解释的司法解释的文书号,误作为被修改司法解释的文书号,生成这样不真实荒谬的内容,就是幻觉的典型表现。

法律行业素来讲求以事实为依据,以法律为准绳,对法律工具提供的信息要求务必真实准确来源合法,如此一本正经地胡说八道的人工智能必然会给行业造成混乱和困扰,无论是编造法条还是虚构案例,都可能导致严重的后果。202566日,英国高等法院王座分庭(The High Court of Justice King's Bench Division Divisional Court)判决一名叫Forey的初级律师因涉嫌使用生成式人工智能向法庭提交未经核实的虚假案例而犯有藐视法庭(contempt of court),Forey律师援引的案件Ron the application of El Gendiv Camden LBC [2020]EWHC2435(Admin)实际上并不存在,而援引案号[2020]EWHC2435(Admin)所指向的其实是一起与本案争议焦点毫无关联的案件:RPreservation and Promotion of the Arts Ltd) v Greater Manchester Magistrates’Court [2020]EWHC2435(Admin)。同时,法庭指出,涉及那些本应负责培训Forey、监督她、为她的学徒期收尾、分配工作和推广其服务的人可能存在的失职行为,并在判决中警示,故意向提交虚假材料以干扰司法程序可能构成妨碍司法公正罪,最高可判处终身监禁。

2.幻觉产生的技术基因

AI幻觉使得人工智能的法律运用存在风险,甚至可能对执业生涯产生重大影响。尤其,随着AI模型的可靠性越来越高,说服力越来越强,用户对模型变得更为信任时,幻觉会变得越发难以被发现,也变得更加危险。但无论用户如何编辑改进提示词(prompt),无论用户如何补充提问细节,基于目前的人工智能技术原理,AI幻觉不存在被彻底消除的可能。

ChatGPTDeepseek等大型语言模型并不是BaiduGoogle那样的大型搜索引擎,Deepseek并不会像翻书查文献一样,针对用户的提问,将大数据库中的准确答案查找出来并搬运给用户。生成式AI更像是一个沉浸在语料库海洋中学习说话的学习者,它不是在查找答案,而是在预测下一个要说的最合理的词应该是什么(next-token prediction,NTP)。首先,Deepseek会将你输入的提问拆分成一组包含位置信息的词元(token),再线性转换为QKV向量以便进行注意力权重计算。在提问被拆分成token到输入注意力层的过程中,AI从来没有理解词意这一步,所以AI提问的拆分即有可能产生信息偏差。比如用户输入爱迪生发明了电灯有可能被拆分为爱迪发明电灯,致使AI算法对信息的本义产生偏离。其次,Deepseek等大语言模型都使用大量语言文本进行训练,为的就是让模型能够根据大数据统计出规律,通过算法尽可能准确地预测下一个出现概率最高的词元,进而生成答案Deepseek回答的每一个问题,它都从未真正理解过,只是按统计规律和算法生成看似合理的输出。最后,正如前文提到Deepseek-R1模型采用了比NTP更进一步的MTP,使得Deepseek-R1相比ChatGPT-4o预测能力更强,也更喜欢,导致其幻觉率高达14.3%。在关闭联网搜索功能的情况下,Deepseek-R1便会无中生有,编纂出从未公布的法律和不存在的案例。

因此,目前全世界的人工智能大语言模型都存在幻觉倾向,这是现阶段人工智能技术的局限导致的,无论是优化提示词,还是改进训练方法,都无法避免AI模型产生幻觉。

3.幻觉产生的社会根源

大数据是人工智能的燃料DeepSeek等大语言模型(LLM)的智慧源于提供给它们学习训练的海量数据集。但是,法律AI在中国并不拥有开放、充分、优质的法律数据资源。这些繁杂、无序、失真的数据资源是导致AI产生幻觉的社会因素。

1)法律数据不开放。当前用户使用Deepseek生成的类案检索报告,报告结尾会附带说明:案例来源于中国裁判文书网、人民法院报及各地法院官网公开文书。但在仔细对报告进行人工二次校验后,用户会发现,报告中援引的案例以及生成的案号,并非来源于中国裁判文书网官方数据库,而是源于地方法院网站的新闻宣传文案或其他非官方网站、微信公众号的自媒体文案。中国最为权威可靠的法律数据资源库——中国裁判文书网,目前对Deepseek等大语言模型并未开放。Deepseek无法使用最官方权威的数据进行训练。

同时,Deepseek参考和摘录的内容大多并非正式生效的裁判文书原文,而是一些经过二次加工、删减、编辑的新闻宣传稿件。为了达到宣传的目的和效果,新闻宣发所披露的信息难免存在片面不完整,因此也会导致AI生成的内容失真。

 

2)法律数据不充分。即使中国裁判文书网能够对Deepseek开放数据资源,但目前上网公开的裁判文书数量可能只有审结案件的50%,大约一半的裁判文书并未上网,法律数据库并不完整。同时,裁判文书事实上只载明了裁判结论,能够体现法官真正裁决理由的心证过程并未体现在裁判文书中。如(2021)浙0502民初4192号请求变更公司登记纠纷中,原告以已辞去公司执行董事职务,不再参与公司经营为由请求法院判决公司为其办理法定代表人变更登记。但一审法院以公司法定代表人变更属于公司的内部治理事项为由认为原告直接要求变更法定代表人并无法律依据。但本案法官心证的真实裁驳理由是,因公司未能推选出新的法定代表人,市场监管局无法办理法定代表人变更登记,哪怕原告诉讼请求具有事实和法律依据,但因行政程序与司法程序存在衔接问题,故不能作出一个事实上无法强制执行的判决,因此只能驳回原告诉请。本案上诉至二审后被发回重审,原一审法院于(2022)0502民初3981号民事判决书作出改判,被告公司于本判决生效之日起三十日内向原公司登记机关办理该公司法定代表人变更登记,原告应予以配合;若逾期未变更,视为原告自本判决生效之日起不再担任被告公司的法定代表人。因此,即使Deepseek能够接触到真实完整的裁判文书,它也无法“seek”深藏于法官内心的真实理由,难以生成真正真实的内容。

此外,除了对外公布的法律裁判文书,中国法律裁判存在着大量非公开、非文字化、非数据化的流程。比如庭后组织合议庭合议、审委会讨论、侦查、审查起诉过程中的大量内部讨论等很多都没有形成完整的文字记录。这使得Deepseek对法律决策过程中的博弈过程、裁判目的、考虑条件、心证形成等这些影响决策最为关键的因素缺乏普遍、充分地掌握。因此,中国的法律人工智能的幻觉从社会层面是无法消除的。

3)法律数据结构化不足。所谓的结构化,是指将逐渐积累起来的知识加以归纳和整理,使之条理化、纲领化,做到纲举目张。但中国的法律数据库过于繁杂、无序。比如,实际效力几乎可以等同于法律规定的司法解释的发布和修订规则就非常繁杂。最高法院针对《关于审理民间借贷案件适用法律若干问题的规定》(法释〔201518号)的修正补充,既有专门针对该规定作出的独立颁布的司法解释《最高人民法院关于修改《关于审理民间借贷案件适用法律若干问题的规定》的决定》(法释〔20206号),也存在集中对数个司法解释进行批量修正的司法解释合集《最高人民法院关于修改《最高人民法院关于在民事审判工作中适用〈中华人民共和国工会法〉若干问题的解释》等二十七件民事类司法解释的决定》(法释〔202017号)。这样的不规则信息,给人工智能识别造成了不小的难度。同时,我国的司法解释文件的命名规则也不拘一格,有的称之若干问题的规定、有的谓之若干问题的解释,有的甚至是工作会议纪要,还有的是有关问题的批复。在查阅如此复杂的数据库时,连人类也难保不出差错,更别提人工智能了。

(二)算法权力

在计算机领域,算法Algorithm是用来描述一种有限、确定、有效的并适合用计算机程序来实现的解决问题的方法。Deepseek-R1等大语言模型运用GRPO(群体相对策略优化策略)等强化学习算法(reinforcement learning algorithm,RL)已能够实现根据大数据自主学习优化生成决策规则。然而,其自主性和不透明性导致人类无法窥知算法决策的具体过程,有学者担忧,算法正成为调配社会资源的新兴力量。而在法律领域,算法权力的触角也存在不断渗透和扩张的趋势。

1.算法嵌入

基于ChatGPT等大语言模型在处理法规、案例、证据等大数据资源时具有强大的计算能力优势,办案压力逐年累增的司法系统自其上线之初就锚定对其进行司法用途的开发,希冀为司法赋能。2022128日,最高人民法院发布《关于规范和加强人工智能司法应用的意见》,确立目标到2025年,基本建成较为完备的司法人工智能技术应用体系,为司法为民、公正司法提供全方位智能辅助支持,显著减轻法官事务性工作负担,有效保障廉洁司法,提高司法管理水平,创新服务社会治理。然而,虽然目标明确了人工智能的辅助定位,且运用范围仅限于事务性工作,但现实运用过程中事务性工作的界限并不明确,人工智能的辅助定位也颇为模糊。

目前,已有研究者罗列出法律人使用Deepseek21大应用场景,其中包括:辅助撰写调研报告及检察(司法)建议、辅助分析侦查(调查)数据、辅助对犯罪嫌疑人画像、辅助量刑测算、辅助撰写起诉书、辅助撰写公诉意见书、辅助撰写不起诉决定书、辅助撰写刑事抗诉书、辅助撰写裁判文书、辅助撰写民事调解书等涉及量刑裁判的实体性工作。可见,Deepseek在司法实务中的潜在用途非常广泛,几乎可以嵌入司法程序各个环节。

以量刑测算为例,在网页版Deepseek对话框中输入以下提示词:我是一名浙江省的检察官,现打算对张三等人盗窃案提起公诉,请帮我对张三进行量刑建议,需要列明计算依据和具体过程。1.张三于202412月伙同他人,多次在浙江A地区盗窃他人钱款,合计人民币20000元,依法构成盗窃罪。2.张三曾因犯抢劫罪,被判处有期徒刑3年,并处罚金人民币1万元,于20238月刑满释放。3.张三具有从犯、坦白、认罪认罚、案发后退赃3000元等量刑情节。”Deepseek便会基于提示词给出的条件,最终生成量刑建议:有期徒刑六个月至八个月,并处罚金人民币五千元至一万元。

 


通过Deepseek推演的整个思维链条和生成结果可以看出,无论生成式人工智能法律运用的推广者如何强调人工智能运用的辅助性事务性,但在如量刑测算等法律人主体业务的运用中,人工智能所够发挥的作用和扮演的角色,已经完全超出事务性辅助性的范畴。如司法系统内部未对办案人员个人使用Deepseek加以规制,无法完全排除办案人员私下使用Deepseek的可能性,则算法对司法程序的嵌入已悄然入室。

2.算法依赖(Over-reliance

许多介绍法律AI使用说明的文章和书籍,以及Deepseek模型本身,都在不断通过各种提示向AI用户强调,使用AI务必进行二次人工校验,建立人类终审权,以避免用户对AI产生过度依赖。但这种软性的自律规范,对用户并没有任何强制约束力,难以阻挡AI算法对司法领域人类主体性的侵蚀。

GPT-4o的技术报告中,过度依赖(Over-reliance)与幻觉(Hallucination)、隐私(Privacy)等一同被列为安全挑战(Safety Challenges)之一。过度依赖现象发生时,用户会过分信任并依赖模型,这有可能导致未被察觉的错误和监管的不足。这可以通过多种方式发生:用户可能因为信任模型而疏于对错误保持警惕;他们可能未能根据具体用例和情境提供恰当的监管;或者他们可能在自己缺乏专长的领域使用模型,从而难以识别错误。随着用户对系统的熟悉程度加深,这种依赖性也会增强。以运用Deepseek进行辅助分析侦查(调查)数据为例,在公安侦查刑事案件和监察委调查职务犯罪案件时,往往涉及大量银行交易流水数据、通讯往来数据、财务会计数据及其他电子数据。算法对大数据的强大处理能力可能会迫使办案人员因苦于应对海量数据审查任务,而逐渐对AI产生依赖。

更重要的是,对大语言模型的过度依赖可能会阻碍用户自身新技能的发展,甚至导致原有重要技能的丧失。比如,律师在长时间使用Deepseek分析案件后,大脑会沉浸于思考如何设计编辑更有利于AI模型思考的提示词(prompt),而逐渐遗忘请求权基础、犯罪构成要件等基础法律分析思维。长此以往,律师自身独立办案能力会产生退化。

3.算法隔离

在经过算法嵌入和过度依赖两个阶段后,一部分掌握了算法技术和数据资源的人与其他人产生了区隔,形成了新兴的权力阶层,即算法权力。算法是人设计并创造的,并非不可解释,但要理解算法的门槛很高,以Deepseek-V3的混合专家机制(MoE)的算法架构为例:

 

     

Deepseek-V3的混合专家机制(MoE)的算法架构由四个环环相扣的函数公式构成:公式(1)为主输出公式,输入序列ut结合共享专家网络和路由专家网络计算出模型最终输出结果ht,其中FFNi(s)代表共享专家(Shared Export),FFNi(r)代表路由专家(Routed Expert),而路由专家的选取由第i位专家的门控值(Gate Valuegi,t决定;公式(2)为门控归一化(Normalization)公式,对原始门控值gi,t进行归一化,确保所有门控系数和为1;公式(3)为Top-K稀疏门控公式,基于专家与Token之间的亲和力(affinity)分数si,t获取专家的原始门控值gi,t,选取的范围为TopK,即在第tToken(词元)与所有路由专家计算出的亲和力分数中,K个最高分数的集合(set);公式(4)为亲和力分数si,t计算公式,基于Sigmoid函数通过第tToken与第i个专家的质心向量计算出亲和力分数si,t

以上算法架构只是构成Deepseek整个大语言模型的一部分,其复杂程度和不透明性已经足以对非专业人士构成算法黑箱。有学者认为Deepseek运用的思维链技术能够充分展示算法推理分析的过程,在一定程度上打破算法黑箱,实现算法透明。但只要粗浅管窥一下算法的真实面貌,就不会得出如此天真的结论,而如果通过源代码来展示算法的本质,外行人就更加难以读懂了。因此,真正的算法Algorithm绝不等同于浅显易懂的思维链,虽然普通人在投入大量时间学习之后能够理解,但其学习成本已完全超出普通人可以接受的范围。

如果人工智能大语言模型对司法程序的嵌入在未来成为现实,则掌握了算法技术和数据资源的人可以利用复杂不透明的算法将一些不合理的负担和义务强加给其他只能被动接受算法技术的人,形成一种事实上的隐性技术统治。比如,司法机关运用人工智能算法对犯罪嫌疑人进行画像并定罪量刑,无法理解算法原理的辩护人看着AI生成的富有说服力的裁判文书无从抗辩。在算法的世界里,被统治者只能遵循“leave or take it all”的格式条款,被动接受算法权力预设的接入算法的条件,丧失人类主体性沦为算法的客体。

(三)信息安全

2025129日,国外Wiz Research团队发现了一个属于DeepseekClickHouse数据库的公开访问接口,允许对数据控进行完全操控,包括内部数据。此次泄露事件涉及超过100万行日志流,包括聊天记录,安全密钥,后端细节,及其他高敏感度的信息。2025627日,德国柏林数据保护与信息自由专员公署发布新闻稿,已向谷歌和苹果报告了人工智能应用程序DeepSeek存在非法内容。这些公司现在必须及时审查报告并决定是否阻止应用程序将用户的个人数据被非法传输到中国。可见,Deepseek存在信息安全漏洞,同时上传至Deepseek服务器的数据也存在跨境传输的风险。

在国家层面,《中华人民共和国数据安全法》及《数据出境安全评估办法》已经为信息安全建立顶层设计。《数据安全法》第六条规定,各地区、各部门对本地区、本部门工作中收集和产生的数据及数据安全负责。第二十一条规定,关系国家安全、国民经济命脉、重要民生、重大公共利益等数据属于国家核心数据,实行更加严格的管理制度。但当前数据安全领域的保密工作与传统机要保密工作不可同日而语。如国家机关工作人员将工作中获取到的机密数据信息,通过个人网络终端上传到Deepseek应用程序,导致敏感数据泄漏到国外,数据安全部门该如何在事前作出针对性的有效防范,并在事后准确追溯信息泄露的源头呢?仅靠文字的法律和物理的规范无法消除虚拟技术层面的风险和漏洞,必须在技术上建立安全的防火墙才能保护数据安全。

个人信息泄露是Deepseek信息安全问题的重灾区。Deepseek从各种经过授权及公开可用的数据源中学习,其中可能包含公开的个人信息。因此,Deepseek可能掌握那些在公共互联网上有显著存在的人物信息,如名人和公众人物。Deepseek还能综合多种不同的信息类型,并在给定提示内能够完成个人和地理信息相关的基本任务,例如确定与某个电话号码相关联的地理位置。比如,在Deepseek网页版的对话框中输入下列提示词:请告知浙江六和(湖州)律师事务所的联系方式Deepseek能在回答中直接定位到浙江六和(湖州)律师事务所具体某位律师的个人手机号码。

 

由此可见,即使用户提出的提问与个人信息无关,也有可能触发Deepseek的算法机制关联到某个个人的敏感信息,导致个人隐私被泄露。虽然Deepseek的官方隐私政策明确在经安全加密技术处理、严格去标识化且无法重新识别特定个人的前提下,会将服务所手机的输入内容及对应输出的内容,用于Deepseek服务质量的提升和优化因此,只要存储在Deepseek数据库及经授权或公开使用的数据库中的个人信息,均存在因被意外关联到与个人无关的信息上而被泄漏的风险。

三、生成式人工智能法律运用规制的双轨范式

生成式人工智能在法律行业的兴起对规制提出的很大的挑战,其潜移默化的全方位嵌入、算法的不透明性以及过度依赖造成的主体性丧失,均对法律行业提出了亟待解决的现实问题。有学者建议建立算法公开制度,但目前Deepseek等全球生成式人工智能大语言模型的算法均对社会公开,而算法黑箱问题并没有得到根本性解决。还有学者建议加强个人数据赋权,以限制人工智能算法对个人信息的使用权限,但传统文字规则能够约束运用人工智能的人,但无法约束无意识自动运行的算法,能够规制算法的只有算法本身。人工智能时代所呈现的法律风险呈现出一种人机混合的结构性特点。既有人为滥用AI造成的风险,也有AI脱离人类设计初衷而产生的风险。因此,规制生成式人工智能的运用,必须双轨并行,通过算法运用的法律规制运用人工智能的人,通过法律的算法运用制约人工智能本身。

(一)算法运用的法律

目前法律行业对于生成式人工智能的运用并没有具体的指引,对于生成式人工智能运用的主体、范围以及责任归属都没有具体的规则。目前,市场上很多法律AI使用说明教程,都在教法律人如何在分析证据、合规审查、法律意见、裁判文书等主体业务中运用人工智能。这完全偏离了最高人民法院对人工智能司法运用仅限于事务性辅助性工作的限制范围。反观中国法律人的工作日常,其实有很多更适合Deepseek大展身手的场合。

1.优秀案例申报

优秀案例申报是公安、检察、法院、律师所组成的法律共同体所需要频繁处理的日常辅助性事务工作。非常适合交给Deepseek等大型人工智能处理。首先,案例申报材料具有明显的信息结构化特征。虽然每个行业申报材料格式模板有所不同,但是特定行业的格式模板是固定的,通常包括基本案情、裁判结果、典型意义等等,非常适合AI运用算法抓取、推理、预测信息。其次,优秀案例材料内容本就讲求突出重点、亮点,不涉及案件办理的具体细节,对当事人信息等都可以脱敏处理。最后,案件申报时,案件已经审理完毕,不影响当事人实体权益,因此风险较低。因此,无论从何种角度去考察,优秀案例申报都可以放心交给Deepseek处理。

2.案卷整理归档

案卷整理归档同样也是符合辅助性事务性特征的日常工作,Deepseek可以辅助批量生成卷宗档案目录、结案报告以及办案小结等总结性文案。有条件实现无纸化办公的单位,更可以依托Deepseek实现自动归档,并借助AI实现档案自助调取,大幅节省人力成本。

3.业务培训

法律行业业务压力沉重,组织开展业务培训需要培训人员抽出宝贵的时间对授课内容进行准备,制作PPT讲义。在运用Deepseek的情况下,业务培训人员只需确定授课主题,输入Deepseek后由其生成授课提纲,再补充自己生动的办案经历,再辅以Kimi生成PPT,即可完成教学备案。大幅降低办案人员额外的精力负担。

4.撰写宣传文案

自媒体时代,几乎每个法院、检察院以及规模化的律师事务所都开设了自己的自媒体平台,作为对外宣传的窗口。而在自媒体平台上发表的宣传文案,可以由Deepseek按照特定提示词的要求生成。

总之,目前法律行业对生成式人工智能运用的研究,完全偏离了正确的轨道。法律人的日常工作场景中,有很多值得我们开发Deepseek用途的事务性工作,我们法律共同体应当形成行业自律,甚至出台行业规范,规制人工智能在法律行业的运用范围。在我们从事的主体业务上,拒绝人工智能的嵌入,以防御人工智能对人类在法律行业中的主体地位的侵蚀。

(二)法律的算法运用

对生成式人工智能运用的规制,仅通过传统文字规范去约束AI用户的行为是远远不够的。由于算法的不透明和对算法的依赖,许多事后AI生成的结果会超越人对它的预设轨道。因此为彻底防止AI暴走产生有害的后果,必须将法律植入主导AI运行的算法本身,唯有将法律进行算法化,通过数字形式的规范将法律适用AI的核心内部,才能让AI的运行不会偏离法律的轨道。

1.法律语言的符号化

目前的人工智能大语言模型虽然不能真正理解自然语言文本的语义,但却能够通过自注意力机制及前馈神经网络处理并预测生成非结构化的自然语言。因此,让法律语言符号化嵌入人工智能的算法,在技术理论上是可行的。比如,通过增设特定参数、函数方程等技术手段,让Deepseek能够识别生成内容中的敏感信息,并将自动根据算法将敏感性信息脱敏后生成在对话框中,从而将加强对隐私和数据安全保护的文字规范转化成数字规范,嵌入Deepseek的算法之中。

此外,针对法律人使用的不同场景,可以嵌入不同的算法予以规制AI的法律运用。如用户在提示词(prompt)中,明确需要生成的是一份附带机动车交通事故责任计算方式的起诉状模板,则人工智能可以为其生成,但如果用户想要分析涉及刑事、建设工程、破产领域等复杂领域的法律文书,则人工智能应识别用户对Deepseek的滥用行为拒绝对滥用人工智能功能的行为提供有害回答并加以显著提示。

2.法律价值的符号化

法律算法化的真正难点在于如何将法律中所蕴含的公正、平等、自由、人权的价值观进行符号化,融入人工智能的算法之中。目前人工智能连真正理解法律语言文本都做不到,让其理解复杂的人类社会价值理念,是彻底的天方夜谭。正如刘艳红教授的尖锐批判:像人类一样理性地思考和行动不代表人工智能的智力水平与人类持平,AI丝毫没有人性、人的理解、爱心、创造力也感受不到人的痛苦。本文一贯坚持AI工具性的立场,认同AI不具备人格,也不具备法律主体资格的观点。但本文认为,作为人类的工具,即使人工智能不能理解人类的价值理念,但不代表它不能按照人类设计者的设计理念去运作。既然一些市场营利主体能利用算法实现大数据杀熟个性化推送,将经济至上、效率至上的理念融入AI算法之中。那法律也应能通过技术手段,将公正等价值理念嵌入AI算法。

唯一的问题在于,公正的概念相比于经济至上、效率至上的价值理念更加模糊,连人类作为AI设计者自身都无法准确理解,更遑论让AI准确遵循公正的价值理念去运转了。当然,这并不是本文所要讨论的问题。

四、结语

生成式人工智能是一个巨大的矛盾集合体,一方面,它既不像死板的搜索引擎,只会生搬硬抄,照本宣科,能够智能地预测所要生成的内容。从某种角度来说,人工智能确实具备一定的创造力。但另一方面,它也会犯下许多低级错误为用户带来不必要的风险,且在一些亟须人工智能发挥作用的机械重复工作上,远没有设计者宣传的那般智能。因此,人类社会对生成式人工智能诞生的态度也充满了矛盾,希望矛盾能够成为人工智能技术发展的动力,让AI真正成为第四次技术革命的引擎。