作者:俞琳、蒋海楠
引言
新年伊始,DeepSeek以其出色的大模型性能和极具竞争力的训练成本在全球范围内迅速崭露头角,吸引了众多国内外知名企业的目光,纷纷计划将其接入企业内部系统。作为人工智能领域备受瞩目的参与者,DeepSeek的开源模型DeepSeek-V3和DeepSeek-R1凭借高速生成和精准内容生产的能力,在产业中脱颖而出。
目前,这两种开源模型提供多种接入方式,包括直接访问官方网站及移动端应用、通过API接口付费访问以及基于开源版本进行本地部署。然而,在本地部署开源版本的DeepSeek时,用户必须严格遵守相关的开源许可证要求。本文将聚焦于DeepSeek开源模型本地部署的开源合规问题,解析DeepSeek-V3和DeepSeek-R1模型的开源许可证及其法律合规要点,以期助力企业在合规框架下高效部署AI技术。
DeepSeek的开源模型使用哪种开源许可证?
目前,DeepSeek热度最高的开源模型为DeepSeek-V3和DeepSeek-R1。这两种开源模型在产业中的定位不同,例如DeepSeek-V3侧重于更快的生成速度,而DeepSeek-R1则侧重于更准确的内容生产。我们将二者所涉及的开源许可证信息整理如下[1]:
DeepSeek模型的开源政策对用户提出哪些要求?
1. DeepSeek-V3与DeepSeek-R1的开源许可证
如上表所示,对于DeepSeek-V3的代码仓库以及DeepSeek-R1而言,它们适用MIT许可证。MIT许可证是开源社区中广泛使用的一类宽松许可证,其主要要求包括:
保留原版权声明;
保留许可证副本。
MIT许可证未对用户设定其他特别限制,因此用户可以自由使用、修改相关代码,且无需将自有代码披露给下游用户。
2. DeepSeek-V3模型的DEEPSEEK LICENSE AGREEMENT
对于DeepSeek-V3模型而言,其所适用的自建许可证DEEPSEEK LICENSE AGREEMENT系基于对OpenRAIL(Open Responsible AI License)许可证的修改而来。OpenRAIL是一种专门针对AI模型的开源许可证,旨在开放AI的同时提供一定的责任约束,它由BigScience Workshop和Hugging Face等组织提出,用于管理AI生成内容的使用方式,以确保AI技术的负责任开发和应用。
虽然DEEPSEEK LICENSE AGREEMENT未对用户设定苛刻的使用限制,也无GPL类许可证项下的“传染性”要求,用户可以直接使用DeepSeek-V3模型或对模型进行修改(例如微调fine-tuning、蒸馏distill等)后部署使用,并且用户对修改后的新模型也不承担开源义务。然而,用户在使用和部署DeepSeek-V3模型时,需履行以下合规要求:
提供协议副本(第4.b条):用户需向下游用户提供本协议的副本;
保留声明信息(第4.d条):用户需保留所有版权、专利、商标及归属声明;
声明代码修改(第4.c条):若对代码进行修改,需在文件中显著声明修改。
此外,在使用限制方面,DeepSeek-V3模型禁止用于以下用途(第4.a条):
军事用途;
迫害少数民族;
生成或传播虚假信息;
生成或传播违反相关法律的内容;
未经授权或无正当理由生成或传播个人信息;
诽谤、贬低或骚扰他人;
完全自动化决策并对个人合法权利产生不利影响;
基于个人行为或特征歧视或伤害个人或群体;
利用特定群体的弱点操控其行为,导致身体或心理伤害;
基于法律保护的特征或类别歧视个人或群体。
关于DeepSeek开源协议本身的适用
在研究DeepSeek开源政策的同时,我们也发现了DeepSeek的开源本身也有些许可探讨之处。
其一,基于Llama大模型蒸馏的DeepSeek-R1部分模型的命名:如上文所述,与DeepSeek-R1一同发布的还有六个小模型。其中,DeepSeek-R1-Distill-Llama-8B和DeepSeek-R1-Distill-Llama-70B基于Meta的Llama大模型开发并适用Llama大模型许可证。而根据Llama大模型许可证的要求(“If you use the Llama Materials or any outputs or results of the Llama Materials to create, train, fine tune, or otherwise improve an AI model, which is distributed or made available, you shall also include “Llama” at the beginning of any such AI model name.”),基于Llama大模型所进一步开发的大模型在命名上应该将Llama置于名字的首位,然而目前DeepSeek在命名上将Llama后置于DeepSeek,并未履行该许可证要求。
其二,部分模型适用MIT许可证的兼容性:如DeepSeek所披露的[3],在与DeepSeek-R1一同发布的六个小模型中,四个小模型基于阿里Qwen模型开发,两个小模型则是基于Meta的Llama大模型开发。然而,Qwen模型适用Apache 2.0许可证,而Llama大模型适用Llama类许可证,而这两种许可证都比MIT许可证要更为严格,因此,相关代码/模型的组装实则应适用更为严格的许可证(即Apache 2.0或Llama类许可证),而非更为宽松的MIT。
结语
人工智能技术广泛应用的当下,企业对开源模型的采用正成为推动行业发展的强大动力。不过,与传统软件开源协议不同,AI领域的开源许可通常包含一系列特殊的使用限制、责任豁免条款以及对衍生产品的约束机制。在实际应用中,企业若未能充分理解并严格遵守这些许可要求,很容易遭遇法律风险的挑战,甚至可能因此遭受不可挽回的商业损失。面对这一现状,企业应积极提升对开源许可的认知水平,加强内部合规管理,同时,整个行业也应共同努力,推动建立更加完善、清晰的AI开源规则体系,以促进人工智能技术的健康、可持续发展,让开源的力量更好地服务于社会进步和产业升级。
注:
[1] https://github.com/deepseek-ai
[2] https://github.com/deepseek-ai/DeepSeek-V3/blob/main/LICENSE-MODEL
[3] https://github.com/deepseek-ai/DeepSeek-R1