/礼丰洞察
AI大模型实务系列问答二:知识产权保护及开源合规
2024-08-22

作者:俞琳、宇文沛

 


引言

 

承接本系列第一篇文章《AI大模型实务系列问答一:语料训练及大模型备案》,本文旨在通过实务案例继续探讨AI大模型相关的知识产权保护及开源合规实务问题。

 


场景化案例分析

 

LL系正在自主研发一款AI大模型的初创公司,小礼是该公司研发团队的一名算法工程师,小丰则就职于该公司法律合规部。随着AI大模型研发的深入,小礼对其中的法律问题产生了一些疑问,为此,小礼和小丰展开了如下讨论:

 

小礼:目前我们的AI大模型产品正在进行自主研发,但我们研发部门有个担忧:如果产品上线后被别人抄袭,那市场竞争力肯定会受到影响。我们可以通过什么样的方式保护研发成果?

 

小丰:AI大模型可在我国知识产权法律框架下获得多维保护。我们应综合公司的商业竞争策略、技术是否易于反向工程、规避设计难易程度等多个因素,有的放矢地寻求最佳保护组合。


  • AI大模型通常体现为计算机软件,可以获得著作权的保护


1. 计算机软件可以通过登记确认著作权。例如,小米公司对其“基于大模型的知识问答系统”进行了软件著作权登记。


2. 需要注意的是,小礼在大模型训练过程中获得的参数(通常为权重和偏差)较难作为作品获得保护。原因是参数并非独立创作的产物,而是基于与模型的反复交互和纠正而筛选出的结果。


  • AI大模型所使用的技术方案,可以获得专利保护


1. 在具备应用场景或实现手段的前提下,即当算法或规则与特定领域的技术问题密切相关,并且可实现一定的技术效果时,AI大模型中的底层算法方案能够获得专利保护。例如,支付宝所申请的名称为“绘图协议下的人工智能模型业务处理方法、装置及设备”的专利实现了提升人工智能业务处理能力的技术效果,则顺利获得了授权。


2. 需要注意的是,仅单纯的算法或规则不能获得专利保护。例如,谷歌在中国申请了其开发的Transformer模型的专利,被以方案要解决的问题是神经网络本身的问题,而非技术问题为由而驳回。


  • AI大模型研发过程中积累的技术信息,可以作为商业秘密予以保护


1. 产品研发过程中积累的有价值的且非公开的技术信息,在采取了有效保密措施的前提下,可作为企业商业秘密进行管理和保护


2. 需要注意的是,商业秘密的保护具有相对性,即商业秘密仅能排除他人未经授权的获取和使用己方技术秘密的行为,不能禁止他人就相同的技术主题开展独立研发。

 


小礼:自主研发的过程中,我们会按照行业惯例使用开源代码,比如从GitHub、SourceForge等开源代码社区获取一些开源组件,这么做是否有法律风险?

 

小丰:在这种情况下是有一定法律风险的,具体可以考虑以下方面:


  • 使用开源代码的同时需履行相应的开源许可证义务,否则可能需承担著作权侵权、开源许可证违约等法律风险


源代码开源并不意味着权利人完全放弃了其所享有的权利。一般而言,开源代码在发布的同时都随附有开源许可证,其会对开源代码的使用者提出一系列要求,例如是否能够进行闭源开发、声明义务等内容。


例如,GPL类许可证可简单理解为在分发使用场景下,不允许对开源代码进行闭源开发,也即实践中称谓的开源“传染性”。考虑到企业往往倾向于通过闭源方式向用户提供软件,这与GPL类许可证的使用原则存在冲突,需专业人员界定“传染”范围并提供规避建议。


  • 对开源代码的使用,还需与公司自身知识产权战略保持一致


例如,若公司的专利技术中使用了Apache v2许可证的开源组件,那么一旦公司针对使用了该开源组件的其他用户进行专利维权,则公司自动丧失了有关该开源组件原有的使用许可。有鉴于此,公司在拥抱开源的同时需要有体系化的管理思路,避免因引入开源组件而导致后续维权受限

 


小礼:除了开源代码外,我们可能还会以开源大模型为基座进行开发,使用开源大模型和使用开源代码的合规要求是否相同?

 

小丰:要求不相同,具体可以考虑以下方面:


  • 开源大模型应与开源软件予以区别


开源大模型的发展仍处于初级阶段,尚未形成明确标准。此前,行业内通常直接采用软件开源许可证(例如Apache、MIT许可证等)对大模型进行开源。但由于传统的软件开源许可证只涵盖代码,无法适配大模型同时涵盖代码、参数、训练数据的特性,加之大模型的能力提升以及潜在滥用风险,软件开源许可证难以满足前述需求,因此行业内逐渐发展出专用于大模型的开源许可证,其在使用行为限制、商业用途等方面有所差异。


以目前常见的大模型开源许可证为例:


1. Responsible AI Licenses (RAIL)系列开源许可证:增加了对被许可人的使用行为限制,并且按照AI大模型的数据、源代码、模型、应用程序/服务这四类组件区分了开源模式。例如,AI Pubs Research-Use RAIL-M许可证仅限于研究目的;


2. Llama系列开源许可证:Meta AI公司为其所发布的Llama大语言模型定制了不同的开源限制。例如,Llama 1未授予商业使用许可,Llama 2授予了在活跃用户小于7亿时的自动商业使用许可,Llama 3则增加了强声明义务。

 


小礼:那么我们是否可以直接基于境外的开源大模型底座进行研发,或者调用境外的开源大模型底座?

 

小丰:基于我们对大模型安全评估工作的了解与实务观察,建议避免基于境外开源模型底座进行研发、或调用境外开源模型向境内用户提供服务,否则可能导致拟上线大模型无法顺利办理相应的备案/登记手续,或引发监管部门的关注。


例如,在大模型安全评估相关技术文件—TC260-003《生成式人工智能服务安全基本要求》中,第6条“模型安全要求”指出:服务提供者如需基于第三方基础模型提供服务,应使用已经主管部门备案的基础模型。


目前,也已经有监管部门关注到不当调用境外模型向境内用户提供服务的问题。此前,重庆市网信部门对其辖区内未经安全评估上线提供Chat-GPT生成式人工智能信息服务的某科技工作室开展执法约谈,并责令该工作室立即关停相关服务。


因此,在接入或调用境外开源大模型进行研发或提供服务前,应当考虑到合法合规性、安全性等关键因素。例如,公司应当优先考虑接入已备案的模型进行研发,同时采取措施确保模型的安全性;如果公司系基于境内开源大模型进行研发,还需考虑例如获得开源模型许可证等相关义务。

 


结语

 

通过这次讨论,小礼理解了大模型的研发过程中,如何获得知识产权保护及满足开源合规要求,并与小丰达成了共识,需要法律合规部和业务部门共同深入合作,借助专业的外部力量,为公司的大模型产品顺利上线与运营保驾护航。最终,公司的产品在各部门的合作下成功上线。