/礼丰洞察
AI⼤模型实务系列问答一:语料训练及大模型备案
2024-08-01

作者:宇文沛、俞琳



引言


随着人工智能技术的飞速发展,AI大模型已成为推动社会进步和科技创新的关键力量。从医疗诊断到自动驾驶,从语言翻译到个性化推荐,AI大模型的应用几乎触及了我们生活的方方面面。然而,这一领域的蓬勃发展也带来了前所未有的法律挑战。本文旨在通过实务案例探讨AI大模型相关的语料训练及备案实务问题。



场景化案例分析


LL系正在自主研发一款AI大模型的初创公司,小礼是该公司研发团队的一名算法工程师,小丰则就职于该公司法律合规部。随着模型研发的深入,公司产品化和上线运营的计划也逐步展开,为此,小礼和小丰展开了如下讨论:


小礼:我们正在积极进行AI大模型自主研发,现在正在与战略部门定制未来大模型产品商业化的策略,讨论后我们马上内部立项。想先和法律合规部咨询下,目前国内大模型服务上线前,我们需要配合做哪些前置手续?是否需要政府部门备案或者审批?


小丰:正常情况下,是需要的。具体可以考虑以下要求:


  • 针对算法/大模型产品及服务的专门备案要求


    针对大模型服务或产品,通常需要完成两项专门性的前置备案工作:算法服务备案(“算法备案”)以及生成式人工智能服务备案(“大模型备案”)。


    根据相关法规,小丰将触发备案义务的判断要素总结如下: 



2222.png


  • 拟提供互联网信息服务所涉及的前置手续


    除了满足算法/大模型服务的专门备案要求,公司还需办理一般互联网信息服务产品上线的前置手续,可能包括互联网信息服务(ICP)备案/许可、公安联网备案、App/小程序备案等


  • 行业主管部门的特殊监管要求


    需特别注意,无论是前置业务许可还是大模型监管,都应考虑行业监管要求。例如,提供互联网新闻信息服务的需取得互联网新闻信息服务许可;实务中,部分行业垂类模型在正式备案前需事先征求行业主管意见



小礼:如果我们的产品和服务只向境内企业客户提供,还需要做大模型备案吗?


小丰:我与战略部门沟通后了解到,市面上,企业客户往往有不同的采购需求,可以考虑以下情况:


  • 仅供企业客户的内部增效员工使用


    类似公司内部使用,不涉及对外向不特定的社会公众提供基于大模型技术的产品或服务。由于服务对象范围有限,小丰倾向于认为这种情况一般无需进行大模型备案。


  • 企业客户采购后直接向其用户群体提供服务


    经与监管部门初步咨询,小丰得知,若企业客户在其自身产品中集成、调用了公司的大模型服务、所面向的最终受众仍是一般用户(即B2B2C),公司仍需进行大模型备案。但直接调用已备案大模型服务的企业客户仅需办理登记而非备案手续。


    如果公司既向普通用户开放在线大模型服务又向企业客户提供服务(既2B又2C),获得大模型备案无疑是必须的。



小礼:听起来我们应当事先办理大模型备案。现在我们研发过程中,语料采集及训练是非常重要的环节。我正在对语料进行处理,如果需要办理大模型备案,训练语料方面是否有合规风险或要求?


小丰:据我了解,在训练语料方面也有不少合规风险或要点应注意。


根据《TC260-003生成式人工智能服务安全基本要求》,大模型在语料方面有5大类主要安全风险,其中包括31种具体风险。具体落实在语料合规层面,公司应对语料是否含有前述5大类31种风险内容进行逐一排查。


五大类风险中,公司目前正在针对性排查知识产权和商业秘密合规风险。考虑到小礼你对技术措施有所了解,我来展开讲讲与语料相关的合规要点:


  • 输入侧(语料采集和训练环节),至少应从以下方面考虑


1. 建立语料来源管理机制:确保语料来源的合法性,避免使用明显侵权或未经合法授权的语料。


(1)如果通过爬虫爬取公开数据,应注意避免通过违反Robots协议、设置代理IP、破解密码、伪造UA(User-Agent)等形式进行违规爬取,或者爬取的频率和流量过高从而扰乱被爬网站的正常运营,否则可能构成不正当竞争行为,甚至触发刑事风险;


(2)如果通过第三方采购数据,应重点关注知识产权侵权风险。可要求数据供应商对数据来源予以说明,并在数据购买协议中要求数据供应商对数据来源合法性、数据内容的不侵权性进行相关陈述保证。


2. 语料内容和语料标注的安全措施:例如,语料预处理时,侵权内容筛查可通过人工审核+技术手段实现。


(1)人工审核时,根据公司情况可由内部知识产权团队主导开展或寻求外部专业机构帮助;


(2)常见的技术手段包括关键词过滤、自动化版权检测工具等。


  •  输出侧(生成内容环节),公司至少应采取如下措施


1. 采取适当的技术手段:如关键词拦截机制、引用版权标注、去重算法识别删除相似文本。但面对复杂版权问题,人工审核不可或缺。


2. 保障用户及公众的相关权益:公司需在《服务协议》等文本中明确风险提示、知识产权纠纷处理条款、版权声明,并提供侵权投诉渠道。


为了便于理解,小丰整理了如下语料合规管理义务思维导图:



111.png



结语


通过这次讨论,小礼理解了如果要进行大模型商业化,需要采取的知识产权及数据合规措施,并与小丰达成了共识,需要法律合规部和业务部⻔共同深⼊合作,借助专业的外部⼒量,为公司的⼤模型产品顺利上线与运营保驾护航。在小丰的帮助下,小礼的项目顺利立项,但在研发过程中,小礼又遇到了开源合规及算法透明度等新的问题,与小丰将在下次会议中进一步讨论。