总第104期 生成式人工智能服务安全评估要点与合规建议
随着ChatGPT在全球范围内的广泛应用,科大讯飞、百度、华为等龙头科技企业也陆续推出了自己的大模型产品,我国的AIGC产业正在迅猛发展。但是AIGC在推动生产力进步的同时,其本身也存在非法侵害他人权益的隐患,由此带来的合规问题也逐渐受到监管部门的重视。近日,全国信息安全标准化技术委员会发布了《生成式人工智能服务安全基本要求(征求意见稿)》(以下简称“《安全评估征求意见稿》”)。这是中国首个专门针对生成式人工智能提出具体安全要求的国家标准,颁布后将可用于指引企业遵守《生成式人工智能服务管理暂行办法》的要求。本期专题结合最新征求意见稿主要内容,对于安全评估内容、安全评估的要求以及企业合规要点等重点法律问题进行深入解析。
2023年1月10日生效的《互联网信息服务深度合成管理规定》中规定,深度合成服务提供者开发上线具有舆论属性或者社会动员能力的新产品、新应用、新功能的,应当按照国家有关规定开展安全评估。其相关“安全评估”为依据《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》,在“全国互联网安全管理服务平台”上完成的安全评估。
但2023年7月10日出台的《生成式人工智能服务管理暂行办法》(以下简称“《暂行办法》”)中也明确规定了“安全评估”:提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。这一“安全评估”是否与“全国互联网安全管理服务平台”上完成的安全评估一致,目前在实务中是明显存在差异的。
根据2023年8月底的多家媒体报道,“多家大模型首批通过《生成式人工智能服务管理暂行办法》备案向公众开放”,其中所述“备案”明显与“算法备案”以及“全国互联网安全管理服务平台”上的安全评估不同。而目前根据本次发布的《安全评估征求意见稿》可以进一步知悉,其具体评估内容与“算法备案”“全国互联网安全管理服务平台”上的安全评估也不同,加之这一国标的制定依据为《生成式人工智能服务管理暂行办法》,其作为《生成式人工智能服务管理暂行办法》的支撑文件,与8月底多家大模型通过的备案需要完成的要求相一致。
而企业无论是否面临《生成式人工智能服务管理暂行办法》相关备案,均由于《安全评估征求意见稿》汇总了目前包括知识产权、数据合规、网络安全合规、内容合规等多方面的合规要求,而可以成为大模型企业的合规参考,以避免可能的法律风险。
1、适用主体
根据《安全评估征求意见稿》,在大模型的安全评估过程中,TC260首先界定了“生成式人工智能服务”与其服务“提供者”,其并未如《互联网信息服务深度合成管理规定》一样规定“技术支持者”,而是与《生成式人工智能服务管理暂行办法》保持一致,仅就直接向境内公众提供生成式人工智能服务的组织或个人规定为“提供者”,进而适用该安全评估。
2、评估内容
目前《安全评估征求意见稿》规定,需要从语料安全(训练数据安全)、模型安全、安全措施、安全评估进行生成式人工智能的安全评估:
语料安全
(1)语料来源的基本评估要点
根据《安全评估征求意见稿》,训练数据(语料)被根据来源区分了不同的合规要求:
同时从整体而言,训练数据被要求建立语料应当搭配不同来源的语料训练(包括不同语言,境内外数据等);同时应当建立语料来源黑名单,不使用黑名单来源的数据进行训练;根据我国网络安全相关法律要求阻断的信息,不应作为训练语料。
(2)语料内容的基本评估要点
内容合规作为生成式人工智能的重要合规要求,在《安全评估征求意见稿》中进行了如下要求:
(3)语料标注的基本评估要点
《安全评估征求意见稿》中根据《生成式人工智能服务管理暂行办法》第8条的要求,对语料标准从人员、规则、质量的角度进行要求。
模型安全
《安全评估征求意见稿》对模型本身的安全也同样提出了要求:
(1)基础模型
用于研发的基础模型应当为经过主管部门备案的基础模型。
但该备案具体是指何种备案需要明确,以及针对基础模型的定义同样需要明确。
(2)模型生成内容安全
针对模型直接输出的,未经其他处理的原生内容,目前《安全评估征求意见稿》依据《生成式人工智能服务管理暂行办法》第4条,要求提供者应当将生成内容安全性作为主要考虑指标,同时应对用户输入信息进行安全检测,引导模型生成积极内容;并且应当定期优化模型。
(3)服务透明度
算法透明一直是各国监管的难点,《安全评估征求意见稿》中虽然规定了提供者应当在服务的相应位置向用户披露包括服务适用的人群等,以及第三方基础模型使用情况,以及具体服务的局限性等。
但基础模型、服务局限性等应当披露到何种程度,例如是披露使用了LLAMA2的基础模型就可以满足要求,还是要针对LLAMA2进行具体说明,是需要进一步明确的。同时向公众披露基础模型、服务的局限性是否可以起到保护用户权益(知情权等)的要求也是需要梳理的。如果是需要公众具有一定的知识后才可以理解的信息,是否信息披露应当以其他方式替代。
(4)生成内容准确性、可靠性
从避免生成内容被用于诈骗等违法犯罪行为,生成式人工智能生成物应当准确、可靠。但同时需要考虑的是目前的技术,如果为了实现这一目标将花费多大成本,其是否是可以实现。是否生成内容的准确性、可靠性可以通过例如生成内容可追溯、显著提示等方式进行,在现在的技术发展阶段的弥补,是可以被考虑的。
安全措施
《安全评估征求意见稿》对生成式人工智能服务的提供者的安全措施提出了如下要求:
(1)未成年人保护
《生成式人工智能服务管理暂行办法》第10条明确规定了生成式人工智能服务对未成年人的保护,而《安全评估征求意见稿》也针对如果向未成年人提供服务时应当采取的安全措施进行了进一步的规定。
2023年10月24日,国务院公布了《未成年人网络保护条例》,该条例生效后需要进一步为生成式人工智能服务依据该条例进行合规评估。
(2)收集使用者输入信息用于训练
《安全评估征求意见稿》进一步要求,除需要满足获得用户同意的要求外,还需要提供关闭使用者输入信息用于训练的选项等。
(3)图片、视频等内容标识
TC260在2023年8月发布了《网络安全标准实践指南—生成式人工智能服务内容标识方法》,该标准已经非常清晰的规定了文本、图片、音视频等生成物如何完成显著标识、隐式标识等设置方法,因此可以遵守该标准处理。
(4)接受公众或使用者投诉举报
(5)向使用者提供生成内容
《安全评估征求意见稿》针对向用户生成的内容,应当仅可以针对明显的违反不良信息可以拒绝回答,而其他问题应均能正常回答,并且设置监看人员。
针对这一要求,如果除了明显的违反不良信息以外不得拒绝回答,将存在某一特定的生成式人工智能服务提供者,如果不具备审核具体内容的能力或者资质,例如新闻信息、医疗信息等,将进入很难回避的困境。
(6)模型更新、升级方面
《安全评估征求意见稿》规定了模型重要更新、升级后应当再次完成安全评估,并且向主管部门重新备案,但对于模型重要更新、升级同样需要确定具体标准,否则提供者无法明确何时需要进行重新备案。
《安全评估征求意见稿》明确了前述各项规定的评估标准,这些具体评估要求的明确将非常有利于生成式人工智能服务提供者对合规要求的理解和落地执行。
评估事项 | 具体要求 | |
1 | 语料安全评估 | ● 人工抽检,随机抽样4000条语料,合格率应当达到96% ● 技术抽检(关键词检测、分类模型等),随机抽样不少于总量的10%,合格率不应低于98% |
2 | 生成内容安全评估 | ● 建立符合要求的测试题库 ● 人工抽检,从测试题库中随机抽样1000条测试题,合格率应当达到90% ● 技术抽检(关键词检测、分类模型等),从测试题库中随机抽样1000条,合格率不应低于90% |
3 | 问题拒答评估 | ● 建立符合要求的测试题库 ● 人工抽检,从测试题库中随机抽样300条测试题,对应拒答问题,拒答率应当不低于95% ● 技术抽检(关键词检测、分类模型等),从测试题库中随机抽样300条测试题,对不应拒答问题,拒答率应当高于5% |
4 | 关键词库 | ● 关键词一般不应超过10个汉字等 ● 总规模不应少于10000个 ● 关键词应具有代表性 |
5 | 分类模型 | ● 应当完全覆盖相关安全风险 |
6 | 生成内容测试题库 | ● 不少于2000题 ● 具有代表性 ● 应当建立相应的操作规程以及判别依据 |
7 | 拒答测试题库 | ● 应拒答/不应拒答测试题库应当分别不少于500题 ● 应拒答/不应拒答测试题库应当分别具有代表性 |
如前文所述,《安全评估征求意见稿》中的“语料”是指所有直接作为模型训练输入的数据。虽然 《安全评估征求意见稿》引入了一个新的概念,但是从定义与文件给出的英文翻译(training data)来看,“语料”一词与《暂行办法》中的“训练数据”具有同样的含义。
服务提供者在使用语料训练人工智能时,应避免使用违法不良信息,同时还应避免侵犯第三方的合法权益,包括但不限数据权、知识产权和个人信息权益等。
例如,此前笔神作文曾公开指责合作伙伴学而思未经同意非法爬取服务器中的数据,并将这些数据用于训练即将上线的AI大模型产品。而在国外,Open AI、Google和Stability AI Inc.等公司也都因使用了涉嫌侵权的训练数据而陷入诉讼中。
(一)关键词
《安全评估征求意见稿》第5.2和8.2节都提到了关键词,第9.1节规定了关键词库应包含的内容。关键词一般不应超过10个汉字或5个其他语言的单词。关键词库应具有全面性,包含不少于10,000个关键词。此外,为确保代表性,关键词库必须包括附录A.1和A.2中列出的至少17种安全风险。附录A.1中的每项安全风险应包含不少于200个相关关键词,附录A.2中的每项安全风险应包含不少于100个相关关键词。
(二)数据权利保护
《安全评估征求意见稿》要求服务提供者避免使用存在权利冲突或者来源不明的语料,且应具备语料来源合法性的证明,例如授权协议、交易合同等具有法律效力的文件。
除《安全评估征求意见稿》所列举的要求外,服务提供者还应遵守其他法律规范对于数据权益的规定。中国目前对于数据权益主要通过《反不正当竞争法》及相关规范进行保护,虽然没有直接的法律规定,但在司法裁判中已然形成了较为成熟的规则。例如,法院会通过判断爬虫技术的使用“是否违反诚实信用原则和商业道德”来界定合法使用的范围。而以下行为可能会被认定为违反商业道德及诚实信用原则:
(三)知识产权保护
《安全评估征求意见稿》要求服务提供者应建立知识产权管理策略,设置语料以及生成内容的知识产权负责人。在使用语料训练前,知识产权相关负责人等应识别语料中的知识产权侵权情况,包括但不限于著作权、商标权、专利权和商业秘密。
此外,服务提供者还应采取措施提高生成式人工智能服务知识产权保护的透明度:
1. 建立知识产权问题的投诉举报以及处理渠道,允许第三方就语料使用情况以及相关知识产权情况进行查询;
2. 公开训练语料中涉及知识产权部分的摘要信息。
(四)个人信息权利保护
使用包含个人信息的语料时,应具备相应的合法性基础。《个保法》第十三条规定了同意、履行合同之必要、履行法定义务等七项合法性基础。然而,在实践中,大部分生成式人工智能服务还是需要依靠获取个人信息主体的同意来满足个人信息处理活动的合法性。
《安全评估征求意见稿》第5.2条(c)款特别规定服务提供者在使用包含人脸等生物特征信息的语料时,应获得对应个人信息主体的书面授权同意。书面同意是一种要求更加严格的同意,个人信息处理者需以纸质或数字电文等有形地表现所载内容,并由个人通过主动签名、签章等形式取得个人同意。根据即将于2023年12月生效的国家标准《信息安全技术 个人信息处理中告知和同意的实施指南》,书面同意需以文字形式予以明确表达,不以采取个人点击确认、点击同意、上传提交、登录使用或配合拍照等方式。
目前,中国法律并没有强制要求个人信息处理者在处理人脸等生物特征信息时需要取得书面同意,而《个保法》第十四条明确只有法律、行政法规才能设立书面同意的规定。因此,《安全评估征求意见稿》第5.2条(c)款的特殊规定可能并没有明确的法律依据。
随着人工智能不断发展并在生活中发挥着越来越不可或缺的作用,对模型安全性和可靠性的需求变得至关重要。因此,《安全评估征求意见稿》中专门设立章节讨论生成内容的安全性、服务透明度、准确性和可靠性。
(一)生成内容安全
人工智能开发中的一个基本问题是生成安全可靠的内容。《安全评估征求意见稿》对此提出了几个关键点:
(二)服务透明度
透明度是模型安全的关键,可以为用户提供有关服务及其运作的信息。《安全评估征求意见稿》通过各种规定强调透明度:
(三)生成内容的准确性和可靠性
生成内容的准确性和可靠性对于确保人工智能服务提供有意义和可靠的回答至关重要。《安全评估征求意见稿》重点关注以下方面:
《安全评估征求意见稿》提供了人工智能服务提供者应遵循的七项基本安全措施,以提高安全性、透明度和合规性:
典型问题1:在建立语料黑名单的同时,是否可以在保证输出内容合规的前提下制定可控的语料白名单制度?
《安全评估征求意见稿》5.1条a项规定,AIGC服务提供者“应建立语料来源黑名单,不使用黑名单来源的数据进行训练”,且“应对各来源语料进行安全评估,单一来源语料内容中含违法不良信息超过5%的,应将该来源加入黑名单。”对于不良信息的定义,《安全评估征求意见稿》将其定义为《网络信息内容生态治理规定》所规定的不良信息,即“反对宪法所确定的基本原则的、煽动民族仇恨、民族歧视,破坏民族团结的”等几种情况。
《安全评估征求意见稿》的该项要求可以与《暂行办法》第四条第(一)款相呼应,其本质上是为了保证AI生成内容的合法性。但是必须注意到,若对AI训练所用的语料,尤其是开源语料的来源作出过于严苛的限制,势必会对我国AIGC产业的发展带来不利影响。
以ChatGPT为代表的大语言模型需要借助庞大的数据集(语料库)加以训练,换言之,训练语料是AIGC工具赖以生存的原料。目前而言,虽然现存语料的容量很大,但也是有限的。EpochAI研究团队于去年发表的论文中指出,根据AI深度学习能力的不断加强,“‘高质量’的语言数据库(如书籍、新闻稿、学术文献等数据)极有可能在2026年前耗尽”;“‘低质量’的语言数据库将在2030-2050年间耗尽”;“图像数据库将在2030-2060年间耗尽。”此项研究虽然只是一项初步研究,但是也揭示了语料库数量的局限性。相比低质量语料(如用户上传内容、广告信息等)对于AI大模型而言,高质量语料的获取对AI的生产能力存在至关重要的影响。
《安全评估征求意见稿》将语料黑名单的阈值设定为整体语料的5%,在这一比例下,极有可能存在大量开源语料,尤其是非中文开源语料因无法通过语料来源筛查而被列入黑名单的可能性。必须认识到,我国AIGC产业的起步晚于境外友商,目前正值高速增长的关口,急需大量高质量语料以弥补与境外AIGC服务提供者的差距,在高质量语料有限的情况下,若因为监管部门的尺度过紧,导致国内大语言模型无法得到充足的训练与优化,将会导致我国AI产业与境外服务提供者的差距进一步拉大。
从另一个角度出发,针对《暂行办法》第七条第(一)款及第十九条的表述而言[5],AIGC服务提供者仅需要AI训练用语料具有合法来源,即其取得方式合法,并未针对来源语料的内容做进一步要求,对于AIGC监管部门而言,其监管重心可以主要着落在AI输出内容的合规性,而非AI训练优化所使用的数据上。若AI生成工具的产出内容不存在违法性问题,那么在语料库的来源方面,政策可以作出一定的放松。
因此,我们建议,允许AIGC服务提供者针对以书籍、实时新闻报道、学术刊物等为代表的高质量语料设定语料白名单,在AI生成内容满足安全评估、质量检验的前提下,允许白名单中的语料不受《安全评估征求意见稿》5.1条a的限制。
典型问题2:是否可以增补相关合规条款,围绕当前数据分级政策,针对AI生成内容的数据安全做专项筛查?
《暂行办法》第十六条第二款规定:“国家有关主管部门针对生成式人工智能技术特点及其在有关行业和领域的服务应用……制定相应的分类分级监管规则或者指引。”我们曾在对《暂行办法》的建议中提出,《暂行办法》本身并未对数据分类分级方式作出详细的规定,有鉴于AIGC产业的特殊性,需要尽快明确针对AI可训练数据的分类方法。但遗憾的是,《安全评估征求意见稿》中依然未对数据的分类处理作出规定,未考虑到AI产业与现行数据规则的契合性。
《中华人民共和国数据安全法》第二十一条规定:“国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护……”截至目前,已有多部部门规章及政策文件,涉及不同行业所涉数据的分类分级标准。这些标准的设定对我国数据安全管理与数据安全具有重要意义。根据《工业和信息化领域数据安全管理办法(试行)》,我国信息化数据依其重要性可以分类为“一般数据”“重要数据”“核心数据”三大类别,针对每一类别的安全规范都有所不同,并且某些存在重要影响的数据依规定不得公开。
由于AI训练、优化所涉及的开源语料库极为庞大,且各个AI服务提供者可能分别掌握部分商业语料、自采语料。这些数据本身并非《暂行办法》及《安全评估征求意见稿》所规定的非法语料,强行剔除亦不合理(理由见本文第一部分),在AI深度学习的过程中,这些语料将会被AI所学习。所以,AI最终生成的文本中也存在包含此类敏感信息的可能性,如果这些生成内容被用户所接触,那么必然违背诸多现行数据分类分级安全保障规范。
因此,为了避免涉密信息的泄露,我们建议,增补相关安全性标注条款,要求AIGC服务提供者在标注AI生成内容时,根据现行数据分类规则(包括一般化分类规则、特型化分类规则)审查AI生成内容是否存在影响国家安全、产业安全的隐患。
典型问题3:是否可以针对标注数据类别的不同,对标注人员的资质提出一定要求?
《暂行办法》第八条规定:“在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。”考虑到AI训练所用数据的广泛性,对标注人员的一般性培训难以完全覆盖不同种类的数据,在处理一些高度特化的数据类型,比如法律数据、医学数据、工程学数据、信息数据等时,若标注人员不具备专业知识,则难以提升标注数据的准确性及良率。
因此,我们建议,在处理一些专业化程度较高的数据时,增补对数据标注人员及质检人员的资质要求,如处理涉及法律问题咨询的数据时需要标注人员拥有法律职业资格证书、处理问诊咨询的数据时需要标注人员拥有职业医师资格证等,以提高生成数据的质量。
典型问题4:是否可以要求AIGC服务提供者设置可交互的知识产权及个人信息申明界面,以全面建立可行的权利救济体系 ?
不难发现,《安全评估征求意见稿》在保障语料内容合乎知识产权保护方面,给出了“事前-事中-事后”比较全面的安全要求,而在个人信息保护方面,则仅强调事前保护。
针对知识产权保护,《安全评估征求意见稿》的“事前措施”要求设置语料以及生成内容的知识产权负责人,并建立知识产权管理策略,知识产权相关负责人等应对语料中的知识产权侵权情况进行分类识别,避免使用有侵权问题的语料进行训练等;“事中措施”要求用户服务协议中,向使用者告知生成内容使用时的知识产权相关风险,并与使用者约定关于知识产权问题识别的责任与义务;并要求公开训练语料中涉及知识产权部分的摘要信息等;“事后措施”要求建立知识产权问题的投诉举报以及处理渠道,且在投诉举报渠道中支持第三方就语料使用情况以及相关知识产权情况进行查询。
但是,“在投诉举报渠道中支持第三方就语料使用情况以及相关知识产权情况进行查询”该条措施在实践中如何具体实施,是非常值得关注的问题。比如,如果有人怀疑AIGC侵犯了知识产权,AIGC服务提供者是否会将所有相关语料内容进行公开以供查询?在查询之前,是否需要提供怀疑AI生成内容存在侵权行为的初步证据?该查询是否会涉及商业秘密泄漏的问题?以及如果对查询结果不满意,是否有反馈途径等等?这些内容与实务操作密切相关,《安全评估征求意见稿》需要对此添加细则,增加可操作性较强的救济方式。
针对个人信息保护,《安全评估征求意见稿》仅对AIGC服务提供者的事前义务作出规定,要求其在收集个人信息之前征得权利人的(书面)同意等。相比知识产权保护而言,《安全评估征求意见稿》对个人信息的保护明显较为单薄。《中华人民共和国个人信息保护法》明确,个人信息权利人有权向信息处理者要求主动删除个人信息、对其个人信息处理规则进行解释说明,且个人信息处理者应当建立便捷的个人行使权利的申请受理和处理机制。也就是说,《个人信息保护法》也要求AIGC服务提供者对个人信息的保护建立事前-事中-事后的全链路保护,《安全评估征求意见稿》未对此项要求作出充分回应。
综上,我们建议,AIGC服务提供者应在其产品页面,针对AI生成内容设置可交互的知识产权及个人信息权利申明页面,以便潜在的权利人对AI生成内容提出权利声明,并允许权利人向AIGC服务提供者上传数据佐证自己的主张,同时要求AIGC服务提供者在合理的时间期限内予以回应。
《安全评估征求意见稿》参考了以下标准:
安全维度 | 基本安全要求 | 相关法律法规 |
语料安全 | 来源安全 | 《暂行办法》第七条第(一)项 |
内容安全 | 《暂行办法》第四、七条 | |
标注安全 | 《暂行办法》第八条 | |
模型安全 | 模型来源合规性 | 《暂行办法》第七条第(一)项 |
生成内容安全 | 《暂行办法》第十四条 | |
透明度、准确性和可靠性 | 《暂行办法》第四条第(五)项、第十条 | |
安全措施 | 特殊人群保护 | 《暂行办法》第十条 |
个人信息保护 | 《暂行办法》第九条 | |
输入信息保护 | 《暂行办法》第十一条 | |
内容标识 | 《生成式人工智能服务内容标识方法》 | |
用户投诉举报途径 | 《暂行办法》第十五条 |