总第124期 从字节跳动数据泄露事件解析AI时代的商业秘密保护

编者按

随着生成式人工智能技术的快速发展,人工智能及其相关应用在训练和运营过程中产生了大量具有商业价值的数据,以及由此衍生的新成果和产品。这些新变化对传统的企业商业秘密保护提出了严峻挑战。近期,多家媒体报道了一系列严重事件:前字节跳动实习生田某某涉嫌通过编写和篡改代码等手段恶意破坏公司的研究项目模型训练任务,造成重大资源浪费;快手员工泄露公司核心数据;理想汽车员工违规接受外部券商机构的付费访谈,泄露商业秘密。这些事件为所有企业敲响了商业秘密保护的警钟。本期热点话题将分析人工智能时代企业可能面临的商业秘密风险,并提出相应的保护策略,供参考。

多家大厂对泄露商业秘密行为重拳出击

一、字节跳动前实习生篡改代码攻击大模型训练事件

11月27日,南都记者获悉,字节跳动起诉前实习生田某某篡改代码攻击公司内部模型训练一案,已获北京市海淀区人民法院正式受理,案由为侵权责任纠纷。字节跳动请求法院,判令田某某赔偿公司侵权损失800万元及合理支出2万元,并公开赔礼道歉。

据南都记者了解,2024年10月,有媒体称“字节大模型训练任务被实习生攻击”,并有网传信息称“涉及8000多卡、损失上千万美元”。后字节跳动通过官方账号发布事实澄清,称确有实习生发生严重违纪,涉事实习生已于2024年8月被公司辞退。

上述澄清公告还指出,此次涉事行为恶意干扰的是,字节跳动商业化技术团队某研究项目的模型训练任务,并不影响公司的正式项目及线上业务,也不涉及字节跳动大模型等其他业务。至于“涉及8000多卡、损失上千万美元”的传闻,则属严重夸大。

11月5日,字节跳动内部发布的年内第四份《企业纪律与职业道德委员会通报》进一步披露了这起事件的相关细节。通报指出,2024年6月至7月,集团商业产品与技术部门前实习员工田某某,因对团队资源分配不满,通过编写、篡改代码等形式恶意攻击团队研究项目的模型训练任务,造成资源损耗。公司已与其解除实习协议,同步阳光诚信联盟及企业反舞弊联盟,并同步至其就读学校处理。

二、快手员工泄露公司核心数据获利数十万被开除

2024年9月6日,快手发布处罚通报称,经调查核实,原财经线/商业分析部某员工利用职务便利,多次查询并下载公司业务数据,并在接受外部访谈的过程中将上述数据外发或透露给多家外部咨询公司,以此获利。该员工上述行为给公司造成了重大损失和恶劣影响。公司决定:解除与该员工的劳动合同;(公司)全员(范围内)实名通报;取消全部长期激励;取消绩效奖金;列入阳光诚信联盟失信人员名单;永不录用。

三、理想两名员工违规接受外部券商机构付费访谈泄露商业秘密被开除

2024年2月23日,理想汽车法务与知识产权部发布《关于员工违规接受付费访谈的通报》。通报显示,2022年11月至2024年1月期间,理想汽车两名员工王某某、方某某,在已签署《保密协议》、明知负有保密义务的情况下,未经许可多次违规接受外部券商机构付费访谈,致使公司商业秘密泄露,造成严重后果。经理想汽车查实,以上两人严重违反《理想汽车保密管理制度》相关要求,已按照《理想汽车员工手册》对两名涉事员工予以解除劳动合同、追回所有不当获利、收回已归属和未归属的股票期权的处罚。

商业秘密的识别与判断

企业在经营管理过程中会产生大量信息,其中哪些属于商业秘密,哪些只是普通的企业信息?商业秘密的识别是企业有效维护自身商业秘密的前提,也是侵犯商业秘密刑事案件准确定罪量刑的基础。

企业信息至少包括企业的基本信息、组织管理信息、财务信息、业务信息、知识产权信息、合规和法律信息。而商业秘密则是企业信息中最有价值的那部分。二者关系如下图所示。

商业秘密的识别和判断主要从内涵和外延两个维度进行。一是从从内涵判断该信息是否具备商业秘密的三个要素,二是从外延判断该信息是否属于商业秘密的类型之一。

一、商业秘密的要素

2019年修正的《反不正当竞争法》第九条第四款规定:“本法所称的商业秘密,是指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息”。

根据上述规定,构成商业秘密至少需要具备秘密性、价值性、保密性三个要素。秘密性,指的是不为公众所知悉,该信息不能从公开渠道直接获取。价值性,指的是具有商业价值,该信息具有确定的可应用性,能为权利人带来现实的或者潜在的经济利益或者竞争优势。保密性,指的是权利人对该信息采取了保密措施,包括订立保密协议,建立保密制度及采取其他合理的保密措施。

二、商业秘密的类型

2020年《最高人民法院关于审理侵犯商业秘密民事案件适用法律若干问题的规定》第一条对商业秘密的类型予以细化,一共包括技术信息、经营信息、客户信息三类。

技术信息:与技术有关的结构、原料、组分、配方、材料、样品、样式、植物新品种繁殖材料、工艺、方法或其步骤、算法、数据、计算机程序及其有关文档等信息。对于技术信息,可以根据研发记录、实验数据等证据进行审查判断。

经营信息:与经营活动有关的创意、管理、销售、财务、计划、样本、招投标材料、客户信息、数据等信息。对于经营信息,可以根据合同、交易记录等证据进行审查判断。

客户信息:包括客户的名称、地址、联系方式以及交易习惯、意向、内容等信息。

企业商业秘密的保护策略:不仅仅是字面上的保护

谈及商业秘密保护,大家往往想到保密协议、竞业限制协议等法律文件的作用。妥善起草和签署这些法律文件固然重要,但是商业秘密的保护不能满足于这些文件。事前和事中的管理可能更为重要。

一、保护商业秘密不仅仅需要《保密协议》

我们坚信,作为行业领军企业的字节跳动,必然对其《保密协议》进行了周密的审查,并要求所有实习生签署。该协议无疑规定了违反保密义务或滥用商业秘密的行为,将导致赔偿字节跳动因此遭受的损失。据媒体报道,字节跳动已向实习生田某某提出高达800万元的赔偿要求。

如果字节跳动能够依据《保密协议》证明实习生的违约行为和侵犯商业秘密的事实,并证实其因代码攻击事件遭受了800万元的损失,且法院依法支持了字节跳动的诉求,判定实习生承担800万元的赔偿责任,那么接下来的问题在于:实习生是否具备支付这笔巨额赔偿的能力?作为一个尚未步入职场的独立民事主体,他是否有能力承担如此巨额的赔偿?即使其家庭为了避免子女受到“限高”的影响而不惜一切代价,他们是否能够承担这笔巨额赔偿?

因此,即便是800万元的赔偿判决,不论是否包含了字节跳动因研发延迟而产生的间接损失,对于字节跳动来说,这真的能够完全弥补其损失吗?

一份精心起草的《保密协议》不仅提供了保护商业秘密的行为准则,也是在商业秘密受到侵犯时寻求法律救济的最后保障。然而,商业秘密的风险防范远不止于一纸《保密协议》,它还应包括预防性的管理和过程中的控制措施。

二、事前的商业秘密风险管理

事前管理至少应涵盖人员审查和安全配置两个关键领域。

人员审查的核心在于对可能接触到企业商业机密的员工进行严格的背景调查,并在授予接触商业机密的权限时,综合考虑必要性和潜在风险。这一过程遵循“尚贤为本”的原则,旨在评估员工的历史合规性、经历等,以预测其可能对保密信息构成的侵犯、滥用或破坏风险。背景审查的焦点集中在三个关键点:(1)员工的信誉和合规历史,以防止有不良记录的员工接触企业的核心商业机密;(2)员工泄密风险的管理,避免那些配偶、近亲属或其他密切关系人从事竞争行业的员工接触企业的重要商业机密;(3)对于那些在加入企业前可能接触过竞争对手核心商业机密的员工,必须谨慎考虑其接触本企业商业机密的权限,以防信息泄露。

权限分配管理则是指根据实际需要,合理授予员工接触和处理商业机密的权限。这包括确定员工接触商业机密的范围和处理权限。权限分配的原则包括:(1)“按需分配”,即仅向因业务需要而必须接触商业机密的员工提供必要的、最小范围的权限;(2)“分权制衡”,即对于重要的、核心的商业机密,应避免将修改、批量导出等关键权限集中于单一个体。

在字节实习生事件中,商业秘密的事前管理值得讨论。首先,对于缺乏专业背景的实习生,是否应该直接授予其接触核心商业机密的权限,这一点值得考虑;其次,对于实习生的工作内容,是否应该授予其直接修改核心代码的权限,同样需要慎重考虑;最后,如果一个模型的修复成本高达800万,那么是否应该允许单个个体拥有篡改代码并发起攻击的权限,这反映出权限分配可能缺乏必要的制衡机制。

三、事中的商业秘密风险管理

事中的商业秘密风险管理涵盖保密制度的实施和人文管理两个方面。

保密制度的实施不仅包括《保密协议》中规定的保密行为,也包括企业制定的保密规章中员工行为守则。即使《保密协议》和保密规章制定得再完善,若不能在实际操作中得到有效执行,也不过是一纸空文。保密制度的实施应包括:(1)培训,以增强员工对商业秘密保护的意识;(2)考核,以核实员工保护商业秘密的能力;(3)执行,将保密制度规定的行为准则融入企业日常管理,作为OA系统的一部分,甚至纳入KPI考核体系;以及(4)回顾,及时识别执行商业秘密保护中的难点和漏洞,并迅速采取措施加以弥补。

人文管理则是从关怀的角度出发,以减少商业秘密风险。如果说商业秘密培训是从认知层面增强意识,减少无意识泄露风险;那么人文关怀则是从动机层面减少故意侵犯商业秘密的可能性。“道之以德,齐之以礼,有耻且格”。在企业内部,避免恶性竞争,提倡共同发展,降低员工将企业视为“仇敌”的可能性,从而减少侵犯商业秘密的动机。

曾几何时,企业推崇狼性文化,将多元价值简化为单一的成功标准;良性的竞争被极端的社会达尔文主义所取代。如果企业价值和个人价值都变得功利化,所有人都陷入零和博弈的竞争中,那么规则的约束力将变得脆弱。如果企业和员工都能多些人性,少些狼性,那么员工对企业商业秘密的保护将更加自觉和自然。

正如字节跳动官方所解释,该研究生因对团队资源分配不满而篡改代码攻击训练模型。我们无法确切知道何种程度的分配不满会引发导致800万损失的攻击,究竟是实习生的行为过于极端,还是确实受到了重大打击。确实,实习生的二选一录用、末位淘汰等刚性制度,一方面激发了竞争,另一方面对于接触和掌握商业秘密的员工来说,无疑埋下了侵犯商业秘密的隐患。

侵害商业秘密纠纷案的裁判思路分析

商业秘密与专利、商标、版权等知识产权一样,是企业的重要智力成果之一,甚至关系到企业的生存和长远发展。在司法实践中,商业秘密纠纷案件事实查明困难,审判周期普遍较长,是审理难度较大的一类知识产权案件。[1]党的二十届三中全会审议通过的《中共中央关于进一步全面深化改革、推进中国式现代化的决定》指出:“完善市场经济基础制度。完善产权制度,依法平等长久保护各种所有制经济产权,建立高效的知识产权综合管理体制。完善市场信息披露制度,构建商业秘密保护制度。”这为我国继续加强商业秘密保护工作提供了根本遵循和行动指南。笔者结合现行法律规定和人民法院案例库收录的民事案例裁判要旨进行分析,为相关案件的办理提供实践思路。

一、“商业秘密保护”相关立法情况梳理

1993年,我国制定的《反不正当竞争法》对商业秘密保护进行了专门的规定,《反不正当竞争法》经过数次修订及最高人民法院《关于审理侵犯商业秘密民事案件适用法律若干问题的规定》(以下简称《审理商业秘密民事案件规定》)的施行,我国逐步建立了以《反不正当竞争法》为中心、以《民法典》《公司法》《劳动法》《劳动合同法》《刑法》等其他部门法为补充的商业秘密保护法律体系。

早在2001年1月1日起施行的法发(2000)26号《民事案件案由规定(试行)》就将“侵害商业秘密纠纷”作为三级案由,并将“侵害商业技术秘密纠纷”“侵害商业经营秘密纠纷”两个案由作为“侵害商业秘密纠纷”下的四级案由后保留至今。

二、“商业秘密”的构成要件

《反不正当竞争法》第九条第四款规定,商业秘密是指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息。因此,在司法实践中,一般从诉请保护的技术信息、经营信息等是否符合秘密性、价值性、保密性三个要件来进行考量。

(一)“秘密性”,主要体现在不为公众所知悉,指的是根据《审理商业秘密民事案件规定》第三条规定,权利人请求保护的信息在被诉侵权行为发生时不为所属领域的相关人员普遍知悉和容易获得的。

(二)“价值性”,指的是根据《审理商业秘密民事案件规定》第十条规定,有关信息具有现实的或者潜在的商业价值,能为权利人带来竞争优势。因此,有作者认为,不具有商业价值、不能为权利人带来经济利益、不具有实用性的信息不能认定为商业秘密。

(三)“保密性”,指的是权利人为防止信息泄漏所采取的与其商业价值等具体情况相适应的合理保护措施。如何才达到了该条文中“相适应的合理保护措施”在司法实践中的认定尺度,最高人民法院认为,符合反不正当竞争法规定的保密措施应当表明权利人具有保密的主观意愿,并明确作为商业秘密保护的信息的范围,使相对人能够知悉权利人的保密意愿及保密客体,且在正常情况下足以防止秘密信息泄漏。[2]

(四)“技术信息”,指与技术有关的结构、原料、组分、配方、材料、样品、样式、植物新品种繁殖材料、工艺、方法或其步骤、算法、数据、计算机程序及其有关文档等信息。除了以上列举内容以外,在北京某研究所诉顾某、古某、杭州某公司侵害技术秘密纠纷案中,法院认为:“图纸可以作为技术秘密的载体,依据图纸可以确定其主张的技术秘密的内容和范围。权利人既可以主张图纸记载的全部技术信息的集合属于技术秘密,也可以主张图纸记载的某个或某些技术信息属于技术秘密。”[3]又如,在上海某诊断公司诉程某、成都某生物科技公司侵害技术秘密纠纷案中,法院认为:“当权利人所主张的技术秘密是技术方案时,其既可以是在一份技术文件中记载的完整技术方案,也可以是在图纸、工艺规程、质量标准、操作指南、实验数据等多份不同技术文件中记载的不为公众所知悉的技术信息的基础上加以合理总结、概括与提炼的技术方案。”[4]

(五)“经营信息”,指与经营活动有关的创意、管理、销售、财务、计划、样本、招投标材料、客户信息、数据等信息。

客户名单如何才能被认定为经营信息类商业秘密一直是司法实践中的难点。兰州市城关区某学校诉李某、黄某某、吴某、兰州市七里河区某培训学校侵害商业秘密纠纷案中,法院认为:“客户信息符合不为公众所知悉、具有商业价值、经权利人采取相应保密措施这三项法定条件的,可以构成商业秘密。客户的交易习惯、特殊需求、精确详尽的联系方式通过公开渠道难以获知,并不为所属领域的相关人员普遍知悉和容易获得,构成了区别于相关公知信息的特殊客户信息。”[5]某反光材料有限公司诉宋某超等侵害商业秘密纠纷案中,法院认为:“权利人主张构成商业秘密的客户信息不应仅是客户名称组合等普通信息,还应包括交易或往来过程中形成的反映客户交易习惯及意向等特殊信息,该类信息并非通过公开渠道可以查询,符合商业秘密‘不为公众所知悉’的认定条件。权利人通过花费时间、金钱和劳动等代价才获得了相关客户的经营信息,是其获得交易机会的重要资源,属于能为权利人带来经济利益、具有实用性的信息。权利人为该经营信息制定了具体的保密制度,对客户信息以及潜在的客户信息采取了必要的保密措施。据此,权利人制作的客户信息构成商业秘密。”[6]

此外,人民法院案例库针对社会发展过程中出现的新型数据信息、特殊商业信息等是否属于商业秘密来进行保护,也通过收录案例的方式来进行回应。如衢州某某网络技术有限公司诉周某等侵害商业秘密纠纷案中,法院认为:“网站用户注册信息数据库符合商业秘密的法定要件时,可作为商业秘密依法予以保护。[7]重庆某工商咨询有限公司诉谭某、重庆某企业管理咨询有限公司侵害商业秘密及不正当竞争纠纷案中,法院认为:“价格咨询等具有即时性和私密性且能带来现实利益的商业信息应当作为商业秘密予以保护。”[8]

三、侵害商业秘密行为的认定

1. 不当获取商业秘密的行为,如以盗窃、贿赂、欺诈、胁迫、电子侵入或者其他不正当手段获取权利人的商业秘密。有法院认为,以违背诚信原则和公认商业道德的方式获取商业秘密的,属于不正当行为。[9]

2.披露、使用或者允许他人使用上述第1点中获取的权利人的商业秘密。

最高人民法院认为,被诉侵权人实施向特定或者不特定主体提供技术秘密信息或者载体的行为,使该技术秘密脱离权利人的控制、为他人所知悉的,人民法院可以认定该行为构成对技术秘密的披露。[10]最高人民法院还认为,针对侵害技术秘密行为的隐蔽性,可以采用“接触+实质相同-合法来源”的规则认定被诉侵权人采取不正当手段获取、披露、使用技术秘密。[11]

根据《审理商业秘密民事案件规定》第九条的规定,使用商业秘密包括:被诉侵权人在生产经营活动中直接使用商业秘密,或者对商业秘密进行修改、改进后使用,或者根据商业秘密调整、优化、改进有关生产经营活动。如最高人民法院认为,被诉侵权人实际使用的信息系在涉案商业秘密信息基础上修改、改进而来,或者系基于涉案商业秘密信息规避错误研发路线而得的,即便其与涉案商业秘密信息存在一定差异甚至完全不同,人民法院亦可以根据具体情况认定被诉侵权人构成对涉案商业秘密信息的改进型使用或者消极使用。[12]

3. 违反保密义务或者违反权利人有关保守商业秘密的要求,披露、使用或者允许他人使用其所掌握的商业秘密。

4.共同侵权,如教唆、引诱、帮助他人违反保密义务或者违反权利人有关保守商业秘密的要求,获取、披露、使用或者允许他人使用权利人的商业秘密。最高人民法院认为,在技术秘密侵权案件中共同故意侵权的认定及责任承担。构成共同故意侵权不以各参与者事前共谋、事后协同行动为限,各参与者彼此之间心知肚明、心照不宣,先后参与、相互协作,亦可构成共同故意侵权。各侵权人具有侵害技术秘密的意思联络,主观上彼此明知,各自先后实施相应的侵权行为形成完整的技术秘密侵权行为链,客观上分工协作的,属于共同故意侵权,应当判令各侵权人对全部侵权损害承担连带责任。[13]

5. 第三人侵权,如第三人明知或者应知商业秘密权利人的员工、前员工或者其他单位、个人实施上述所列违法行为,仍获取、披露、使用或者允许他人使用该商业秘密的,视为侵犯商业秘密。

四、侵害商业秘密案件的举证及抗辩

《反不正当竞争法》第三十二条规定:“在侵犯商业秘密的民事审判程序中,商业秘密权利人提供初步证据,证明其已经对所主张的商业秘密采取保密措施,且合理表明商业秘密被侵犯,涉嫌侵权人应当证明权利人所主张的商业秘密不属于本法规定的商业秘密。”由此可见,人民法院在审理侵害商业秘密纠纷案件中采用的是“举证责任转移”。

五、侵害商业秘密纠纷案件赔偿数额的认定

和其他知识产权侵权案件一样,在侵害商业秘密纠纷案件中,一般而言,权利人会诉请人民法院判决侵权人停止侵权、返还或者销毁商业秘密载体、清除其控制的商业秘密信息、消除影响、损害赔偿。如何计算赔偿数额一直是侵害商业秘密案件中的难点。

《反不正当竞争法》第十七条第三款、第四款规定:“因不正当竞争行为受到损害的经营者的赔偿数额,按照其因被侵权所受到的实际损失确定;实际损失难以计算的,按照侵权人因侵权所获得的利益确定。经营者恶意实施侵犯商业秘密行为,情节严重的,可以在按照上述方法确定数额的一倍以上五倍以下确定赔偿数额。赔偿数额还应当包括经营者为制止侵权行为所支付的合理开支。经营者违反本法第六条、第九条规定,权利人因被侵权所受到的实际损失、侵权人因侵权所获得的利益难以确定的,由人民法院根据侵权行为的情节判决给予权利人五百万元以下的赔偿”,《审理商业秘密民事案件规定》还规定:“如因侵权行为导致商业秘密为公众所知悉的,人民法院依法确定赔偿数额时,可以考虑商业秘密的研究开发成本、实施该项商业秘密的收益、可得利益、可保持竞争优势的时间等商业价值”“权利人请求参照商业秘密许可使用费确定因被侵权所受到的实际损失的,人民法院可以根据许可的性质、内容、实际履行情况以及侵权行为的性质、情节、后果等因素确定”“在适用惩罚性赔偿确定赔偿数额时,可以考虑商业秘密的性质、商业价值、研究开发成本、创新程度、能带来的竞争优势以及侵权人的主观过错、侵权行为的性质、情节、后果等因素”。司法实践中,有以下:

在侵权损害赔偿数额的进一步细化方面,最高人民法院认为,侵害技术秘密纠纷案件中,权利人为修复或者重建因侵权行为遭致破坏的原有保密措施所支出的费用,以及为减轻损失、防止损失扩大,确有必要合理加强保密措施所支出的费用,均可计入侵权损害赔偿数额。[14]

在侵权损害赔偿数额计算基数方面,最高人民法院认为,侵害涉案技术秘密的恶性程度、危害后果、侵权时间、妨碍诉讼等可以作为人民法院以销售利润计算损害赔偿的考虑因素。被诉侵权行为相关产品的销售利润难以确定的,人民法院可以以被诉侵权行为相关产品的销售量乘以权利人相关产品的销售价格及销售利润率为基础计算损害赔偿数额。[15]

在侵权损害赔偿数额的侵权获利判断上,最高人民法院认为,对于侵权人存在明显过错且根据在案证据能够认定或者根据具体案情可以推定侵害技术秘密行为直接决定了侵权人商业机会的获得或者权利人商业机会的丧失的,原则上可以将侵权人的全部获利作为侵权获利。[16]

在确定判赔数额是否使用惩罚性赔偿时,最高人民法院还认为,在判断侵害知识产权行为是否构成情节严重并适用惩罚性赔偿时,可以综合考量被诉侵权人是否以侵害知识产权为业、是否受到刑事或者行政处罚、是否构成重复侵权、诉讼中是否存在举证妨碍行为,以及侵权行为造成的损失或者侵权获利数额、侵权规模、侵权持续时间等因素。行为人明知其行为构成侵权,已实际实施侵权行为且构成其主营业务的,可以认定为以侵害知识产权为业。对于以侵害知识产权为业,长期、大规模实施侵权行为的,可以依法从高乃至顶格适用惩罚性赔偿倍数确定损害赔偿数额。[17]

六、小结

如前所述,侵害商业秘密纠纷案件作为人民法院审理难度较大的一类知识产权案件,在司法实践中对诉讼原、被告双方在举证、抗辩等方面提出了更高的要求。

笔者建议,企业在自身发展过程中,要按照法律规范的要求,同步将商业秘密与专利、商标、版权等知识产权进行保护;如企业遇到自身商业秘密被侵害,可以根据案件的不同情况,通过向人民法院提起民事诉讼、向劳动争议仲裁机构申请劳动仲裁、向公安机关进行刑事控告等方式进行维权。如单位或个人被诉侵犯知识产权,也要寻求专业人士就被诉侵权事实就是否构成商业秘密侵权、如构成侵权需要如何承担责任等进行分析、积极应诉。

人工智能时代企业如何应对“商业秘密保护战”

随着生成式人工智能技术的发展,业界在不断探索生成式人工智能技术以及相关应用创新对于知识产权制度带来的挑战,从人工智能算法的可专利性、AI参与创造带来的著作权保护客体问题、人工智能作为专利发明人的挑战,以及大模型在训练、运营过程中所形成的大量具有商业价值的数据等。这些新的成果及产物对传统的知识产权保护制度带来极大的冲击。商业秘密,作为一种防御性的知识产权权益,一方面,不需要经过法定的授权程序,另一方面,其构成要件上似乎也可以“避免”专利权、著作权等权利要件所要求的“人的创作”、“属于表达”、“解决技术问题”等限制性条件的要求,似乎可以为人工智能技术及应用提供“天然的权利保护屏障”。本部分主要探讨商业秘密是否可以成为人工智能时代另辟蹊径的知识产权保护手段。

一、生成式人工智能带来的特有商业秘密保护问题

生成式人工智能技术的工作原理为:从现有数据中学习模式和特征,基于学习数据(训练数据)生成与所学模式相符的新数据,同时通过迭代训练过程来完善其输出结果。因此,目前的生成式人工智能技术是基于算法和大数据相关性而进行归纳推理,从大数据的复杂关系中找出规则,并进行预测,并输出结果[18]。对于生成式人工智能技术而言来说,数据、算法是实现其“输出结果”的关键因素。特别是,大模型训练过程中所形成的权重(即“数据”)对于输出结果的准确性十分重要。然而,这关键的数据及算法往往在是否“属于版权的表达”方面产生争议,导致其难以通过传统的软件著作权方式进行保护,而模型“黑匣子”中所包含的数据、算法等却十分符合“商业秘密”的保密性要求。

此外,在生成式人工智能技术的应用中,用户通过输入提示词来创建新内容。正如以上的工作原理分析,生成式人工智能技术将根据输入内容来预测输出结果。因此,如果输入内容包含商业秘密,则人工智能技术提供方在提供其服务时很可能会接触到相关商业秘密。此前三星集团也发生了员工在使用ChatGPT处理工作时无意间泄露了公司保密数据的事件。在Cyber Haven的一项调查中显示“员工粘贴到ChatGPT中的11%数据是机密”[19],因此,企业在引入生成式人工智能技术时,对于如何保证自身的商业秘密问题也逐步引发关注。

基于上述生成式人工智能技术涉及商业秘密保护的特殊性,以下将从人工智能技术的研发及应用两个角度出发,分别探讨企业在开发、应用人工智能技术涉及的商业秘密保护问题。

二、人工智能技术的商业秘密保护

《反不正当竞争法》对于“商业秘密”的定义为“不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息”。司法实践中,权利人在主张“商业秘密”权利时,通常需要证明相关信息满足以下条件:1)不为公众所知悉;2)具有商业价值;以及3)采取合理的保密措施。

生成式人工智能技术用以训练或学习的数据资源,广泛地牵涉到作品、个人信息、商业秘密等。本文在假设企业合法获取训练数据的基础上,结合商业秘密的构成要件,探讨利用训练数据进行人工智能技术开发过程中所形成的信息是否可以通过商业秘密的方式进行保护。

结合生成式人工智能技术的开发流程可知,大模型从训练、微调到推理过程中,其相关信息内容主要包括:代码、算法以及数据。

1)数据

大模型开发过程中涉及多种数据,涵盖原始数据、标注数据、权重等。在原始数据方面,大模型训练所需的数据用万亿级别计算,基本上依赖各类公开信息,如出版书籍、文学作品、学术论文、学校课本、权威媒体的新闻报道、维基百科、百度百科等[20]。在训练过程中,出于训练数据的质量要求,研发企业往往还会对数据进行清洗、标注、转换等,并形成相关的训练数据集。高质量的数据集对后续模型的训练至关重要。一些企业会将某些数据集进行开源,供公众进行模型训练。可见,训练过程形成的训练数据集、权重等数据,将有利于提升大模型的训练质量及推理质量,具有商业价值。

在大模型开发过程中,由于原始数据主要为公开信息,不满足“保密性”的要求,因此,难以构成“商业秘密”。训练数据集、权重等经过企业加工、处理所形成的数据,在满足“保密性”及“保密措施”的条件下可以构成大模型研发企业的商业秘密。然而,商业秘密保护具有天然的脆弱性,一旦泄露(或“可获得”),就会失去价值。企业往往希望结合其他的保护方式对其无形资产进行保护。此外,司法实践中,当权利人主张“商业秘密”时,还需要明确其主张保护的商业秘密的具体内容,即商业秘密的“秘点”。“秘点”范围的界定及内容的明确既是权利人的义务,也是被告否定非公知性要件或双方信息实质性相同的分析前提。如果训练数据集、权重等数据的量级十分巨大,一方面,权利人难以解释具体的内容,另一方面也存在比对分析的困难,甚至于某些数据如果基于常规算法或常规数据获得的,可能面临“非公知”的挑战。数据“商业秘密”保护方式相关的上述问题亟需在未来等待司法实践的进一步考验。

基于上述商业秘密权利的障碍,“数据持有权”相关权益可能可以成为研发企业保护大模型相关数据的备选方案。在《数据知识产权登记证》“第一案”[21]中,原告数据堂公司花费大量人力财力录制了语音数据,虽然相关语音数据进行了开源,但数据堂公司对于开源许可证进行了非商业使用的限制,同时在北京知识产权保护中心对相关数据进行登记并取得《数据知识产权登记证》。法院最终认定,数据堂公司就涉案数据集取得的《数据知识产权登记证》,可作为证明数据堂公司享有涉案数据集相关财产性利益的初步证据;涉案数据集虽然因处于公开状态不符合商业秘密的构成要件,同时因数据内容的选择、编排上不具有独创性而不构成作品,但数据堂公司对此付出大量技术、资金、劳动等实质性投入,合法收集形成具有实质量的声音数据条目,在原始数据上添附了更多的商业价值,能够满足人工智能模型研发主体对声音数据的需求,可为数据堂公司吸引流量、带来交易机会与竞争优势等商业利益。该种商业利益本质上是一种竞争性权益,属反不正当竞争法所保护的合法权益。

2)代码、算法

目前很多大模型都是在开源项目基础上进行修改、改进及调整后形成。诚然,开源代码由于“公开”无法构成商业秘密;而在开源代码基础上进行的修改、改进及调整自研部分内容,有可能构成“商业秘密”。但是,自研部分内容是否需要公开(遵守开源义务),应当受限于相关开源许可证的要求。如果大模型使用的基础是“强传染性”开源义务的开源许可证,其后续的自研部分很可能需要遵循相应的开源义务,按照相关开源许可证进行继续开源。因此,对于研发企业来说,在引入开源大模型进行研发之前,需要提前进行开源许可证的合规义务分析,以确保企业对于改进代码的知识产权策略不会与相关开源义务存在冲突。

算法描述了如何从输入数据得到输出数据所需要的计算步骤和计算规则,属于底层代码的上位概念。由于算法与计算逻辑及规则有关,可能会落入“智力活动的规则和方法”的范畴,因此,研发企业通过专利或著作权方式对算法进行保护有时候会面临客体适格方面的挑战。当研发企业将算法以“商业秘密”方式进行保护时,则可能面临大模型监管涉及的“透明性”“可解释性”的披露要求。

中国《个人信息保护法》赋予个人主体对于人工智能系统进行个人信息处理相关的知情权,《互联网信息服务算法推荐管理规定》明确提出了服务提供方的算法解释义务;欧盟《人工智能法案》要求通用人工智能模型的提供者应履行相关披露和透明度要求、公布训练数据总结等。对于如何实现“算法的透明性”,美国国家标准与技术研究院(NIST)在研究报告《可解释人工智能的四个原则》中提出了可解释人工智能的四个基本特征。具体包括:

(1)解释(Explanation),人工智能对其决策过程和结果提供依据或理由;

(2)有效性(Meaningful),人工智能提供的解释对于目标受众而言是清晰易懂的;

(3)解释准确性(Explanation Accuracy),解释可以准确反映人工智能产生特定输出的原因,或者准确反映其运作过程;

(4)知识局限性(Knowledge Limits),人工智能可以识别其设计或批准不适用的情况,或其答案不可靠的情况。

可见,算法的透明性不等于算法信息的公开,而是类似于“算法原因”的公开,需要说明算法的运作及决策逻辑、依据。对于企业来说,“算法原因公开”与“算法的商业秘密保护”并不存在天然的矛盾,而是可以寻求合理的平衡。在中国首例算法作为商业秘密保护案件[22]中,法院认为,“即使其中有些是已经公开的算法技术,但因为解决同一运算和逻辑问题有各种不同算法,原告经过付出劳动,而选择某一种或某几种算法,并不为公众所知悉且具有商业价值。”可见,即使算法已经公开,如果企业通过相关数据训练测试对算法涉及的路径选择、系数设置、权重排序等进行了选择、设置等信息,且不为公众所知悉,有可能作为商业秘密予以保护。

三、人工智能技术应用过程的商业秘密保护

在使用人工智能技术时,如果用户输入的内容涉及商业秘密,可能被人工智能技术用于响应用户的后续请求生成“输出内容”。这些“输出内容”可能是依赖输入内容形成的,很可能也构成商业秘密。甚至有观点认为,人工智能技术也可以在人类不知道的情况下生成商业秘密[23]。由于生成式人工智能技术服务的特殊性,“输入内容”在被人工智能技术处理用于形成输入时,可能被相关技术人员接触,甚至将“输入内容”用于人工智能技术的后续训练及技术改进,则输入内容相关商业秘密存在泄露的风险。同时,对于可能包含商业秘密的“输出内容”,如果相关人工智能技术服务是通过互联网方式提供,其传输过程也面临着网络安全的泄露风险。

虽然人工智能技术在应用时可能存在商业秘密泄露的问题,但在很多工作场合,其极大地提高了效率,有利于企业提升竞争力,因此,目前企业的主流方式是考虑如何合规安全地使用人工智能技术,而不是一味地禁止。从商业秘密保护角度,应用人工智能的企业应该建立整体的解决方案,涵盖基于输入内容到输出内容的流程,并重点考虑数据处理过程中相关数据流可能涉及的人员、系统等,并依此建立相关的保密要求。特别是,对于利用人工智能技术生成的内容,是否构成“商业秘密”也是企业需要考虑的要点。

基于司法实践中有关商业秘密采取“合理措施”的认定原则要求以及行业实践情况,企业在应用人工智能技术时,可以考虑:

1)采购本地化或内部部署的人工智能系统

在该模式中,人工智能系统将部署在企业的私有云上,输入内容的存储、处理以及输入内容的生成都在企业自主可控的网络空间,只要企业内部对于相关私有云采取适当的数据隔离、权限管理、下载限制等保密措施,则可以实现输入内容及输出内容的“保密性”。

2)人工智能技术使用的指引及培训

虽然上述模式可以满足企业的“保密要求”,但是对于大部分企业来说,私有化部署的采购成本较高,而且可能无法享受“实时改进、更新”的大模型技术。因此,对员工合规地使用人工智能技术提供相应的指引以及培训,是企业引入人工智能技术的基石。在相关指引及培训中,应当让员工知悉商业秘密的范围、如何保护商业秘密、使用人工智能技术的风险和好处;在允许的条件下,还应当对使用人工智能技术的工作内容范围、脱敏措施、输出内容的存储要求等内容进行细化。

3)保密条款的更新

企业在技术采购合同中通常会涉及保密条款。考虑人工智能技术的特殊性,企业在采购合同中应当针对人工智能技术相应细化保密条款的内容,包括:明确输入信息/输出信息的保密性、权属以及使用目的,不得用于模型改进训练等;明确输入信息/输出信息的存储、处理、删除等网络安全措施要求等。

4)其他可能的技术措施

虽然人工智能技术的提供方目前暂时无法提供“商业秘密”过滤的功能,结合目前内容合规管理的过滤机制技术情况,在人工智能技术前端设置基于企业定制的“商业秘密过滤装置”可能也将会成为具有较高保密要求企业可选择的路径之一。

四、小结

生成式人工智能在提高生产力和提供创新解决方案方面给予了人类新的技术解决思路;同时,由于人工智能技术对于数据信息及大算力的依赖性,也难以避免数据的流动及处理,增加了商业秘密保护的难度。对于生成式人工智能技术研发企业,一些新型的技术成果,例如数据、算法,难以通过传统的软件著作权方式进行保护,商业秘密及数据权益的保护方式应纳入企业的知识产权规划范畴。对于应用生成式人工智能技术的企业,则应当考虑实施安全保护措施,制定清晰的管理政策,以减轻商业秘密的泄露风险,确保在人工智能大环境下保持自身的竞争优势。

注释

[1] 参见范静波:《商业秘密侵权认定的审理思路及审查要点》,载微信公众号“上海高院”,2023年12月11日。
[2] 参见最高人民法院(2011)民申字第122号上海某实业有限公司诉黄某、上海某纺织品有限公司侵害商业秘密纠纷案《民事裁定书》。
[3] 最高人民法院民事判决书(2021)最高法知民终2526号。
[4] 最高人民法院民事判决书(2020)最高法知民终1889号。
[5] 甘肃省兰州市中级人民法院民事判决书(2019)甘01民初170号。
[6] 河南省高级人民法院民事判决书(2016)豫民终347号。
[7] 上海市高级人民法院民事判决书(2011)沪高民三(知)终字第100号。
[8] 重庆市第五中级人民法院民事判决书(2019)渝05民初1225号。
[9] 参见上海市第一中级人民法院(2013)沪一中民五(知)初字第119号某公司、某(中国)研发有限公司诉黄某侵害商业秘密纠纷案《民事判决书》。
[10] 参见最高人民法院(2022)最高法知民终901号某岩油藏有限公司、某石油科技(北京)有限公司诉翟某元、大庆某软件科技股份有限公司、北京某数据有限公司侵害技术秘密纠纷案《民事判决书》。
[11] 参见最高人民法院(2022)最高法知民终719号大连某吊具公司诉大连某机电设备公司、刘某侵害技术秘密纠纷案《民事判决书》。
[12] 最高人民法院民事判决书(2022)最高法知民终26号。
[13] 最高人民法院民事判决书(2022)最高法知民终541号。
[14] 最高人民法院民事判决书(2022)最高法知民终945号。
[15] 最高人民法院民事裁定书(2021)最高法民申3890号案。
[16] 最高人民法院民事判决书(2021)最高法知民终1363号案。
[17] 参见最高人民法院第39批指导性案例:广州天某高新材料股份有限公司、九江天某高新材料有限公司诉安徽纽某精细化工有限公司等侵害技术秘密纠纷 (2019)最高法知民终562号案——最高人民法院发布第39批指导性案例之三【指导性案例219号】。
[18] 《诠释AI的两大特征:黑盒子与不确定性》https://www.cnblogs.com/SmartADT/articles/13336004.html
[19] 《员工粘贴到 ChatGPT 中的 11% 数据是机密》https://www.cyberhaven.com/blog/4-2-of-workers-have-pasted-company-data-into-chatgpt/
[20] 《OpenAI,困于数据短缺》https://m.huxiu.com/article/2888601.html
[21] (2024)京73民终546号
[22] (2021)粤03民初3843号
[23] 《人工智能系统能否创造人类不知道的商业秘密?》https://www.brookings.edu/articles/can-ai-systems-create-trade-secrets-that-no-human-is-aware-of/

内容来源