数据知识产权保护与数据堂实践
数据堂(北京)科技股份有限公司首席数据安全顾问官
王忆湘
尊敬的各位领导,各位专家以及业界成员,傍晚好。
数据堂是一家专注于人工智能领域数据服务的企业,目前在全球范围内拥有七家全资子公司。其中,位于南京、合肥、保定的子公司设有产品数据标注基地。数据堂主要提供授权数据,通过授权许可方式提供数据及其流通的版权数据,并销售相关服务。同时,根据客户需求,数据堂还提供数据采集、加工、质检等定制化的数据处理服务。此外,数据堂还提供与其数据集产品相关的联邦数据服务,该服务依据国家数据局提出的“数据可用不可见”以及“数据不出域”的原则,旨在解决数据跨境合规问题。
数据堂的业务定位是建立数据工厂,积累数据资源,以服务人工智能应用。公司自主研发并延伸出一个数据生产平台,该平台具备数据采集、自动标注、智能质检等多项功能。目前,该平台已集成58套自动化算法,显著提升了数据标注的效率。经过15年的积累,数据堂在八大领域共积累了4PB的版权数据集,成为全球最大的人工智能版权数据库之一,覆盖了语音识别、自动驾驶、人脸识别、智能安防、智能家居等多个领域。针对这些领域的数据集,数据堂已获得36项数据知识产权登记,作为北京首批数据知识产权登记证的持有者,也是全国首个涉及知识产权登记证的案例。稍后,我将向各位详细介绍这一案例。
本页展示了数据堂在知识产权领域的成就,包括获得的47项专利和120项软件著作权。数据的合规性是不可或缺的,因此数据堂构建了一套完整的数据安全合规体系,涵盖了系统控制、制度管理以及与外部的合作。先前,众多专家及梁司长已就数据知识产权的现状进行了详尽的介绍。在此,我愿简述个人见解:数据知识产权具有财产化的潜力。法律上的财产具备三个基本特征:价值性、排他性和可转让性。对于数据或类似知识产权而言,其可转让性和价值性是显而易见的,而难点在于排他性。与物权不同,物权具有物质性的天然排他性。知识产权数据是信息的一种特定形式,它们源自信息,而知识产权则是通过法律赋予具有创造性或独创性的信息以排他性。例如,著作权法赋予著作权人禁止他人复制、发表或使用其作品的权利。然而,目前数据领域尚未被法律界定为物权或知识产权的客体,因此在排他性方面缺乏天然或法律上的依据。
我国于2021年颁布了知识产权强国建设纲要,并由国家知识产权局及各地方知识产权保护中心发布了相应的《数据知识产权登记管理办法》。尽管如此,各地在对登记对象的界定上仍存在差异。
以北京和浙江为例,两地在数据登记对象的定义上存在显著差异。北京将数据登记的对象限定为公开状态下的数据集合,而浙江则未明确限定为数据集合,而是指经过特定算法处理、具有实用价值和智力成果属性的数据。
据我所知,国家知识产权局在全国性的数据知识产权登记平台上对这一问题进行了权威解答。梁司长亦曾指出,目前普遍认同的观点是,我们所保护的数据应视为一个整体的集合,即数据集合的财产性利益,而非单独的数据项。此外,数据是否公开不再是登记的必要条件,只要数据经过规定程序处理,具备使用价值和智力成果属性,即可作为登记对象。
当前,数据知识产权尚未在立法层面得到明确界定,其作为法律意义上的财产,其内涵仍存在诸多不确定性。具体而言,数据知识产权的排他性以及禁止他人行使相关行为的机制尚未明确。吴教授指出,司法实践中,数据知识产权的保护主要依赖于个案裁决。
在国家级的数据知识产权登记体系中,数据知识产权登记证书的作用被特别强调。该证书旨在证明数据流通和交易过程中的初始状态。基于此证书,数据堂这一专门从事数据交易的企业解决了长期以来困扰其的数据归属和合规性问题。数据堂与于连信及其他传统服务商不同,其业务专注于数据本身,而非提供技术性应用。
在以往的数据交易过程中,数据堂为了交易目的,不得不承担巨大的沟通和证明成本,以向客户证明数据的归属和合规性,这导致交易成本居高不下。2017年,数据堂曾尝试通过软件著作权登记方法进行登记,但未获成功。直至2023年,北京知识产权局颁布《数据知识产权登记管理办法》,数据堂成为首批登记企业,并成功取得了数据资产登记。
从折线图中可以看出,2022年至2023年间数据堂的增长比例约为7%,增长额达400万。然而,在进行数据知识产权登记之后,2023年至2024年的增长几乎翻了一番,达到76%。这表明数据知识产权登记证书显著促进了数据流通,并降低了交易成本。数据堂作为数据知识产权的集合体,其利益得到了有效保护。
案件背景涉及一家位于上海的数据集分发公司,该公司在获取数据堂的数据集后,于其平台上向注册用户进行分发传播。在案件提起之前,我们已注意到侵权行为,但当时缺乏明确的侵权依据,难以采取行动。直至2021年9月,数据安全法发布,其第七条明确指出,国家保护个人和组织与数据相关的权益。我们以此为基础,探索公司数据利益的保护方式和途径。
该案件引起了社会各界,特别是数据和Al行业的广泛关注。经过三年多的审理,最终北京互联网法院和北京知识产权法院两审终审,认定数据知识产权登记证书可作为登记人持有数据集的合法初步证明。除了确认数据知识产权登记证书的证明效力外,该案件还为在数据财产化和明确界定为数据知识产权之前的数据财产性利益保护提供了路径。若数据能单独构成汇编作品、专利或其他知识产权客体的范畴,我们可依据现行知识产权相关法律进行保护。
如果数据处于公开状态,而且,它很难达到我们数据汇编作品等独创性的一个要求,我们可以利用《中华人民共和国反不正当竞争法》第二条的一个一般性规则寻求保护。除此之外,我认为案件还起到一个非常重要的作用,也是很多文章里面没有提到的,数据产权流通规则,虽然现在数据集合的流通,大家没有明确将它定性为知识产权,但在流通的过程中,大家都是类似于知识产权的许可方式对外进行流通,进行售卖的。这就已经具备了一个知识产权的基本属性。另一方面,在我们交易过程中,无论你是通过商业的许可方式,还是通过开源协议,他都是要取得数据持有人的许可,这样才是符合我们数据流通的一个基本商业道德和交易规则。
算是给政府提了一个我们企业的需求,我还是认为我们数据是具备成为知识产权的可能性的,目前数据知识产权作为法律上的财产,最大的障碍就是排他性来源。曾经民法典考虑将其列为知识产权的客体,但予以删除,可能是因为它的创造性不够,难以成为类似于著作权、专利的客体。还有大量的数据,它本身属于公开数据,也不能作为商业秘密予以保护。但我认为数据或者知识产权并不一定要求它具有一个独创性,或者一个较高要求的创造性。
以我们商标为例,它所保护的它也是作,给我们民法典中123条知识产权的一个保护课题,它是保护我们企业通过投资长期经营形成一种商誉。以苹果手机为例,苹果作为一种常见词汇,他从文学创作还是从各种方面来讲,他都很难去评价具有一种独创性,但商标还是被我们法律列为知识产权的一个保护客体。我也相信我们的数据将来还是有可能的,而且通过我们司法实践实际上我们的数据已经被司法实践给予了独创性,给予了排他性的一种保护。
在我们刚才提到案件中的数据集,我们登记的数据集,他既没有被认定为汇编作品,在二审过程中也否定了商业秘密的一个属性。通过《中华人民共和国反不正当竞争法》第二条规定,禁止上海这家公司去使用或者去获取数据集。我认为在排他性这一块是有希望或者有可能予以解决的。
在当前的讨论中,数据产权化或知识权化的问题,特别是权属争议,引起了广泛关注。数据20条中提出了三权分置的可能性。对此,我想谈谈个人的看法。目前,争议较大的问题之一是数据涉及个人信息或其他人的个人信息时,我们应当参照其他领域的数据和信息知识产权客体进行保护。以摄影作品为例,尽管涉及模特的肖像权,但这并不妨碍摄影师对其作品享有著作权。在包含个人信息的数据集合中,我们应当承认个人信息是个人合法权益的一部分。然而,作为信息载体的数据集合的财产性利益,应当归属于数据的持有人或构建者。
另一个权属问题也是涉及数据流通过程中普遍存在的一个争议点,数据权益的保护与数据垄断的一个问题,这是我对问题的一个简单思考。我这里不去讨论那种重要数据以及垂直领域的数据,因为数据流程性本来就不强,这里面我主要谈两点:
第一个,公开数据的合理使用。
第二个,公开信息的数据化使用。
在当今互联网时代,我们能够通过网络爬虫及其他技术手段获取并合理利用公开的信息数据。近期,国家数据局发布了十大数据典型案例,其中包括云冈石窟和西安城墙的三维建模数据。这类历史文化遗产的三维建模或数据化通常争议较少。然而,对于现存建筑物,例如中国樽的案例,一家酒企使用其作为酒瓶设计,被裁定构成不正当竞争并侵犯了著作权。目前,众多企业和城市正在开展城市三维建模工作,这无疑涉及现存或新建建筑物,其中可能包含著作权作品。在进行数据化时,若需征得所有业主同意,将面临巨大的障碍和困难。因此,我们必须在网站经营者与传统数据权利人之间寻求利益平衡。
通过此方法,推动数据流通,我进行了深入思考,是否可以借鉴我国《中华人民共和国著作权法》第四十二条第二款关于录音制品的许可方式,将我们所拥有的数据,尤其是那些已被公众广泛接触的数据信息,进行流通。录音制品法条的制定背景源于20世纪唱片业的发展,当时音乐作品主要通过乐谱形式流通,唱片公司获取作曲家或作家的乐谱后,会聘请专业演奏家或歌手录制唱片。为防止唱片公司垄断市场,政府通过立法规定,唱片公司仅能获得乐谱的非独占许可,以确保多个艺术家能够演绎同一乐谱,从而提升音乐作品的欣赏价值。因此,录音制品一旦发表,他人在支付相应报酬后,无需著作权人许可即可制作新的唱片。中国歌手李健的《传奇》以及毛阿敏翻唱的其他歌曲,其唱片录音制品的许可方式,对数据领域具有重要的参考价值。毛阿敏的公司未直接向李健的唱片公司获取许可,而是向音乐作品协会支付了许可费用后,便进行了唱片的录制和发行。法院审理相关案件时认定,音乐作品协会具有转交许可费用的职能,毛阿敏的唱片公司向协会支付费用后获得了法定许可,不构成侵权。
我认为,在数据行业,特别是面对公开数据和信息的数据化处理时,我国是否可以建立一个协会或类似机构,允许其他企业或对数据有需求的实体,
在支付一定或合理报酬后,能够合法获取和使用数据,从而加速数据资源的流通,推动人工智能技术的发展。在此,感谢国家知识产权局,使我有机会向政府提出这些需求。谨致谢意!
扫一扫在手机上查看当前页面


网站地图