数据的主人是谁?这是企业在打造产品的时候首先会回答的问题。
数据的主人是谁首先是合规问题,无论是欧盟根据 GDPR 经常性开出天价罚单,还是 Tiktok 以及滴滴的前车之鉴都在告诉所有人一个道理,合规是第一竞争力,尤其是在业务规模变大之后。
同时,数据的所有权变更会意味着产品从产品设计、交付模式到商业模式的全方位的不同。
举一个例子说明,阿里巴巴在发布「通义千问」的时候格外强调了一个细节,阿里支持在「通义千问」的基础上帮助各方训练特定行业的专属大模型,同时会确保每个客户的数据都是独立存储,不会用于训练通用版的千问大模型,阿里云和任何第三方都无法触碰。
这意味着与 ChatGPT 相比「通义千问」会有这几不同:
首先在产品设计上需要增加非常多的隔离措施以确保阿里的承诺是可信的,必要的话阿里巴巴需要考虑做私有化部署,这首先就是对产品设计上的极大挑战。
同时在与合作伙伴合作的模式下会变成非常重的交付模式而不是轻量的插件式,因为单独隔离单独训练意味着普通的插件开发者根本没有资格入场,从阿里选择的第一批行业伙伴来看也看得出这样的特性,都是行业的重量级玩家。
最后因为每个客户的数据是独立存储的,训练出来的垂直行业的模型也不能经由阿里直接面向市场,阿里很可能只能收取技术服务费。
由上面的例子可以看出来,数据是谁的是在打造一款企业级的数据产品之前必须就要回答的问题,不然整个产品的逻辑就不成立。
幸运的是关于这一块有非常多成熟的理论材料可供我们参考。在 GDPR 和 ISO 27701 中都选择了用数据处理者和数据控制者这两个概念,ISO 27701 本身就是根据 GDPR 制订的一项规范标准。
数据控制者能够决定个人数据处理的目的和方法,而数据处理者负责替数据控制者实现他们的目标。
有意思的事情是,GDPR 和 ISO 27701 都没有管数据控制者叫做数据所有方,因为理论上来说数据控制者如果要将数据提供给其他的数据控制者/处理者,是需要经过用户授权的。两个或两个以上的数据控制者共同决定处理的目的和方式时,为共同数据控制者。
数据控制者是整个数据隐私保护的第一责任方,而数据处理者仅承担有限的责任,技术上确保安全,同时自身不会把数据外泄。
这也就是为什么在上文的例子中阿里格外强调数据不会用作通义千问大模型的通用模型训练素材,因为一旦用了,阿里巴巴就会从数据处理者变成了数据控制者,因为通义千问的通用模型的目的显然是阿里主导的,这锅实在是背不起。
以我个人最熟悉的用户数据产品举例子,假设一个场景有三个公司,公司 A 是一家的饮品连锁店公司,公司 B 是一家 CDP 软件的提供商,公司 C 是一家信息平台,提供广告投放的服务。
公司 A 现在利用公司 B 的产品对自己的小程序做了埋点,详细记录了每个用户的行为轨迹,发现自己的用户有 80% 都是女生并且基本上都在上海,然后就在公司 C 上面打广告,要求优先投放广告给位置位于上海的女生,并且最后根据公司 C 提供的转化用户画像来看,确实所有转化的用户中 80% 仍然是女生,并且都在上海。
在上面这个场景里面,公司 B 是一个典型的数据处理者,而公司 A 和公司 C 是数据控制者。
这意味着公司 A 想看什么数据就可以看什么数据,想看到什么颗粒度就可以看到什么颗粒度,公司 B 必须满足公司 A 的要求,这也就是为什么大部分 CDP 产品都会有「单个用户画像」展示的模块。
而公司 C 提供给公司 A 的数据本质上是一个广告的售后服务,虽然都是展示用户画像,但是根据《个人信息保护法》的要求,可以明确定位到特定个人的信息在个人授权之前是不可以展示的,公司 C 有无数的客户,不可能要求自己的用户授权每一个客户都能展示自己的个人信息,所以公司 C 只能给公司 A 展示一个「群体画像」。
而且公司 C 甚至需要增加防止差分攻击的结果扰动措施,对展示的群体画像的结果进行一些模糊化处理,才能够符合《个人信息保护法》的要求。
注意,公司 B 不论提供给公司 A 的产品是私有部署的还是 SaaS 形式的,公司 B 都是数据处理者。
更进一步说,如果公司 B 给公司 A 提供了买断性质的私有部署产品,公司 B 甚至可以说自己不是数据处理者,因为数据从头到尾没有出现在自己的手上过。
但是实践的时候一般公司 A 还是会在《隐私说明》中体现公司 B 的存在,主要是为了避免误解。
一般来说神策数据、Convertlab 提供的 CDP 就是典型的数据处理者,而腾讯、字节和阿里的 DMP 产品则是典型的数据控制者(假如不考虑一方人群包)。
乍一看 CDP 也是处理用户数据,也是打标签,圈人,看画像,DMP 也是这几个功能,区别在哪里?其实就是在他们的身份不同,身份不同最终会导致产品设计上的巨大差异,比如上面说到的「画像模块」的差异。
同时双方在收费模式上一定也有巨大差异,数据处理者会根据数据处理的劳动过程收费,数据控制者则很可能需要按照效果来结算费用,比如广告投放领域就会有赔偿的说法,这个对于提供数据处理软件的公司来说是不可能提供的。
所以说 GDPR 是一部非常优秀并且专业的法律,熟读 GDPR 不仅仅可以起到确保产品合规的作用,还可以管中窥豹帮助产品经理勾勒一个数据产品的大致形态。国内的法律基本上是完全参考了 GDPR,可以说 GDPR 是具有一定普适性的。
熟知数据控制者和数据处理者这两个概念不仅仅有助于产品经理工作,对于每天都要用 App 的普通用户来说也至关重要,比如中国的《个人信息保护法》中就明确规定:个人有权向个人信息处理者查阅、复制其个人信息。
也就是说理论上来讲你可以要求任何一个公司导出它服务器上存在的你的所有的个人数据。
最后请允许我提一个问题,根据上面的这些描述,一个人和电子女友之间独一无二的回忆在数据产权上属于谁?
精选评论