利求同:数据商品化何去何从

利求同

    今年,大数据领域迎来了一个里程碑的日子。
    四月十四日,我国第一个大数据交易所在贵阳挂牌,并完成了第一笔交易。买卖双方都是有名的企业和机构,虽然数据内容和交易金额不详,数据交易的前景据说十分辉煌。有关方面预测,未来三至五年,贵阳交易所的日交易额将突破100亿元,而整个交易市场可望达到万亿元级别!业内人士称:贵阳交易所是大数据金字塔顶端的一颗“明珠” ,“不但开启数据交易的‘贵阳模式’,更将补齐全国大数据产业链的关键一环,为整个行业掀起一场革命”(见《贵阳日报》2015.4.15头版)。借这个交易所,数据产业向世界正式宣布:“庞大数据的生产和交换,使数据从抽象概念中逐渐剥离”,“数据这个飘在云端的枯燥概念,终于走进现实,变为货真价实的商品”(同上)。
    画龙点睛,“数据商品化”正是整个事件的关键词。随着互联网技术更新换代,数据的大规模采集和分析使用,已是人们生活的常态。高端分析算式的研发,使抽取数据中藏着的有用信息成为现实。于是数据的魔力大放异彩,给我们带来了梦寐以求的便利。例如,商家仿佛钻进消费者肚子里的孙悟空,你才转了个念头,电脑和手机就奇迹般地开始推送相关的商品广告了。真应了那句老话:心想事成。当然,我们也添了许多闻所未闻的麻烦,比如刚接通一个免费WiFi,银行账户信息就莫名其妙地泄露了。电视台天天报道,告诫大家警惕。但在市场弄潮儿眼里,数据还有更为奇妙的神功,那就是取之不尽、用之不竭的廉价原材料——元数据。元数据追踪着我们的生活,一刻不停又无处不在,仿佛一座座富矿,等待着算式处理、点石成金。多少人想挖掘这富矿……现在,终于打通了矿井,而那最后的爆破就是:数据商品化,公开合法的交易。
    然而,要把数据交易这颗“明珠”稳稳当当放上数据产业金字塔的顶端,尚有一道难题需要回答:数据要当商品,它的所有权何在?
    一样东西之成为商品,一是因为它有某种使用价值,如饮食、观赏、制作工具等;二是因为有人拿它来买卖,即实现其可交换的价值。如此就有了价格和市场。一般说,商品的产权清晰,买卖才做得成。明确的所有权(ownership)归属,是商品参与市场交易的前提条件,而所有权的界定有赖于一套稳定的社会道德伦理和法律规范;否则就难以有效行使产权,包括市场交易,并合理合法地解决相关的纠纷。显然,数据作为商品,也不例外。不幸的是,信息时代虽然来临,数据的财产所有权却一直缺乏规范,滞留在了法律的灰色地带。因此,海量的数据挂牌交易,对于市场秩序和交易双方,就充满了法律风险;而且,从社会公正的角度看,还极易损害被记录主体的一些公民基本权利,包括人格权与财产权,影响到民众的医保、生育、就业和人身自由权。为了降低并管控这些风险,我们有必要研究一下数据所有权的归属,对数据商品化,即新产权的攫取和扩张,可能带来的社会后果考察一番。
    数据的所有权到底该归谁?如,你在网上购物生成的数据,产权属于网店、网上购物平台提供商,还是你自己?患者就诊,病史信息归病人、医院,还是医院的电脑系统提供商?社保个人账户数据,属于参保者、政府、共同基金,抑或网络系统外包商?这是回避不了的问题,现行法律规范和学说却显得捉襟见肘,拿不出有说服力又便于操作的答案。为什么呢?我们仔细思考便会发现,那困境的起因,在数据的不同寻常的价值特征,或者说,在它正在获得的市场新身份——商品。
    数据,若是指记录下来的一组信息,并不是什么新鲜事。自人类发明了记录工具和手段,如文字符号、纸张和硬盘,数据就一直伴随我们。历史上,所有权不太受关注,是因为数据一般不会当商品,不参与市场交易;私下或非法的付费(如贿赂和谍报活动)不算。互联网技术大规模开发了数据的价值,数据商品化,所有权问题才凸显了。
    作为商品,数据具有类似无形财产的特征,可以无限复制而无损耗;其所有权、许可使用、收益和转让,都依赖法律的保障。一般认为,无形财产的权属界定有一个特点,初始所有权与财产的生成及价值起源挂钩。例如,文学艺术作品的版权首先属于作者,因为作品是通过作者的劳动才产生,并有了价值。同样的素材,让不同的作者来创作(包括集体创作),作品的内容风格可以千姿百态。这说明,作品蕴含了作者的思想人格。所以,现代法律才把无形财产的初始所有权视为创作的果实,并把作品价值归于作者的人格和创造性劳动。恰恰在这一点上,数据与别的无形财产如版权,分道扬镳了。
    我们知道,跟文艺创作和技术发明不一样,数据的价值不是因记录者的制作而起的。数据只有忠实于被记录主体,准确反映后者的身份性格行为习惯,等等,才具有价值。换言之,记录下来信息必须“无创见”、“非创新”,客观得像一面镜子,才有实用价值。不论血糖血脂的定期测量、消费习惯或借贷信用的曲线,还是网民访问网页的点击数、气候变化同粮食收成或公司营运的相关性数据:脱离了具体的被记录的人、物、事,数据是无意义、无价值也不能用的。不忠实的记录如果不是疏忽,便是编造,是假数据。可见,数据的全部价值,就在百分之百依附于被记录主体,而不能剥离了独立存在。于是,根据上述无形财产的一般原理,作品价值与初始所有权统一,数据所有权的生成(subsistence)应是在被记录主体。
    这道理也符合我们的常识。比方说,同样一套数据,换一个人或一家公司记录,或者换一台电脑来处理、储存,丝毫不会改变数据内容。就数据的价值而言,谁来记录和用什么工具记录并不重要,重要的是被记录的是谁、是什么。诚然,数据的采集整理离不开记录者和记录工具,乃至投资方的支持。但投资和采集整理产生的是次生的权利,动摇不了数据的初始所有权。因为数据从属于被记录主体,两者不可分离,是数据价值的所在。而记录者及其工具手段与数据内容的关系则是松散的、可置换的,不是数据价值的起源。故而数据的初始财产权属于被记录主体,不仅有学理和社会道德的支持,落实在新产权的建设,似乎也应是权利配置的“自然”选择。
    不过,学理归学理,现实世界里大数据的监管,法律法规才刚起步,不太给力。这里涉及大数据的另一个特征:所有权人同记录者/占有者的分离,即数据的财产所有权人一般不是数据的记录和持有者——所有权人非但不占有数据,连接触、支配自己的数据财产也很困难。平常所谓财产问题,财产或者掌握在产权人手中,或者有明确的合同委托监护,如房产、首饰、存款。至少,产权人知晓财产的存在和财产权的归属。产权人有意愿,且依法有能力,行使自己的权利。但是遇到数据财产,情况就变了。例如,网店的交易双方可能不清楚,自己的行为已经被平台提供方记录在案,更无从了解是如何记录的,放进了哪些数据集,会交付谁使用,怎样使用。又如,互联网搜索器记录下的搜索行为的每一个细节,用户是无权访问,也没法监督的。这就使得被记录主体处于一个尴尬境地:他虽然拥有理论上的数据所有权,实际上却很难行使。反观数据记录者,尽管没有初始产权,却因为拥有记录工具和手段,就控制了记录过程、内容、格式和结果,把数据牢牢握在手中。而且,这法律意义上的受委托方,甩开了委托人/被记录主体,成了数据的唯一持有者。更微妙的是,大数据以量取胜,孤立的单个数据几乎没有商品价值;故而多数被记录主体容易忽视自己的数据产权。但是一个个数据集腋成裘,便是宝藏。而大型数据集的处理使用,须借助复杂的分析算式同大功率计算机,老百姓和小公司难以问津。渐渐地,大数据的采集整理,便成了财力雄厚的大公司的专利。产权人的疏忽或无力,即占有者的便利。后者往往随意使用数据,出了问题,后果也难以追究,包括数据丢失、黑市交易,更不要说个人隐私满天飞了。这是大数据时代的一道世界性的难题。
    正是意识到这种复杂性,数据产业才决定绕开所有权,快刀斩乱麻:成立大数据交易所,挂牌交易,用既成事实“倒逼”社会和法律默许。推手们希望通过交易所,给数据披上一件崭新的外衣,遮住所有权上的瑕疵。同时,利用媒体开展宣传攻势,淡化对个人隐私和公共利益的威胁,声称:“交易所交易的不是底层数据,而是清洗、分析、建模之后的数据结果。”(见《贵阳日报》2015.5.16 头版)似乎经过“清洗”,一下子解决了两个敏感问题:一、数据集经过清洗,遮蔽了身份信息,个人隐私、技术秘密等就能获得保护;二、清洗过后,数据便摆脱了初始所有权而有了新的业主,可以合法交易了。但事实上,所谓“清洗” 并不等于“脱敏”(详见下文)。更重要的是,法理上,“清洗”这一技术手段不可能将“底层数据”的所有权转移到所谓“数据结果”。就像拿了别人的珍珠项链,不会因为把珍珠拆下重新串过,项链变长变短,或者镶在几只胸针上,那些珍珠就变成自己的财产,就可以合法出售。所以“清洗”只是回避问题的一种说法;那被回避的,才是数据商品化的要害所在:底层数据到底属于谁?谁说了算?
    所以不是偶然,最近美国多个农会的一次联合行动,正是这样的质问和拒绝“倒逼”。他们的立场与上述讨论殊途同归,我以为代表了国际潮流,体现了前沿社会在数据所有权归属及衍生权利范围等问题上的基本共识。
    二〇一四年中,以迪尔和孟山都为首的几家美国农业技术和设备公司推出一项新服务,邀请美国中部的农场主与其签约合作,对耕地实施全覆盖数据采集。据说,这可以帮助农户规划并监测“精确耕作”(precision farming)。具体做法是,公司给农户提供一个类似汽车GPS的高精度接收器。收割季节,农户把它装上联合收割机,庄稼的收获就一寸寸农田、一分一秒地记录下来。待到播种,农户便有了公司定制的播种方案软件,存进闪盘,插入接收器。播种机装了接收器,就会根据指令,自行调节田亩的播种:土壤肥沃的多撒种,收成少的则少撒种。农户可以随时从“云端”的公司数据库下载记录,查阅耕作信息。此项服务看似简单,技术也是成熟可靠的,却引起了美国最大的农场主组织,全美农场联盟(American Farm Bureau Federation)的警觉。联盟发出紧急通报,警告全体成员:当心!一旦数据放上云端,它可能飘到任何地方去,威胁到个人隐私和技术秘密;绝不能把信息制控权交到大公司的手里!这警告非常及时,让农户们意识到,大数据时代,不仅要利用大公司提供的信息技术服务,还要了解可能带来的损害。而为了保卫自身利益,只有团结起来,维护数据产权。不到半年时间,大豆协会、玉米农户协会、农户工会等六个农会联手,同六个巨无霸农业技术供给商(ATPs)谈判。去年十一月,双方达成协议,签署了《农场数据的隐私和保护原则》(Privacy and Security Principles for Farm Data)。
    协议确立的一条基本原则便是:农户是自家农场数据的所有者,拥有这些数据的产权和绝对控制权。作为对农业技术供给商服务的回报,农户允许“直接利益相关者”(stakeholders)分享数据。同时,就所有权的行使、衍生权利和周边效应,协议也做了规定:首先,任何数据的采集使用都要以合同方式,事先获得农户明确的许可。未经农户同意,供给商不得单方面修改合同。其次,供给商必须用易懂的语言,事先告知农户:数据如何采集和使用。第三,供给商应告知农户,数据采集使用的目的。第四,农户享有选择参与或不参与数据采集和分享的自由,即供给商必须允许农户自由选择进入(Opt-in)或退出(Opt-out),并且向农户说明,选择退出可能带来的后果。第五,如有缔约方之外的第三方要求访问和使用数据,必须事先通知农户,获得许可。农户有权禁止自家数据参与其它商家的分享,或纳入任何大数据集。第六,农户可以搜索、下载自家数据,并在任何系统中使用这些数据。第七,一旦农户选择退出并要求销毁数据,供给商必须销毁、返还数据。第八,供给商不得用这些数据投机期货市场。
    这份协议言简意赅,涉及几乎所有的关键问题,
        
    是信息技术前沿社会做出的示范。鉴于改革开放三十多年来,与国际(读作美国)接轨,一直是各种新举措的一项正当性依据,数据产业包括交易所似乎也应当好好借鉴,协议所确立的原则。其中最重要的一条,便是毫不含糊地排除了数据商品化;只对有条件的数据分享,持支持态度。原因很简单,农户作为数据的所有权人,决不想披露个人信息和技术秘密,让别人做成商品交易。而供给商承诺遵守协议,严格管理数据,不出售数据,无论其数据集有多大,分析算式的能力有多强。这表明,至少在美国,人们对数据商品化取审慎、克制的态度;对互助式数据分享,则颇为鼓励,以实现双赢。这样区别对待数据分享和数据商品化,体现了一种主流社会价值的坚持。相比之下,我国业界和政府部门宣传数据商品化,所提出的两个主要理由就明显是矛盾的:一边说,信息开放信息分享是现代化的需要;一边又说,数据商品化可带来巨大的商机和效益,有利于经济发展。这是试图把数据的分享和商品化混为一谈,暗示数据商品化会促进信息分享,反映出来的却是伦理价值的错位。
    常识告诉我们,数据的商品化和分享没有必然联系,更不是正相关关系。相反,分享常常需要克服商品机制的阻碍,才能拓展。历史地看,自古以来,有人的地方就有信息分享。分享信息是人作为社会动物的一样自然属性,是人类为生存繁育而不可或缺的一种本能。大数据技术改变的只是分享的规模、速度和效能,尤其在不同领域的交叉地带,效果更为显著。比如,根据网上搜索语词的分布,预测本地区或一国,乃至世界范围的流行性感冒的爆发模式;云计算、智能生活、智能网络,以及机器人等人工智能的开发,也都离不开大数据的信息分享。政府作为目前最大的数据采集和存储者,尤其要负起分享和保护责任,如最近上海市政府同腾讯、阿里巴巴签约,计划共建“智慧城市”。但是,如果放弃这些责任,放任业界利用人们对信息分享的热情,来不受监管地采集数据,变他人的数据财产为自家商品,那分享就变质了。它不再是互助或爱心,而是市场垄断、攫取暴利的手段。分享和数据一块儿成了商品,通过注册交易,出售给最高出价者;没有钱,就没份儿分享。一句话,数据的商品化不但不会促进分享,反而造就了垄断。
    促进信息分享的说法既然是神话或骗人的广告,那广告背后的真相便是:营造商机,赚钱。商机赚钱不是坏事,为什么非要讲一个信息分享的神话来粉饰它呢?这是因为,数据的商品化除去赚钱,其他效应大多是对被记录主体和公众不利的。如上文所说,数据价值源自被记录主体,但分散的个人行使数据所有权,很难抗衡财大气粗的数据商。这就使得数据商品化不易管控,生产、交易、使用过程的每一个环节都危机四伏,波及社会生活的方方面面,文化、政治、经济、国家安全和国防,谁都无法幸免。因此,清醒地观察、分析数据商品化的社会后果,对于正确的判断和有效决策,是至关重要的。我认为以下几个方面尤其值得注意。
    首先,数据交易一旦合法化,凭借目前漏洞百出的监管,个人隐私、技术秘密等重要权益将完全失去应有的尊严和保护。因为交易所服务的是它的客户,关心的是数据交易的“顺利进行”,“要让企业认可交易所,卖方可以通过交易所获得数据收益,买方可以通过交易所得到自己称心的数据” (见《贵阳日报》2015.4.15 A3版)。那里,只有买方和卖方的利益,没有元数据所有者,更没有个人隐私跟公众利益的位置。只要注册交钱,谁都可以购买数据,为了赚钱或者其他。卖方呢,则会想方设法采集、囤积、提供让买方称心的数据,使得个人隐私和秘密饱受困扰。据报道,贵阳有个以“慈善义举”为名的数据采集项目,就颇具创意:给城市提供免费WiFi,搞一个接入端做搜集数据的入口。不用多久,即可积累庞大的数据量,清洗了做成产品,就能挂牌交易了。(同上,2015.4.16 A3版)。又如,月前在华山游览,曾遭遇一次巧立名目的数据采集。游客到检票口,得交出指纹数据,方能乘摆渡车上山。理由是:观光票两天有效,取指纹是防止游客次日把票转卖了。且不说绝大多数游客在华山只呆一天,一票卖两天的价,已有盘剥之嫌,居然还成了采集个人体征数据的借口,真是“创新”到家了。数据公开交易,只会刺激了更多的此类“创新”。也许业界的辩护士会说,没那么糟糕,交易所答应,只卖清洗过的数据。数据清洗会隐去数据集里的个人和企业的身份信息,隐私和秘密不就得到保护了吗?别高兴得太早,贵阳交易所的负责人告诉我们:“数据清洗不是用拿水冲啊,而是用电脑把不规则的数据清洗成规则的数据”(数据观网2015.4.29报道),仅此而已。再看交易者如何理解清洗:“交易所将我们整合的交通数据放在平台上对外提供,使它变得更有价值”。“当银行需要考察一个人信用度时,可通过看他是否有固定出行路线和时间判断其是否有稳定工作”(见《贵阳日报》2015.4.16 A3版)。是呀,越是私密,越有价值;人家交易的那多少个亿,就是隐私和秘密。可见,清洗的承诺是当不得真的。
    第二,接着被攻陷的,将是数据的使用;大面积失控的数据使用,后果不堪设想。大数据交易既然被当作赚钱的商机,我们就没有理由相信,购买数据的人只会用它来行善,而不会干坏事。监管不力的市场,投机、打擦边球甚至违法,往往比做好事当好人更容易赚钱获利。面对数据使用失控,经济、科研、国家安全、国防等重要领域尤其脆弱。前几天,美国司法部对六大银行开出罚单,不就是例证?银行巨头利用掌握的数据操纵汇率,搞投机发大财,本质上就是违法使用数据,破坏市场秩序和公共利益。当海量的数据可以随时上市,干坏事的人和企业就找到了理想帮手。利用合法取得的数据,影响股市和期货市场而投机,更是轻而易举。而且很可能,法律拿投机者毫无办法,因为交易本身是合法的。这样看来,美国六农会联手拒绝数据商品化的选择,是非常明智的。回头看,我们真得感谢他们,目前全球农产品期货市场尚能正常运作,有他们一份实实在在的贡献。中国作为第二大经济体,对全球贸易和市场秩序也有着不可推卸的责任。
    第三,数据管理必然也会成为数据商品化的沦陷区,无论企业、医院、政府、国防,跟市场一样,都将面临严峻的挑战。虽然媒体和政府部门天天宣传,描绘大数据的“智慧管理”的各种好处,但数据商品化恰恰是高风险的。如今,信息技术把数据传输的量和速度提高至天文级数,数据的运用,胜负可在千分之几秒间决出。相应地,数据安全事故频繁发生。据美国Verizon公司今年四月发布的《2015年数据泄漏调查报告》,九十五个国家的不完全统计,仅二〇一四年就发生了近80,000起数据安全事故,涉及上亿个记录。而政府、企业和其它管理机构对数据泄露和不当使用的反应速度,常常要滞后数小时、几天、几个月,立法上跟进,更是遥遥无期。攻防双方的力量对比如此悬殊,我们不得不格外小心。一旦数据交易合法,大量的数据使用必然超出常规的防御能力,管理将近于不可能。举例说,利用在交易所购买的政府和金融数据,投机操纵期货,市场崩溃只是眨眼间的事,监管部门几乎不可能及时采取措施制止,或者有效惩罚。这类管理失控的最大受害者是谁?是广大小股民;而扰乱市场的是谁?是拿着小股民的信息做成的“高端”数据商品,在交易所赚大钱的数据商兼股市操盘手。在找到有效应对高端信息犯罪的办法之前,任何数据商品化“创新”都是莽撞,结局难以收拾。
    然而,第四,数据商品化的最严重后果是弱势群体受损害的常态化、社会不公的固化。一般商品范畴,有低档、中档、高档之分,满足不同人群的需求。各挡次/价位的商品之间,没有直接的竞争。大数据产品就不一样了,没有“低档”商品的位置。数据的力量在新、在全、在随时跟踪而精细的算式分析。对于用户而言,数据只有“高档”,才能优化决策;“低档”的粗糙的不够及时的数据,则会导致错误的决策。因而两相竞争,一同交易,“低档”的劣质数据是没有市场的。然而,“高档”数据的价格昂贵,只有强势群体如大公司大富豪才享受得起。其它群体既不能使用劣质数据,又买不起优质数据,在竞争中的地位必然每况愈下。这会使得社会各个领域走向高度垄断,导致政治、经济、教育、医疗,乃至婚姻家庭的组织上,对弱势群体的全方位不公。这是我们为促进社会公正而不能接受的。因此,在考量数据商品化时,国家的政策和法律保护应当尽量向弱势群体倾斜,以平衡全社会的得失。
    总而言之,数据商品化于社会道德和法律原则都是格格不入的。而这场商品化的挑战,关乎人们对人格尊严、财富分配和社会正义的坚持。历史地看,数据信息的用处和价值,前人并非不知。面对诱惑和欲望,他们采取了克制态度,基于以人为本的道德理想,智慧地选择了非商品化的互助型分享模式。如今,人类进入了互联网和信息时代,大数据作为新时代最具魅力的象征和无损耗的生产资料,业已渗透了所有产业。不难预见,对它的需求,包括财产权和商品交易,会日益复杂而急迫。这是我们摆脱不了的。但是,一味商品化,这个“开放市场”的老观念、老办法也行不通,因为现有的政策法规和改革措施,已经远远落后于形势,不能胜任保护和促进数据采集、流动、使用和管理的重任。很明显,这不是修修补补所能对付的,因为要处理的问题太庞大、太精巧、变化太快。
    所以,我的建议是,有必要认真考虑为“数据”这一新型生产资料,在法律上另设一财产类别,或可称之为“数据财产”,把它同别的无形财产分开,区别对待。这将是艰巨的充满了斗争的一次创新,是对我们的理想、社会共识和民主参与的严峻考验;因为从确立产权开始,到重新定位价值顺序,这新财产的出发点是人,不再是物。因为,只有走到这一步,我们才可以真正认定,人是数据的主体,商品应造福于人。
    二〇一五年五月
    延伸阅读
    1) 基特尔曼(Lisa Gitelman)编:《“元数据”是矛盾的说法》(“Raw Data” Is an Oxymoron),麻省理工学院出版社,2013。
    2) 查尔斯(Dan Charles):《大数据公司同意:信息归农户所有》,全美公共电台(NPR)2014.11.16.
    3)《九次方大数据创始人:大数据是创业下一个暴风口》,载数据观网,2015.4.29.
    原载《东方早报·上海书评》2015.7.19
相关文章!