1.2 数字化的困境

1.2.1 物理世界和数字世界之间的“鸿沟”

人类社会的数字化迁徙过程并非一帆风顺,物理世界与数字世界并不是一一对应、完全吻合的。通过二进制化处理把物理世界转化为一连串电子信号流,以电子文本、声音、图像、音视频等数字产品形式构筑全新世界,并非一蹴而就的。无论是转化技术,还是规则构建,都面临着一系列困境,映射的难题在物理世界与数字世界之间产生了“鸿沟”,阻隔了物理世界数字化以及两个世界的连接与互通。

技术障碍

大数据基础技术、通用计算框架技术、计算引擎技术及前沿技术还有待提升,数据分析处理和知识发现能力不足。大数据分析、理解、预测及决策支持与知识服务等智能数据应用技术有待创新,应用和服务能力不足。面向大数据的新型计算、存储、传感、通信等芯片及融合架构、内存计算、亿级并发、EB级存储、绿色计算等技术有待突破,软硬件协同能力不足。数据采集、清洗、分析、交易、安全防护等技术服务能力有限,不能满足数据全生命周期内各阶段的需求。数据安全技术不足以应对复杂的网络安全形势和市场需求。

法律障碍

数据权属关系不明,数据合法利用的边界不清晰,数据安全保障缺少明确的规则指引,增加了合规成本。标准规范的不统一,导致不同数据集和信息系统之间缺乏互操作性和兼容性。中国大数据产业生态联盟发布的《中国大数据产业生态地图白皮书》显示,在大数据交易运用出现的主要问题中,数据质量和价值评估机制模糊占27.4%,数据交易定价机制模糊占16.1%,相关法律法规不完善占24.2%。

其他障碍

例如,政府数据开放和政务信息共享程度受限,信息资源开发利用水平不高,数据和信息服务的便捷化、高效化、产业化、智能化水平不高等问题导致数据共享成本(包括与存储相关的基础设施成本)过大,从而阻碍了信息共享。其具体表现如下:

(1)数据质量问题;

(2)数据隐私安全问题;

(3)数据权属问题;

(4)数据迷航与信息过载问题。

1.2.2 数据的质量与真假难辨

随着经济的数字化程度提高,数据已成为重要战略资源和新的生产要素,其所具有的分析预判能力成为决定投资方向、生产经营方式、经济政策制定和商业决策等的重要考量。如果说数据指引决策方向,那么数据质量决定了数据的可用率及其结论的正确性。数据应用必须建立在质量可靠的数据之上,才具有意义和价值。

目前,数据质量成为数据应用的一大难题。数据量呈指数级增长,而必须收集和分析的数据种类也在增长,非结构化数据正变得与结构化数据一样有意义。大数据技术的发展使存储、处理的数据量惊人,数据来源和数据结构繁杂,为大数据的分析和应用带来了很多挑战。

第一,伴随着数据规模性的急速扩大,数据在获取、存储、传输和计算等过程中的错误率也在迅速倍增。

第二,更新速度的加快也使数据的时效性迅速降低,由此产生大量数据不一致的问题,传统数据替换方法难以跟上更新速度。

第三,来源和形式的多样性会产生大量数据冲突、不准确和不一致等问题。据IBM公司统计,错误或不完整的数据导致BI和CRM系统不能正常发挥优势甚至失效,数据分析员每天有30%的时间浪费在了辨别数据是否是“坏数据”上。

完整性问题

完整性即数据的完备程度,是指数据信息是否存在缺失的状况,包括整个数据记录缺失和数据中某个字段信息的记录缺失。完整性是最基础的一项数据质量评估标准。如果数据不完整,那么可借鉴的价值就会大大降低。

导致数据不完整的主要因素有以下两类。

第一类是收集设定和规则问题,包括系统未设定或设定获取相关信息而在实际业务操作中未能完整采集,输入规则不科学或过于严格。

第二类是数据源问题,大数据通常由不同数据源产生,各种网站、系统、传感器设备等数据来源渠道繁多,这些数据源运行的稳定性和安全性都会影响数据本身的完整性。而且,当前网络攻击、恶意篡改等问题频发,也严重威胁到了数据的完整性。

一致性问题

一致性是指系统内外部数据源之间数据的一致程度,数据记录的规范(数据存在的特点格式)和数据符合固定逻辑,不存在冲突。大数据的多样性决定了数据来源的复杂性,数据源众多,常出现编码不统一、不协调的问题,大量不同数据源的数据之间存在冲突、不一致或相互矛盾的现象。

导致数据不一致的主要因素有以下四类。

第一类是数据生成过程中的主观因素。

第二类是分布式、异构的数据系统缺乏适当的整合机制,导致其内部出现数据定义、格式、规则和值的不一致。

第三类是标准规范不统一,导致数据逻辑不一致。

第四类是一致性中逻辑规则的验证相对比较复杂,对从多个数据源获取的结构复杂的大数据进行整合是十分困难的。

准确性问题

准确性是指数据记录的信息是否存在异常或错误,即与实际情况不符。例如,数据来源存在错误,难以通过规范进行判断与约束。最常见的数据准确性错误是乱码,还有异常的大或小的数据。由于大数据的多样性,单一的数据结构已难以满足大数据存储的需要。而目前国内大部分企业的业务运营数据仍以单一的结构化数据为主,并采用传统的数据存储架构。对于非结构化数据,则是先将其转化为结构化数据,然后再进行存储、处理及分析宗威、吴锋。大数据时代下数据质量的挑战 [N].西安交通大学学报(社会科学版),2013年第5期.。这种数据存储处理方式不仅无法应对大数据数量庞大、数据结构复杂、变化速度快等特点,而且一旦转化方式不当,将会直接影响到数据的完整性、有效性与准确性等。大数据涉及的使用人员众多,很多时候是同步不断地对数据进行提取、分析、更新和使用,任何一个环节出现问题,都将严重影响企业系统中大数据的准确性。

及时性问题

及时性是指数据在采集、传送、处理等环节快速支持应用的程度。不及时的数据会导致分析得出的结论失去借鉴意义。由于大数据的变化速度较快,数据的有效期越来越短,需要加快收集更新数据的速度;否则,收集到的就是失效数据,将会大大影响数据的质量。

1.2.3 数据隐私安全无法保障

随着云计算、物联网和移动互联网等新一代信息技术的飞速发展,大数据的应用规模也日趋扩大。但是,数据隐私管理法规有待完善,数据产权的相关立法滞后,导致个人信息面临严重的安全隐患,甚至威胁到社会秩序和国家安全。

(1)过度收集、擅自披露和非法交易造成信息裸奔

数据作为一种新的生产要素,成为各方竞相争夺的重要战略资源,非法收集、披露和交易数据的行为屡见不鲜。

一方面,网络运营者以“一揽子协议”强迫用户同意、隐秘收集、诱骗收集个人信息。2017年全国人大常委会的“一法一决定”执法检查“万人调查报告”显示,有49.6%的受访者曾遇到过度收集用户信息的现象。许多受访者反映,当前免费应用程序普遍存在过度收集用户信息、侵犯个人隐私的问题,但几乎没有受到任何监管和依法惩处。近年来,因App默认勾选、第三方数据采集等问题引发的纠纷频出。一些知名的互联网企业对数据的无序争夺等问题不断地被暴露在公众视野中。

另一方面,受强大的经济利益驱动,违法犯罪分子大肆倒卖和披露公民个人信息,已逐渐形成了庞大、完整的地下黑色产业链,甚至出现了“第三方担保平台”,个人信息买卖的市场规模大到了需要细分配套产业的地步,侵犯公民个人信息的犯罪行为日趋专业化、产业化。

(2)大体量的个人信息泄露事件频繁发生

随着国家大数据战略和“互联网+”行动的加快实施,数字经济飞速发展,大数据应用规模日趋扩大,云计算、移动互联网、工业互联网等新兴领域汇聚了海量数据,万物互联下网络攻击正逐步向各类新型网络、业务系统及联网终端渗透,伴生性安全威胁和传统安全威胁交织呈现。APT等新型高级网络攻击持续挑战传统数据保护技术,并以存储海量数据的互联网数据中心、云平台和重要信息系统为主要攻击目标,造成大规模用户信息泄露事件接连发生。例如,雅虎30亿个账户被全部泄露。

这些被泄露的信息不仅数量多,内容也十分丰富。除了户籍等身份信息之外,在生活中产生的各类信息,如名下资产、手机通话记录、支付宝账号、航班记录、打车记录、淘宝送货地址等也被随意买卖,公民的生活轨迹完全被泄露。大数据时代的到来又给个人数据保护带来了更多新的难题与挑战。个人信息保护不足,导致个人隐私、安全、财产等权利受到侵害,而且在受到侵害后无救济渠道。

(3)个人信息泄露滋生诈骗等下游犯罪

个人信息的泄露不仅造成用户数据在互联网平台被非法交易,还造成被窃取的公民个人信息经过加工、转卖,被大量用于网络诈骗、敲诈勒索、暴力追债以及滋扰型“软暴力”等违法犯罪活动,因而严重威胁了公众财产和人身安全。其形式主要有以下几种:

一是实施电信诈骗、网络诈骗等新型、非接触式犯罪活动;

二是直接实施抢劫、敲诈勒索等严重暴力犯罪活动;

三是实施非法商业竞争;

四是以各类“调查公司”和“私家侦探”的名义调查婚姻、滋扰民众。于冲。侵犯公民个人信息犯罪的司法困境及其解决[J].青海社会科学,2013年第3期.

(4)个人信息安全问题影响行业健康、可持续发展

安全问题已是数字经济健康发展的最大威胁。

一是数据安全问题失控,将会严重打击全社会对数字经济的信心。近些年,航空售票系统、医疗卫生系统等由于遭受黑客攻击或内部管理不善,导致个人信息泄露事件发生,降低了相关企业甚至行业的公信力,影响了行业的健康和可持续发展。

二是网络运营商之间的无序竞争引发激烈争端。海量用户数据已被视为企业的核心资产,拥有的用户数量及处理数据的能力已逐步成为企业的核心竞争力。“互联网+”时代,各个产业不断融合,原本处于不同产业及利益链条的企业之间出现业务交叉,产业之间的竞争日益加剧,导致出现一些无序竞争。另外,一些企业肆意倒卖数据,获得了竞争优势,形成了“劣币驱逐良币”的恶性竞争状态,严重破坏了行业发展生态。

(5)国家基础数据和核心信息面临被窃的风险

国家之间围绕数据占有和利用的博弈日趋激烈,数据窃取、滥用等问题日益突出,严重威胁了网络安全乃至国家安全。

一是美国等发达国家利用其掌握相关核心技术的优势,大量获取他国的敏感信息。棱镜门事件充分暴露出了美国利用核心技术优势实施网络窃密的事实。

二是针对关键信息基础设施的国家级有组织的网络攻击持续发生,对我国基础数据和海量用户信息的窃取,基于规模化个体信息的加工分析,都对国家安全构成了严重威胁。

三是支撑网络的基础物理设施和技术规范被私营数据寡头掌控,拥有海量用户数据的数据寡头企业利用其技术支配力和市场垄断力,侵害用户的合法权益。

四是大规模数据跨境流动威胁国家安全,国外大型互联网企业对我国大数据资源搜集、跨境输出并深度挖掘,窃取国家的重要敏感数据和海量的用户信息,严重威胁了我国国家安全。

1.2.4 数据所有权模糊

目前,各国对个人信息财产权的属性还未予以明确。美国通过隐私权模式予以保护,即将用户个人信息纳入隐私保护,同时兼顾网络运营商的合理需求和数据经济的发展。欧盟确立个人信息人格权保护的模式,确认个人数据权并加以绝对化保护,赋予用户查阅权、拒绝权、获得救济权等具体权利,并要求各成员国将其提升到保护自然人基本人权和自由以及消费者特殊权利的高度,龙卫球。数据新型财产权构建及其体系研究[J].政法论坛,2017年第4期.采取了比美国更加严格的人格权保护路径。尤其强调个人信息作为基本权利和自由的崇高定位,大大限制了网络运营商的数据收集和处理行为。

我国法律未清晰地明确个人信息的财产权地位,主要通过明确网络运营商的个人信息保护责任来限制其对数据的肆意收集和处理行为。《电信和互联网用户个人信息保护规定》和《网络安全法》仅从保护个人信息安全的角度,规定了电信和互联网运营商收集、使用个人信息应当经被收集者同意,并未对企业之间或用户与企业双方之间的数据分享、使用、收益等权利进行规定。在民法和知识产权法方面,数据权属无法完全参照物权予以界定,数据信息的基本特征也不符合知识产权法保护路径。在不正当竞争法方面,法院虽在“新浪微博诉脉脉”案中对互联网企业在获取、使用用户信息的商业行为予以规范和界定,却未涉及数据权属这一本质问题。

现有的规定不能反映数据经济结构关系的实际特点和内在需求,以至于无法有效治理数据流转的全生命周期中的安全风险和无序竞争。其具体表现在以下两个方面。

一是数据争夺战愈演愈烈。一方面,某些网络运营商“强征豪夺”用户个人信息。网络运营商采取“霸王条款”“一揽子同意”“默认同意选项”等方式,强迫、欺骗用户同意被收集大量敏感和不必要的信息,用户完全失去对个人信息的控制权。另一方面,某些网络运营商之间的无序竞争引发激烈争端。此类争端最终通过协调和解等应急性措施解决,并没有统一的规则来“划线止争”,只能是“按下葫芦浮起瓢”,问题依然没有解决。

二是阻碍数字经济的创新发展。明确的权属关系是数字经济发展的基础支撑和保障。目前,我国数据交易还较为粗放,停留在数据收集和原始数据买卖阶段,深度挖掘、分析能力不足,关于算法和模型等市场尚处于起步阶段,数据和信息服务的便捷化、高效化、产业化、智能化水平不高。由于数据的可复制性、价值不确定、价值衍生性等不同于传统物品的特性,在数据收集、存储、使用、流转、消灭各个阶段会产生多种权属关系,数字经济的特点是多向、动态的,而不是单向、固定的。如果不能明确各种关系中数据的权属关系,就无法使数据有序流动的渠道畅通,也不能为新业态、新模式提供可靠的权利保障,从而影响大数据产业的创新发展。目前,我国数据定价的标准不统一,数据流通交易规则缺失,严重阻碍了数据产业的良性健康发展。欧盟委员会委托专业咨询机构everis对企业之间的数据共享进行研究,在其形成的报告《关于欧洲企业间数据共享的研究》(Study on Data Sharing Between Companies in Europe)中显示,B2B数据共享的主要障碍包括技术障碍和相关成本(73%),以及数据所有权的法律不确定性(54%)。

1.2.5 数据迷航与信息过载

信息过载是指社会信息超过了个人或系统所能接受、处理或有效利用的范围,并导致故障的状况。数据迷航形象地描述了此类状况给人们造成的在海量数据中无所适从、失去方向以及被操纵的情况。随着新一代信息技术与经济社会各领域的深度融合,引发了数据量的爆发式增长,使数据资源成为重要的国家战略资源和核心创新要素。据统计,全球所掌握的数据每两年就会翻倍。到2020年,全球的数据量将达到40ZB,其中我国所掌握的数据将占20%。陈伟。把大数据产业的巨大潜能挖出来——解读《促进大数据发展行动纲要》[J].中国经贸导刊,2015年第19期.发布者数量激增和信息量急速膨胀,而人类的记忆和信息处理能力都是有限的,但其所获取或接收的信息量总是远远高于其所能消费、承受或需要的信息量。而且,信息的真实性难以验证,误导作用大,大量冗余和错误的信息严重降低了人们的信息获取和使用价值。同时,信息时代,由人们对信息的过度依赖和获取焦虑的心理所产生的大量需求,反过来也进一步刺激了信息的生产。据新华网调查,我国50%以上的白领认为,目前工作中的海量信息给他们带来了巨大的精神压力。我国有约一半的白领由于日程安排出现问题,每周至少错过一次会议或约会;2/3的白领每周由于信息丢失而需要重建文件。各国的调查结果均显示,职场人士平均每天要花费约51%的工作时间来接收和处理信息,而不是在工作中真正使用这些信息。信息过载正将各国白领推向“信息承受的断裂点”。

(1)数据爆炸式增长增加了获取高质量有价值信息的难度

随着网络信息技术的发展和应用的不断创新,信息发布内容过滤机制缺失、发布主体的无限制、发布渠道多样化的趋势越来越明显,使信息量急速增长的同时信息更加碎片化,体系性的缺失使人们获取高质量信息的难度和成本加大。遨游在海量信息中而没有有效的航标指引,无序的层层链接中存在无数的岔口,一旦选择就没有尽头,失去其他方向的有用信息。同时,为了博取关注而设置各式各样的诱人标题,垃圾邮件、垃圾信息充斥网络,造成真正有价值的信息难以挖掘,筛选耗费时间精力。

(2)虚假信息误导了人们对信息的判断

网络平台为普通用户提供了越来越便利的信息发布环境;新技术、新业务不断催生出新的信息传播方式;信息在自媒体类平台之间的跨平台传播更快捷;信息传播的及时性、互动性和便捷性扩大了信息发布的主题范围,加速了信息传播。与此同时,虚假信息以多种形式和渠道充斥于网络空间,严重污染了网络生态环境。

一是网络中充斥着各种不良信息,以多样化的形式大肆传播,污染网络生态环境,产生了极其恶劣的社会影响。例如,非明示的商业推广,在新业态中蔓延的淫秽色情、恐怖暴力等有害信息,以及伪装能力越来越强的网络谣言、网络诈骗。尤其是网络直播等新业态滋生了大量的非法有害信息。因其实时性、直观性、互动性强和参与成本低等特点,网络直播等新社交方式的市场规模和用户数量在近两年几乎呈井喷式增长。许多空间充斥着色情、暴力、谣言、诈骗等信息,甚至存在色情表演、赌博等违法犯罪活动,突破了道德和法律的底线,严重破坏了网络生态。

二是网络谣言这一痼疾依然牢牢地根植在网络空间中。事件类谣言、生活常识类谣言依然大行其道,关系民众切身利益的政策类谣言开始泛滥并引发更大的关注度,严重误导了人们的判断和决策,从而带来了人身和财产威胁,破坏了公共秩序和国家安全。

(3)政治、商业营销限制了人们对信息的全面性认知

近年来,传统意义上的间谍、秘密政治影响、恐怖主义等政治安全威胁已经深潜于网络领域。网络间谍活动和网络政治活动日益频繁和多样化,对政治的影响日益深入。其主要有以下三种方式。

第一种方式是通过网络攻击进行打击报复,为恐怖主义造势宣传,并对潜在支持者进行洗脑。例如,ISIS组织利用网络攻击等煽动西方的支持者进行打击报复。

第二种方式是网络意识形态营销,即利用网络来传播作为思想文化商品的意识形态,如制造热点新闻假象、创造虚假网络流量等。

第三种方式是通过数据分析投放精准政治营销广告,影响政治走向。例如,Facebook数据泄露事件所曝出的一些典型案例。

带有经济目的的信息发布和传播行为威胁了公民合法权益和社会稳定。议程设置等通过技术方式实现特定目的或恶意引导,不仅限制了人们获取信息的范围,影响对事物的全面客观认知,甚至带来了严重的安全隐患。一些以获利为目的而发布的虚假及有害信息,最终造成了严重的人身伤害和财产损失。尤其是搜索引擎、社交网络平台、新闻聚合类应用等通过算法影响内容排序和分类的负面效应更为凸显,这种暗箱操作的议程设置以其信息推送力严重误导了公众。例如,搜索引擎竞价排名机制不以信誉度而以价钱高低为主要权重进行排名,对医疗、药品、保健品等关系民众生命财产安全的信息搜索结果进行排序,并且不以明显可见的方式掩饰其广告性质,给公众带来了实质性的误导。