数据是深度学习人工智能时代的时髦术语。微软前高管暨前百度首席执行员陆奇形容,数据是当前技术浪潮中新的资本形式。在2017年接受Y Combinator风险投资公司合伙人丹尼尔格罗斯(Daniel Gross)的访谈中,陆奇从人类生产力演进史的角度总结了数据的重要性。
陆奇表示,这一波科技发展浪潮的根本性不同在于:数据起了至关重要的作用。陆奇举例:你可以有10万名乃至100万名优秀的工程师,但你将无法仅仅倚赖这些优秀的人类工程师来建立能够理解人类对话的系统,也无法构建能够识别图像中的物件或场景的系统。因为这一切皆需要数据。
他说,这就好比人类长大后智力获得增长,并不是父母或上帝在我们的大脑编写代码。反之,那是因为我们智力的发展倚赖体内神经和感官系统所赋能的学习能力。
他补充,我们通过无论是视觉还是听觉感知系统对周遭所作的观察,都是数据。这些数据承载著知识,我们能够从与世界的互动中学习,并获取知识。人工智能技术也经历同样的过程。由是观之,这一波科技浪潮不关乎编写代码,而是关于编写实现数据算法的代码。
陆奇在访谈中表示,由于在人工智能时代,软件和硬件都将具备从数据学习知识的能力,数据将会成为人工智能时代主要的生产手段(means of production)。由此定义,具备生产能力的数据本身就可被视为资本的其中一种形式。
他进一步申论,放眼历史,在农业时代,土地是主要的生产力泉源,因此一切都围绕在土地布局,所有的战争都旨在争夺土地。在工业时代,生产资源主要是劳动设备,不同类型的周边设备,还有金融资本与人才。但是在人工智能时代,数据将成为主要的生产手段,因此利用数据将成为关键。
根据英国《金融时报》的年度全球500强企业资料显示,相较于2008年,于10年经济周期末的2018年底,原本在股票交易所市值排名遥遥领先数十年的石油和天然气公司的地位,已经被具有先进数据分析能力的所谓数码原生公司所取代。欧盟委员会大数据专家祝安 慕礼罗阿里亚斯(Juan Murillo Arias)将这些数码公司的成功归功于它们将原生数据材料进行处理、转换为具有实用价值之信息的能力。
哥伦比亚大学教授亚丽西施维肖夫斯基(Alexis Wichowski)就精辟的阐述了大型科技公司如何通过数码器材和服务平台与大量用户建立恒定的客户关系。譬如,iPhone用户每小时都会多次检查他们的手机,而谷歌和面子书等则在与用户的持续互动中从消费者那里抓取数据,并以人们难以理解的方式从中获利。
她分析,在以往的经济模式中,用户一旦购买了产品,交易就差不多结束了;然而在网络数码时代,消费者每天乃至每小时都在不自觉中,一再通过使用数码平台的服务,持续上传用户数据。
德国总理默克尔也对当前数码经济生态表示关切。 她在不久前接受《金融时报》采访时曾说,软件公司正在将自己置入产品生产者与客户的关系中,成为企业与其客户之间必不可少的“中介”。她警告,德国公司已错过了这一发展,现在有落后的风险。她还指出现在仅仅销售一种产品已经不够了,企业还需要根据这些产品的数据来开发新产品。
外紧内松的数据政策
对数据的战略意义后知后觉的欧洲政商界人士,这一两年来正积极探讨制定更宽松的欧洲境内数据共享政策,来鞭策欧洲企业发展前沿的数据导向科技领域,如数据分析技术和人工智能等。
据《路透社》2月15日报道,欧洲行业政策负责人表示,虽然欧洲可能已经输了创建足以挑战美国和中国公司收集个人数据的大型科技平台的战役,但它仍可以赢得工业数据之战。
一般认为,欧洲仍是当前世界上最大的工业大陆。欧盟内部市场专员分析,在全球化的最后阶段,美国已经失去了许多工业知识,必须逐步重建它。中国尽管雄心勃勃,却仍旧在纠正工业数据的增值障碍。于是乎,从大型集团到中小型企业,工业价值链的大部份都聚集在欧洲。
事实上,《路透社》在1月29日就报道了欧盟委员会在一份长达25页的建议书中,探讨建立欧洲单一数据市场的可能。建议书提出了一系列涉及制造业、气候变化、汽车工业、医疗保健、金融服务、农业和能源等跨境分享和使用相关领域数据的准则。
该文档还建议取消一些为了促进竞争却适得其反阻碍欧洲各国有效共享数据的条例;并探讨制定防止大型线上平台单方面对使用数据的第三方施加条件,或汲取不对等利益的法规。
这里需要厘清的是,数据虽然具有战略意义,但并不是万灵丹,也无法自外于电脑科学“输入无用数据将导出垃圾结论”(Garbage In Garbage Out)的定律。只有准确、具针对性、和格式与资讯处理系统匹配的数据,才能提升人工智能系统算法的运算素质和效率。
另外,数据在不同的地域也被赋予不同的定位和价值。《经济学人》报道,在美国,数据被视为“石油”,谁付出努力发掘它,谁就取得数据拥有权。然而在中国,虽然也有一如美国般数据饥渴的大型数码平台,好像阿里巴巴和腾讯等,但数据基本上被当成公共物品(public goods),受到国家严格的管制;数据持有单位也需屈从国家的要求共享数据,如向公共机构提供医疗保健数据。
在欧洲,政策制定者往往将数据定位为基础建设(infrastructure)。在比利时布鲁塞尔的欧盟委员会有远大的抱负和计划来支援数据信托机制的落实,放眼数据经济带来的转型和升级附加值。
无论如何,企业在制定数据战略时,切莫过于沉醉于人们为数据经济所勾画的远景,而忽略的一些基本的技术层面,譬如:1.不是所有数据都对培训人工智能和增强它的运算结论的准确度有助益,切确领域(domain specific)的针对性数据才是攻克问题的关键。
科技趋势分析师本尼迪克特埃文斯(Benedict Evans)指出,机器学习人工智能系统所需使用的数据必须要和系统要解决的问题相关。他举例,通用电气(General Electric)有很多燃气轮机(Gas Turbines)的遥测数据、谷歌有很多搜索数据、美国运通卡(Amex)有很多信用卡欺诈数据。 但我们不能以涡轮机数据来培训人工智能系统发现欺诈性交易,也不能使用网络搜索数据来探测即将发生故障的燃气轮机。我们以特定领域数据来培训的人工智能建模,只能针对性处理某个领域的个别任务。
2.不是所有领域(domain)的问题都需要大数据来培训人工智能建模,有时候足够的数据就已经能达到预期的运算结果。在某些情况下,人工智能系统建模不再需要增量数据的培训来增强产品的效能,因为产品的表现已相当完善,没有增长空间了。
3.基于数据采集人和单位难以避免的主观价值和世界观,数据通常都带有一定程度的偏颇性。对抗和防御数据误差恶果的解决方案是,汇集更全面的数据,以及摒弃使用会让数据标注工作者做出主观判断的标贴(label)。
我们偶尔听闻,人脸识别系统辨识有色人种(譬如黑人)的准确度较低,以及信贷评级系统对女性用户较为苛刻的新闻。这有可能是因为用来训练人工智能建模的数据分布不平均,造成一些样本类别呈小数据或无数据的状况。
面对这样的个案,如果没有发现某些数据类别(data class)过度拟合(overfitting)的症状,纠正系统误差的途径不是减少对白人和男性数据的采集,而是加大对其他各种肤色人种以及女性数据的采集和应用。
另一种可能让数据导出偏差结论的因素是,用来标注数据的标贴包含需要让数据标注员做出主观判断的类别,如性别、种族或肤色等。谷歌就刚在日前宣布摒弃以性别来标注图像,以减少运算结论的偏差。
有趣的是,媒体曾报道中国科技公司的人脸识别水平已经达到“联合国标准”。不知这是不是因为中国官方和私人企业比其他区域更积极在非洲还有其他第三世界国家进行数码项目的投资,因此拥有更全面的数据有关?
【请继续支持我们,推荐下载东方日报APP】
Google Play:https://odn.my/android
HUAWEI AppGallery:https://odn.my/appgallery