温暖的春日黄昏,从科尔布兰德大桥俯瞰汉堡港,眼前风景犹如明信片:易北河在夕阳下闪着金光,起重机和卡车缓慢地移动着,不时有集装箱船静静驶过。但在塞巴斯蒂安·萨克斯看来,这个地方却是一个错综复杂的方程式。汉堡港占地7200公顷。每天约有200列火车经过300公里的铁路和130座大桥把货品运过来上船。作为汉堡港管理局(H PA)的首席信息官,过去4年半里,萨克斯担负着优化物流的重要任务。
土地面积有限,再扩张不可能。但汉堡市议会已经宣布,到2025年汉堡集装箱吞吐量将达到现在的3倍。为完成这一任务,萨克斯及其领导的60人IT团队需要最大程度地利用另外一个资源:数据。
他手头有很多数据。现在汉堡港遍布传感器,卡车和货车不停地报告自己的位置,集装箱船报告着自己的位置和速度,科尔布兰德大桥也装上了传感器,持续监测着港口交通。
“我们的目标是建成互联的智能港口,”萨克斯说。比如铁路吊桥不再定期开启,仅在有船来时才打开,以免造成铁路不必要的延误;科尔布兰德大桥可以通过传感器报告桥体状况,便于安排维修保养;最终整个港口将成为一台庞大的自我控制机器,萨克斯希望建成港口信息交换系统,船运公司可以预测其集装箱何时能从水中上岸,时间精确到分钟。
世界上其他许多企业和H PA有着同样的目标。“老大哥”这个词儿已经过时,大数据将实现对人类生活的全面控制和管理。牛津大学教授维克托·迈尔-舍恩伯格等人称之为一场“革命”,认为大数据将改变我们的工作环境,甚至是思维方式。
数据正以空前速度增长,2012年约有2 .8泽字节的数据被创造出来(一泽为1,000,000,000,000,000,000千字节)。专家估计,到2020年数据总量将达到40泽字节。人们每天传到网上的数据要大约2.5亿张D V D才能储存,而且每两年这个数据量就要翻一番。
但数据的超大规模并非最重要因素,最大的不同的地方在于企业、政府部门和研究者开始以全新方式对数据进行分析。由于现今存储空间的成本几乎可以忽略不计,越来越快的电脑可随时将海量数据互联。运算法则为混沌的数据创造秩序,进行深度挖掘,揭示出新的模式。
尽管对大多数人来说,“大数据”这个术语没有多大意义,但运算法则的影响力早已无所不至。信用卡公司能迅速识别不寻常的刷卡消费,及时向持卡人发出警示;能源公司分析天气数据,为风力发电设备确定理想安装位置,甚至精确到米;自斯德哥尔摩使用算法管理交通以来,驶经城市中心区的汽车减少一半,尾气排放减少10%;近来在线电商开始运用数据分析来优化其销售策略,由此催生了那句广为人知的话:“购买了该商品的顾客同时还购买了……”
G oogle和Facebook是十足“大数据”,其商业模式正是收集、分析和营销用户信息资料,广告投放也尽可能为具体个人量身定制。对Facebook的投资者来说,这庞大的数据库及其利用潜力至少价值1000亿美金。
把数据宝库转换成真金白银的前景激发了众多行业的美好梦想。根据行业协会BIT CO M发布的数据,2012年全球与大数据运用有关的销售额高达46亿欧元,到2016年更可望增加到160亿欧元。医药和科学领域也开始进行大数据应用实验,在公共领域,警务部门和安全部门本来对IT不太积极,如今也意识到大数据应用的好处。
大数据吸引到这么多关注,关键在于超快速分析。事实上,运算法则能对人类行为进行惊人准确的预测,2010年,G oogle根据用户搜索成功预测一波流感爆发,美国数据专家耐特·席尔弗比所有人口统计学家都更早、更准确地预测了上一次美国总统大选结果。一些城市甚至对特定街区发生罪案的可能性进行预测,名为“警务预测”。科学家还表示,利用手机定位插件和通讯录资料,他们将能在一定程度上预测你我明天或未来一年内某个时间段会在哪里。对一些人来说,这种前景或许没有什么吸引力,不少人却已经从中受益:在线交友网站用运算法则分析大量问卷,以提高为用户找到另一半的几率。各大公司、实验室及一些政府部门也对此趋之若鹜。在很多地方,数据被称颂为21世纪的“石油”或“黄金”。一些人已经淘得了真金:统计学家、物理学家和所谓的“数据挖掘专家”,为公司提供大数据应用方面的咨询服务。正如19世纪淘金热中一样,那些出售设备、工具和专业技术的人赚到了大钱,成立5年、拥有85名员工的远蓝公司(B lueY onder)就是一个例子。
尤伟·维斯看上去并不像个神棍,但总在重复一句话:“我们的工作就是提供各种预测。”作为远蓝公司的总经理,他预测时靠的不是塔罗牌或者无辜动物的内脏,而是超市收银机、天气、休假安排和交通报告等产生的数据。这些数据全都汇入远蓝公司开发的分析软件,据该公司宣传,该软件可为客户———如全球最大的邮购公司之一O tto集团———提供“精确预测”,比如某种具体商品的销量。对于零售业来说,这至关重要,因为可以避免运输问题,尽可能地压缩仓储成本。
通过数据分析,维斯及其手下会发现,连锁超市某个分店牛奶、巧克力及苹果的销量会在某些日子大幅提高,然后将这种现象跟附近青年旅舍新入住了一帮学生联系起来。现在软件就利用学校假期安排等数据,计算满载学生的大巴在某个时段抵达的可能性。
远蓝利用不断流入的新数据开发出一个针对购买行为的即时市场研发系统,连锁药店则让团队帮忙计算各店最佳人员配置以及销售预测。保险公司同样对数据分析感兴趣,维斯描述了一个“未来场景”:一辆配有1000多个传感器的汽车不断监测驾驶员的驾驶行为,那些同意向保险公司提供数据供其进行风险分析的驾驶员可以享受特低的保险费。“大数据正在改变整个经济,一切刚刚开始。”美国最大在线D V D租赁商N etflix拥有3.6亿用户,最近它的《纸牌屋》收视率创下纪录。此剧的成功绝非偶然,在购买版权之前,N etflix进行了数据分析。它有理想的条件采取这种办法:它知道哪些剧目走红,哪个演员特别受欢迎,观众什么时候开始厌倦,每天都有数据。事实证明,分析和预测很成功,《纸牌屋》非常合乎N etflix观众的口味。一些音乐门户网站通过类似手段取得成功,它们向合作唱片公司提供听众音乐口味和收听行为等即时数据,乐队就可以策划到最追捧自己作品的地方巡演。
大数据还在其他方面造福社会。在德国汉索-普拉特拉(H PI)学院,有一个价值150万欧元的“超级大脑”———由25台电脑构成,每台电脑拥有40个处理器———令无数癌症患者看到了希望。科学家已经发现,每个肿瘤都不同,这意味着同样的治疗可能对人产生不同的影响。上上之选是通过分析病人的基因组,拿出个性化医疗方案,但这通常要数月时间,因为一个人的D N A包括大约30亿个碱基对。H PI负责人克里斯托福·梅奈尔说,通常来说,通过分析一个人的基因组、拿出个性化医疗方案需要数月时间。而H PI这个“超级大脑”与常规分析系统不同,待处理数据不是放在硬盘上,而是全部放在内存上,采用全新的内存数据库技术(In-M em ory),将处理速度提高了上千倍,基因组分析可以缩短到几秒。而且它还利用晚上时间从公众基因库内提取信息,以相关病例为参考,寻找存活率高、生活质量最佳的治疗方法。“不久前这个对比过程还要数月时间。”H PI负责人梅奈尔说。
与此同时,英国曼彻斯特大学的研究者正在研发“神奇地毯”,目的是帮助独居老人。这个设备像普通地毯一样安装在地板上,内有传感器,可记录老人的脚步,借此分析老人的生活是否与平常有异,比如是否照常起床。如有异常,就会触发警报。科学家还可以扩大这种技术的应用,比如装到人工髋关节中。
学生斯蒂芬·汉斯曾想通过下赌体育比赛赚点小钱。他写了一个小程序,希望精确预测足球赛比分,但是效果不太好。
汉斯10岁得到第一台电脑,13岁时开始写程序。3年前,20岁出头的他在达姆施塔特工业大学学习,发现数据众包网站K aggle———企业会出钱购买上面的数据解决方案。汉森选择了一个汽车经销商发布的任务:对二手车的转售前景进行预测。他设计了一个算法,将大量关于二手车的细节纳入一个“有意义的框架”,数据包括初始注册信息、行程里程数、年行驶里程数等。全球共有571个团队参与竞逐,奖金1万美元,汉斯的程序最终排名第六,这让他精神大振,勇往直前,成了K aggle上面最成功的算法设计师之一。
迄今他取得的最大成就是写了一个能够自动、可靠地评估学生论文的程序,也就是一个“打分机”。他花了一个半月,写成12000行代码,它可以计算拼写和语法错误率,甚至能评估文章中含有多少情绪成分。比赛结束前一周,为了增加胜算机会,他和另外两名选手联合。最后3人赢得了比赛,获得了6万美元奖金。“测试表明,程序的评估得分跟教师的评估差距不大,”汉斯说。后来3人将软件卖给了美国公司Pa-cificM etrics,现在汉斯正在撰写硕士论文,未来一片光明。
但是,也有人的生活因为大数据应用而变得艰难。不久前,一名偷车贼在美国加州桑塔克鲁兹市一个地下停车场准备下手时,完全没想到几米外一辆普通汽车里有一名警察正在吃午餐。还没来得及完成犯罪,他就被捕了。
但这位警察之所以在正确时间出现在正确地点,并非偶然。那一天,他是在一个电脑程序的推荐下,专门到停车场来吃饭的。
过去两年来,桑塔克鲁兹市约有100名警察每天换班时不仅接受长官的指挥,还接受一种算法的安排。该程序每天搜集警察身上设备传送来的大量数据,计算特定时段和街区的犯罪可能性,将15个最危险街区列成一个矩阵。它所预测的犯罪事件中,有三分之二最终真的发生了。“有10%我就很高兴了。”桑塔克鲁兹警察局副局长斯蒂夫·克拉克说。
计算机科学家乔治·莫赫勒和专门研究犯罪的人类学家杰弗瑞·布兰汀汉姆基于震后场景预测模型设计了这个程序。2011年初,克拉克偶然听说了两位学者的创意,3人一起设立了一个实验性项目。他们将过去8年的犯罪数据输入程序,还有其他可能的相关数据,如天气和交通资料。此外,程序还将每两个犯罪关联起来。
“最初很多人表示怀疑,包括我。”克拉克说。“但是数据自己会说话,它的确有用。”克拉克说,犯罪预测系统投入使用一年后,入室行窃减少了11%,偷车减少了8%,抓捕率大幅上升了56%.
现在,整个市的警察队伍都使用高科技设备,他们带着智能手机和平板电脑,可在巡逻时访问基于网络的预测系统。上司鼓励他们只要有可能就在“标记区域”待着,克拉克可以讲述很多手下在预定区域把罪犯逮个正着的故事。
两位数据专家后来成立了一家公司,在全世界推销这一产品PredictivePolicing.光是在美国,已有十几个警察局使用这一软件,如洛杉矶、波士顿和芝加哥。克拉克最近正在英格兰帮助肯特郡使用这个程序。
军队和情报机构学会利用数据分析的力量。比如,大数据在寻找拉丹的过程中扮演了重要角色,帮助锁定他在巴基斯坦的具体藏身处。加州软件公司Splunk在军情机构中很受欢迎,不久前科技记者们将Splunk评为世界五大创新公司之一(G oogle只排第11位)。有90多个国家的政府、机构和企业使用Splunk的产品,它在美国的客户包括五角大楼、国土安全部。这家仅成立9年的公司用软件分析各种机器提供的数据,包括手机基站、网络服务器和飞机。“一架空客A 380一次飞行产生的数据相当于中等规模的计算机中心。”Splunk产品副总裁吉多·施罗德说。利用这些数据,可以帮助航空公司将燃料消耗减至最低,优化保养间隔。“安全是大数据应用中最大增长点之一。”施罗德说。除了犯罪和恐怖主义,Splunk还关注越来越多的网络攻击。“我们正为更大规模的网络战争做好准备。”
当然,数据战争不仅仅发生在军情领域。德国新兴金融机构K reditech位于汉堡W interhude社区一栋砖房里,看上去一点都不像银行,倒像是新兴科技企业办公室和合租公寓的混合体,两位负责人塞巴斯蒂安·迪耶默和亚历山大·格鲁伯·穆勒也不像银行家。这两位自信的创业者认为银行家的商业模式已经过时,他们的做法是通过网络借钱:短期小额贷款,最高500欧元,平均每位客户贷款额为109欧元。他们并不要求客户提供信用证明,而是利用数据分析手段,自行评估对方欠账的可能性。“理想情况下,审核通过后,客户账户15分钟内就能收到借款。”迪耶默说。作为回报,K reditech希望用户提供尽可能多的信息,信息越多,预测越精确,客户的信用额度越高。除了可以公开访问的eBay个人主页,K reditech还要求访问客户的Facebook主页,这样可以确认用户提供的照片和住址是否与其他社交网站上的一致,好友是不是同一群人,借此判断K reditech是否在与一个真人打交道。除此之外,连用户的借贷申请发自昂贵的iPad还是便宜的A ldi电脑都在评估范围内。申请者本人的行为也有影响,比如他们花了多少时间填问卷,K reditech还会记录对方办输入时出错、使用取消键的频率。
利用这种方式,K reditech可以处理大量信息。该公司成立于2012年3月,扩张迅速,已在波兰、西班牙和捷克上线,不久准备在俄罗斯开张。
K reditech创立者不仅希望靠小额贷款和利息收入获利,他们的真正目标是为其他公司———如在线零售商———建立国际性的、自我更新的信用数据库,因为现行的数据库参数更少,只反映了一个人过去的信用,就连这种数据库在许多国家也不存在。“全球人口中几乎四分之三仍然没有可靠的信用记录。”格鲁伯-穆勒说。
除了Kr e d it e c h,德国的Zestfinance和英国的Wonga也正追寻着类似的目标,在这个尚不稳定的市场里引发了法律和道德问题。W onga试图把学生从政府学生贷款那里吸引到自己的贷款项目(利率更高)里来,受到了媒体的讨伐。
K reditech创立者说,在用户隐私问题上,他们做得无可指责。“SC H U F A(德国信用机构)会储存数据,而我们只是使用特定申请者的数据。”此外,任何被拒申请者的数据90天后都会被删除,公司只会保留必要数据,以便识别之前曾经被拒的申请者。
尽管有种种限制,投资者还是认为这种信用评价方式很有吸引力:去年12月K reditech收到400万美元投资,今年4月一个德国基金又投入了差不多400万美元,W onga则已筹到1.41亿美元投资。
K reditech的商业模式显示了很多大数据应用可能引起的敏感问题。当然,用户是“自愿”一步步放弃他们的数据,就像我们自愿将私人照片贴到F acebook,将我们的政治观点发表到T w itter上一样。每个人都是这巨大的新数据库的提供者———哪怕是在虚拟世界,我们也要使用会员卡来换取里程数和免费租车机会。
可
能很多人对此并无反感,因为我们对自己的数据到底怎样被人利用,仍然模糊不清。我们的数据被卖给了谁,卖得有多频繁?这些购买者会遵守规则,保守秘密吗?如果K reditech被大公司收购,或者破产,事情将会变得怎样?
当SC H U F A的信用评估者想要与H PI合伙建立一个实验性项目时,揭示出了公众对此类事务的反应是多么敏感。和K reditech一样,这个项目想要分析Facebook、T w itter和其他社交网站上的数据,但刚一宣布,就引起了抗议,只好立即放弃。
当很多驾驶员意识到导航设备不仅能帮他们找到最佳路线,还可以用来对他们进行分析时,就更加愤怒。荷兰导航设备制造公司T om T om把用户数据卖给了荷兰政府,后者又转交给警方,警方则利用这些信息在最能带来收入的地方———也就是T om T om用户最喜欢超速的地方———设置了限速陷阱。T om T om的首席执行官公开道歉,说公司以为政府要这些数据是为了改善交通安全,减少交通拥堵,没有想到会是这样。
类似的矛盾其实早已潜藏在技术中。大数据在个性化应用中特别有价值,个人化信息给企业提供了无数诱人的可能性,如果有人在Facebook上说喜欢某条牛仔裤,那么下次他(她)访问这个牛仔裤品牌的网站时,商家就可以向他(她)发放优惠券,诱使他(她)消费。对于零售商和一些消费者来说,这可能挺吸引人的,但对数据隐私鼓吹者来说,“大数据”不过是“老大哥”的另外一个版本。
迄今为止,很多企业指出他们搜集、储存和分析的数据都处于“匿名状态”,以消除用户隐忧。但这种说法其实并不准确,据在线学报《科学报告》最近一项研究表明,人们的行为模式极其不同,利用数据可以锁定“95%的个人”。数据越多,你隐身的可能性越小。普林斯顿大学计算机科学家阿文德·纳拉雅南说,只需要33比特的信息,就能锁定具体的个人。
从企业的立场看,消费者那有点分裂的态度乃是问题之所在。一方面,人们在网上特别乐于公开自己的情况;另一方面,对于那些想要分析和搜集这些信息的行为,又不惮以最大的恶意去推测。纽约广告公司O gilvy O ne进行的一项研究表明,75%的答卷者不希望企业储存他们的个人信息,几乎90%的用户反对企业跟踪他们的网络浏览记录。正因为此,欧盟数据保护纲领才引起了巨大争议。如果这个纲领获得通过,很多企业的大数据梦想将化为泡影,所以A m a-zon、G oogle和Facebook等公司纷纷派人游说布鲁塞尔。
但对一个现代化的社会而言,更为迫切的问题是它是否愿意接受数据经济中可能发生的一切。算法可以预测孩子在学校中的表现、预测他们对一项特定工作的适应程度、预测一个人是否可能成为罪犯或者患上癌症———我们愿意住在这样一个世界中吗?电视连续剧或者唱片等文化产品可根据我们的口味量身定做,那样真的好吗?在一个计算精确的世界里,创意、直觉和惊喜将何处容身?
互联网哲学家耶夫根尼·莫洛佐夫警告说,将会出现“算法的独裁”,对于现在许多大数据应用背后的理念,他持批评态度。他说,随着算法公式越来越多地应用于金融和预防犯罪,应由独立、有资质的人员来掌握和分析它们,以免造成权力的滥用。
一位数据巨头曾在不经意间揭示出真相。G oogle执行主席埃里克·施密特说,2010年,公司尝试根据搜索结果来预测股票价格,但后来意识到这样做是非法的,就放弃了。
但他没有说这是不可能的