中国工程院李国杰院士更是把大数据提升到战略的高度,他表示【1】,数据是与物质、能源一样重要的战略资源。从数据中发现价值的技术正是最有活力的软技术,在数据技术与产业上的落后,将使我们像错过工业革命机会一样延误一个时代。
在这样的认知下,“大数据”日趋变成大家“耳熟能详”的热词。图1所示的是谷歌趋势(Google Trends)显示的有关大数据热度的趋势,从图1中可以看到,在未来的数年里,“大数据”的热度可能还是“高烧不退”(图1中虚线为未来趋势)。
这个故事很简单,看完这个故事,有人可能会感叹醉汉的“幼稚”、“可笑”。但不好笑的是,“乌鸦笑猪黑,自己不觉得”,这个故事也揭示了一个事实:在面临复杂问题时,我们的思维方式也常同这个醉汉所差无几,同样也是先在自己熟悉的范围和领域内寻找答案,哪怕这个答案和自己的领域“相隔万里”!
还有人甚至认为,醉汉找钥匙的行为,恰恰就是科学研究所遵循的哲学观。前人的研究成果,恰是是后人研究的基石,也即这则故事中的“路灯”。到路灯下找钥匙,虽看来有些荒唐,但也是“无奈之下”的明智之举。
数据那么大,价值密度那么低,你也可以去分析,但从何分析起想到的方法和工具,难道不是当下你最熟悉的最熟悉的,就能确保它就是最好的吗p>
如果在黑暗中丢失的钥匙,是大数据中的价值,那这个价值也太稀疏了吧。下面的故事,让我们聊聊大数据的价值。
故事02:颠簸的街道——对不起,“n=All”只是一个幻觉
波士顿市政府推荐自己的市民,使用一款智能手机应用——“颠簸的街道(Street Bump, 站访问链接:http://www.streetbump.org/)”。这个应用程序,可利用智能手机中内置的加速度传感器,来检查出街道上的坑洼之处——在路面平稳的地方,传感器加速度值小,而在坑坑洼洼的地方,传感器加速度值就大。热心的波士顿市民们,只要下载并使用这个应用程序后,开着车、带着手机,他们就是一名义务的、兼职的市政工人,这样就可以轻易做到“全民皆市政”。市政厅全职的工作人员就无需亲自巡查道路,而是打开电脑,就能一目了然的看到哪些道路损坏严重,哪里需要维修,如图3所示。
这个故事讲得是数量化分析和预测对棒球运动的贡献,吴甘沙先生认为,它在大数据背景下出现了传播的误区:
第一,它频繁出现在诸如舍恩伯格《大数据时代》之类的图书中,其实这个案例并非大数据案例,而是早已存在的数据思维和方法。在“点球成金”案例中的数据,套用大数据的4V特征,基本上,无一符合。
第二,《点球成金》无论是小说,还是拍出来的同名电影,都刻意或无意忽略了球探的作用。从读者/观众的角度来看,奥克兰“运动家球队”的总经理比利·比恩完全运用了数据量化分析取代了球探。而事实上,在运用这些数据量化工具的同时,比恩也增加了球探的费用,“军功章里”有数据分析的一半,也有球探的一半。
目前的大数据时代,就有这么两个流派,一派是技术主导派,他们提出“万物皆数”,要么数字化,要么死亡(孙正义在对日本企业界的演讲上所言),他们认为技术在决策中占有举足轻重地作用。另一派是技术为辅派,他们认为,技术仅仅是为人服务的,属于为人所用的众多工具的一种,不可夸大其作用。
针对《点球成金》这个案例,比利的拥趸者就属于“数据流党”,而更强调球探作用的则归属于“球探党”。
球探党Bill Shanks在其所着的《球探的荣耀:论打造王者之师的最勇敢之路》(Scout’s Honor: The Bravest Way To Build A Winning Ballteam)中【9】,对数据流党的分析做出了强有力地回应。他认为,球探对运动员定性指标(如竞争性、抗压力、意志力,勤奋程度等)的衡量,是少数结构化数据(如上垒率等)指标无法量化刻画的。
和《点球成金》观点针锋相对的是,Bill Shanks更认可球探的作用,他把球探的作用命名为“勇士”哲学。对于勇士来说,数据分析只是众多“刀枪棍棒”兵刃中的一种,无需奉之如圭臬,真正能“攻城略地”的还是需要勇士。比如说,运动家棒球队虽然在数据分析的指导下,获得了震惊业界的好成绩,然而他们并没有取得季后赛的胜利,也没有夺取世界冠军,这说明,数据分析虽重要,但人的作用更重要!
从第01故事的分析中,我们知道,大数据分析的第一层作用就是,面向过去,发现潜藏在数据表面之下的历史规律或模式,也就是说达到描述性分析。而为了让读者相信数据分析的能力,灌输一些“心灵鸡汤(或称洗脑)”,是少不了的,哪怕它是假的!
故事06:大数据都是骗人的啊——大数据预测得准吗strong>
从前,有一头不在风口长大的猪。自打出生以来,就在猪圈这个世外桃源里美满地生活着。每天都有人时不时地扔进来一些好吃的东西,小猪觉得日子惬意极了!高兴任性时,可在猪圈泥堆里打滚耍泼。忧伤时,可趴在猪圈的护栏上,看夕阳西下,春去秋来,岁月不争。“猪”生如此,夫复何求过往数百天的大数据分析,小猪预测,未来的日子会一直这样“波澜不惊”地过下去,直到它从小猪长成肥猪……在春节前的一个下午,一次血腥的杀戮改变了猪的信念:尼玛大数据都是骗人的啊……惨叫嘎然而止。
图6 连线杂志:理论的终结
“要相关,不要因果”的观点,并不受学术界待见。甚至,《大数据时代》的中文版翻译者周涛亦在序言里说,“放弃对因果关系的追求,是人类的堕落”。对于这个观点,李国杰院士认为【10】:在大数据中,看起来毫不相关的两件事同时或相继出现的现象比比皆是,相关性本身并没有多大价值,关键是找对了“相关性”背后的理由,才是新知识或新发现。
大数据分析的第二个功能,或者说更为的核心功能在于,预测。预测主要用于对未来进行筹划,大到产业的布局,小到流感的预警,均可用预测。但是对未来的预测,能准吗p>
故事08:谷歌流感预测:预测是如何失效的strong>
2009年2月,谷歌公司的工程师们在国际着名学术期刊《自然》上发表了一篇非常有意思的论文【11】:《利用搜索引擎查询数据检测禽流感流行趋势》,并设计了大名鼎鼎的流感预测系统(Google Flu Trends,GFT,访问 址为:www.google.org/flutrends/)。
GFT预测H1N1流感的原理非常朴素:如果在某一个区域某一个时间段,有大量的有关流感的搜索指令,那么,就可能存在一种潜在的关联:在这个地区,就有很大可能性存在对应的流感人群,相关部门就值得发布流感预警信息。
GFT监测并预测流感趋势的过程仅需一天,有时甚至可缩短至数个小时。相比而言,美国疾病控制与预防中心(Center for Disease Control and Prevention,CDC)同样也能利用采集来的流感数据,发布预警信息。但CDC的流感预测结果,通常需要滞后两周左右才能得以发布。但对于一种飞速传播的疾病(如禽流感等),疫情预警滞后发布,后果可能是致命的。
GFT一度被认为是大数据预测未来的经典案例,给很多人打开了一扇未来的窗口。根据这个故事,大数据的布道者们给出了4个令自己满意的结论:
由于所有数据点都被捕捉到,故传统的抽样统计的方法完全可以被淘汰。换句话说,做到了“n=All”;
无需再寻找现象背后的原因,只需要知道某两者之间的统计相关性就够用了。针对这个案例,只需知道“大量有关流感的搜索指令”和“流感疫情”之间存在相关性就够了。
不再需要统计学模型,只要有大量的数据就能完成分析目的,印证了《连线》主编Chris Anderson 提出的“理论终结”的论调。
大数据分析可得到惊人准确的结果。GFT的预测结果和CDC公布的真实结果相关度高达96%。
但据英国《财经时 》(FT)援引剑桥大学教授David Spiegelhalter毫不客气的评价说 [3],这四条 “完全是胡说八道(complete bollocks. Absolute nonsense)”。
针对前3条观点的不足之处,前文故事已经涉及到了,不再赘言。针对第4条,我们有必要再解析一下——GFT预测是如何失效的p>
谷歌工程师们开发的GFT,可谓轰动一时,但好景不长,相关论文发表4年后,2013年2月13日,《自然》发文指出【12】,在最近(2012年12月)的一次流感爆发中谷歌流感趋势不起作用了。GFT预测显示某次的流感爆发非常严重,然而疾控中心(CDC)在汇总各地数据以后,发现谷歌的预测结果比实际情况要夸大了几乎一倍,如图7所示。
图8 《纽约时 》:这些公司是如何知道您的秘密的
一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢就需要用到“关联规则+预测推荐”技术。
事实上,每位顾客初次到Target刷卡消费时,都会自动获得一个唯一顾客识别编 (ID)。以后,顾客再次光临Target消费时,计算机系统就会自动记录顾客购买的商品、时间等信息。再加上从其它管道取得的统计资料,Target便能形成一个庞大数据库,运用于分析顾客的喜好与需求。
有了数据,特别是有了“大”容量的数据,后面的问题就简单了。Target的数据分析师,开发了很多预测模型,其中怀孕预测模型(pregnancy-prediction model)就是其中的一个。Target通过分析这位女孩的购买记录——无味湿纸巾和补镁药品,就预测到了这为女顾客可能怀孕了,而怀孕了,未来就有可能需要购置婴儿服装和孕妇服装,多么贴心的商店啊。但是需要我们注意的是:
1.这是“大”数据的傲慢,而非聪慧。
由于故事极其具戏剧性——亲生爸爸居然比不上一台电脑更了解自己的女儿,因此,这个故事往往被用来作为“数据比人更了解人”的典型案例。并在当下,被用来论证大数据的功力。国内有的新闻媒体,对大数据的理解似是而非,针对这个案例的 道标题就是《大数据的功力:比父亲更了解女儿冲击大卖场》【16】。大数据的无所不能的“傲慢”,跃然纸上。
或许“旁观者清”,信息领域外的上海金融与法律研究院研究员刘远举认为【17】,这案例并不能说明,数据比人更“聪慧”,更了解人,恰好相反,这证明计算机是“愚蠢的”:还在读高中的女儿,显然想保护自己的隐私,并不想父亲知道,但“愚蠢的”计算机却自作主张,把孕妇优惠卷寄寄到了她家里,结果被爸爸逮个正着。
这正是(大)数据的另一种傲慢——好像有了(大)数据,就可以“君临天下”,对顾客的理解就可做到出神入化,对顾客的隐私就可以肆无忌惮。
2.这并非大数据的案例
进一步分析,我们可以发现,实际上这个例子并不属于大数据的案例,它不需要太强的计算能力,甚至用一台普通的电脑就能实施类似的关联规则分析。很多有关大数据的图书和文章都把这个案例当作大数据的案例来讲,其实是不恰当的。
大数据一般要具备典型的4个V特征,Target收集的消费数据属于典型的结构化数据,即使数量再大,也仅仅满足4V特征之一——Volume(体积大)。但是,“数据大”不等于“大数据”。如果光拼体积“大”,那么早在20年前,天文、物理和生物信息学的数据,也够得上是“大数据”了。《纽约时 》的原文【15】,非常“厚道”,通篇没有提及“big data(大数据)” 字样。
3.更重要的是,这个神奇的数据预测故事被人为地灌入了很多“心灵鸡汤”。
数据挖掘界的数据分析师、咨询师们有时候同样也需要 “心灵鸡汤”,励志自己,忽悠客户。对此,美国纽约大学统计学教授Kaiser Fung认为[3],很多人在看到这个故事时,都误认为Target的预测算法是非常可靠的——几乎每个收到婴儿连体服和湿纸巾优惠券的人,都是孕妇。但这是不可能的!更为实际的情况是,孕妇之所以能收到这些购物券,是因为Target给非常多客户都邮寄了这种购物券。在众多客户中,碰巧有那么一位高中女生“不太可能但却又真地”怀孕了,碰巧那位父亲发现并投诉了,碰巧那位父亲发现自己错了并道歉了,这么多巧合,“无巧不成书”。因为极具有故事性,所以大家都爱听。
各位读者在相信Target这类读心术般的故事之前,首先应该先想想,这类商家的预测命中率到底有多高。这里并不说,数据分析一无是处,相反,数据分析极具商业价值,即使能够把“直邮(Direct Mail,DM)”的准确度提高一点点,哪怕是1%,对商家而言,都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。
商家能够提供个性化服务,确实很贴心,但倘若在利益的趋势下,商家对顾客的个性化信息运用不当或越界,就会给顾客带来不能承受的隐私之痛。下面我们聊聊有关大数据隐私的故事。
故事10:你的一夜情我知道——大数据的隐私之痛
Uber(优步,着名的打车软件服务公司,乘客可以通过发送短信或是使用移动应用程序来预约车辆,利用移动应用程序时还可以追踪车辆的位置)曾在官 上发布一篇题为“荣耀之旅(Rides of Glory,RoG)”的博客。文中写到,“我知道,我们不是你们生命中唯一的爱人,我们也知道,你们会在别的什么地方寻找爱情(we know we’re not the only ones in your life and we know that you sometimes look for love elsewhere)。” Uber称作的“荣耀之旅(RoG)”——实际上就是所谓的一夜情(one-night stand)代名词。
Uber利用数据分析技术,专门筛选出那些在晚上10点到凌晨4点之间的用车服务,并且这些客户会在四到六小时之后(这段时间足够完成一场快速的RoG),在距离上一次下车地点大约1/10英里(约160米)以内的地方再次叫车。
在希腊神话中,伊卡洛斯是个自负的天神,他是代达罗斯的儿子,一天,在与父亲代达罗斯使用蜡和羽毛制造的羽翼逃离克里特岛时,由于他过分相信自己的飞行技,故而飞得太高,双翼上的蜡在太阳照射下融化,羽翼脱落,最终导致自己葬身大海。
大数据技术就犹如那 “蜡和羽毛”做的翅膀,它可以助我们飞得更高,但倘若过分依赖它,就有葬身大海的风险。我们要学会如何让大数据为我所用,而不是成为大数据的奴隶。
读完这10个的小故事,你也想来吐槽大数据信小编尽情吐槽!

点击下方“阅读原文”查看【友盟+】更多信息。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!