一、同样的屋檐,不同的天气
夏天到了,阴雨多发。
上班前闲着没事,一群无聊的人看着窗外天色,用几点下雨打赌,来决定午饭由谁买单。
一边下注,一边已经有人拿起手机,开始查攻略。
其实,这也算不上作弊。谁都知道,天气预 软件, 不准天气,有时候甚至还没猜的准。
而且,同事们拿着不同的手机,用着不一样的天气预 软件。念出的天气预测结果,果然也天差地别。
但当同事小艾,念出她手机的预测结果时,有些出乎我的意料——小艾和我用着同一款手机,天气软件都是系统自带的天气软件,但天气预 居然和我手机上显示的不同。
我拿来她的手机,再次确认:我们身处同一个位置,都开着系统定位,且都赋予了天气软件读取定位的权限,我们也在同一个WIFI环境下。
我们使用着同样的手机、同一个款天气软件,也更新到了同一版本。
我们为了避免时间误差,都多次刷新了天气预 页面。
但天气预 结果,依然是不同的。
这两份天气预 中,至少有一份是错的。又或者两份都是错的。
难道天气预 的数据推送,也会根据不同人的喜爱,给出不同的结果?
二、同样的行迹,不同的位置
最近几年,很多同事选择了自行车上下班。
因为健康,因为环保……也有可能是因为穷。
公司附近有几处重要的办事机构,管理较为严格,共享单车不能随地停放,必须放在指定的区域。
而在具体的操作中,必须现在手机上操作,确认已抵达规定还车地点,才能进行关锁。
然后,那些钟爱睡懒觉的同事,就体会到了什么叫噩梦。
离上班时间还有2分钟,骑自行车来到公司楼下,驻足在停车区域内,点击手机上的“我要还车”,然后看到提示:您不在还车区域。
之后,自然是一番折腾,向前动动,向后挪挪,但无论如何进出,手机页面上总显示者:距离指定还车区域3米。
更过分的是,旁边一样过来停车的人,纷纷抵达位置,其中有不少直接关锁走人,没有在定位环节遇到麻烦。
看着上班时间已过,成年人的崩溃,往往就在那么一瞬间:咱的定位数据,为什么永远都差3米?
不过,他也很快释然了:既然停不了车,干脆骑车出去吃个早饭吧。迟到要扣钱,违规停车也要扣钱,反正总要扣一个。
三、同样的搜索,不同的结果
还是闲来无事的办公室生活。
到了下午5点,人们都忙完了手头的任务,开始刷着手机,静待下班。
小艾新买了个头饰,杨妹子看着不错,问她要链接。
微信转发淘宝链接比较麻烦,小艾是个懒人,就跟杨妹子说:你就搜索#$%%@@%,第一个就是。
杨妹子听话照做,在淘宝搜索栏里输入了#$%%@@%,但别说第一个,连着刷了十页,也没有看到小艾买到的那件头饰。
其实,不同人在淘宝搜索同一个词,会出现不同的结果,也不算是什么新鲜事情。
系统会根据每个人的搜索、购买习惯,给他们推荐,系统认为他们最有可能感兴趣、最有可能购买的商品。
不过这些推荐,显然还没有完全猜透用户心意。
搜索结果,都是杨妹子不感兴趣的。
而她现在、立刻、马上就想要购买的商品,系统却没有推送给她。
大数据的判断,是不是很不准确?
四、数据缺陷,显而易见
大数据有问题吗?
它距离完美还差的很远。
而在生活中这些琐碎的事情上,我们也能看到,大数据一些显而易见的缺陷。
1. 因为边缘数据,忽略了主要问题
现如今的大数据,基于庞大的数据量进行推算。
不过,数据与数据间,也具有权重差异:一些数据对计算结果有重要影响,一些数据却只作为参考。
但当边缘数据足够多的时候,也会对结果带来质的影响。让一些本应该起到决定性作用的数据,被边缘化。
就如刚才天气预 结果的区别,可能也是数据推算带来的差异。
不只以气象局的预测为依据,也结合了每个人的行动轨迹、遇雨频率等个体差异,进行单独分析。
但分析结果怎么样?
同一时间,同一地点,却给出了截然不同的天气预 。
难道是否下雨,会根据每个人的行动轨迹而变化吗?
我们没有生活在楚门的世界,我们也不叫萧敬腾。
处在同一屋檐下,应该面对同样的天气,这个常识,却在计算中,被大量的数据挤到了一边。
而在 络世界中,事实被大量数据击垮,其实极为常见:
点赞多的视频,未必真的有趣。
如果能找来足够多的人刷点击、刷关注、刷赞、刷评论,一些低质量的视频,也可以成为热门,推送给很多人。
评分低的饭店,未必就很难吃。
只要找足够多的人去恶意差评,可以轻松把一家饭店的评分搞下去。而很多饭店在开业之初,也会找大量的人刷好评,让自己屹立在推荐头部。
当非真实的评价足够多时,真实就会被掩盖。至于饭菜味道究竟怎么样,数据又尝不出来。
2. 用复杂的方式,做了简单的问题
因为大数据的存在,让很多原本非常简单的问题,变得很复杂。
一些显而易见的答案,却被藏了起来。
当你搜索1+1时,首屏上80%的搜索结果,不是1+1=2,而是哥德巴赫猜想、电影、歌曲之类与1+1相关的东西,甚至关于1+1=1的推论。
明明是个很简单的问题,却因为大量相关资料的存在,而被演化的非常复杂。
就像小艾给杨妹子推荐的商品,她俩长期使用着同样的WIFI地址,也在不止一个软件上相互关注、加着好友。其中一人前几天购买了某商品,另一人几天后用同样的搜索词,搜索同一商品,想必也是数据能够监测到的。
如果只考虑这些显而易见的信息,推荐同样的商品,立刻就能促成购买。
但大数据偏偏考虑了太多过去的搜索、购买结果,认为她俩不是同样的消费群体,认为她俩具备不一样的喜好,所以推送的搜索结果也完全不同。
很简单的一道题,做的太过复杂。
3. 数据偏见,偏见螺旋
大数据的推送,更存在严重的偏见。
数据认识用户,很多时候就像盲人摸象一样。
只摸到了大象的腿,就认为大象是个圆柱体。
数据只看到了用户的某一面,认为用户就是那个样子的。
最初,数据通过盲猜的方式,向杨妹子推荐了某些商品、某些视频,她随意观看了其中的几个。
数据会对她的观看行为进行记录,并再次推送类似的商品、视频,进行验证。
果然,杨妹子确实对这些内容感兴趣,多次观看。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!