数据挖掘著名案例——啤酒与尿布

前言

“啤酒与尿布”的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长!

  可是一个1000平方米的超市,像老张这样的客户一天可能有1000~2000个,这样的数据看上一天也不会有什么结果,除了知道老张喜欢喝上一口,喜欢用花生米、豆腐干下下酒,其他的事情都不知道。

  这就引出了一个新的话题:客户群体划分。

  了解一个又一个老张们的喝酒习惯对于门店是没有意义的。门店需要知道的是,门店有多少个老张有多少个与老张喝酒习惯不同的老李喝啤酒就花生米的老张与喝干白葡萄酒就腰果的老李分开,分成不同的客户群体,对于门店才是有意义的。

  比如门店只要知道,在喝酒的100个客户里,有30个喝啤酒就花生米的老张,10个喝干白葡萄酒就腰果的老李,另外有20个老王是喝黄酒就豆腐干,这就足够了。门店这时就可以知道,啤酒与花生米有关联关系,干白葡萄酒与腰果有关联关系,黄酒与豆腐干有关联关系,这些商品可以考虑一起促销,或者摆放在相近的位置进行陈列。

  这么说大家应该明白了吧,我们分析啤酒与花生米、干白葡萄酒与腰果、黄酒与豆腐干之间的关联关系时,不需要了解这些客户到底是谁,只要知道有这么个群体存在就行了。

  找商品之间关联时有会员卡当然不错,没有会员卡时一样可以分析啤酒与尿布、啤酒与花生米之间的关系,我们只要知道怎么去归类就可以了。不要听某些人讲,没有办法进行购物篮分析,原因是超市没有使用会员卡,这不过是借口而已。

以支持度、置信度、提高度三项指标表现的商品相关性

  很多专业人士认为,一个正规的购物篮分析 表应该采取三个指标数字,才可以准确地衡量商品是否真的存在关联关系:采取“支持度(support)-置信度(confidence)”作为主要商品相关性分析指标,为了强化说明关联关系,往往会运用提高度(lift)指标。

  1. 支持度(support)指标

  在购物篮分析中,支持度指的是多个商品同时出现在同一个购物篮的概率。比如啤酒与尿布同时出现在购物篮中的概率是20%,我们称啤酒与尿布的支 持度是20%,按照国际命名规则表示为:啤酒Implies 尿布=20%。

  “啤酒与尿布”不等于“尿布与啤酒”——相关性的单向性:这不是一句绕口令,这是代表商品之间的相关性具有单向性。我们前面讲过,“啤酒与尿布”代表了一种因果关系。在“啤酒与尿布”的故事中,年轻的父亲去超市的目的是购买尿布,在买到尿布的前提下,才会考虑购买啤酒,因此在购买尿布的父亲中有35%购买了啤酒,不代表购买了啤酒的父亲有35%购买了尿布,因为这是两类不同的消费行为,商品之间的因果关系也会不同,因此这个故事不能反过来讲。

  要看商品之间是否具有相关性,在计算商品之间的支持度时,需要反过来计算进行验证,看看两个商品之间的相关性具有多少的可信度,从而寻找商品之 间的因果关系。由于商品之间关联关系具有单向性,在零售业也会采取这种表示商品关联关系的方式:尿布→啤酒,即尿布与啤酒之间具有关联关系,方向是从尿布到啤酒(反过来不一定对)。

  2. 置信度(confidence)指标

  置信度是对支持度进行衡量的指标,用于衡量支持度的可信度及数据强度。由于这项指标是将商品同时出现在购物篮中的概率进行反复运算,因此这是衡量商品相关性的主要指标。

  3. 商品之间的亲密关系——提高度(Lift,也称兴趣度)指标

  提高度是对支持度、置信度全面衡量的指标,很多时候在衡量商品关联关系时只采用这一个指标,可见这个指标的重要性。当提高度指标大于1时,表明商品之间可能具有真正的关联关系。提高度数据越大,则商品之间的关联意义越大。如果提高度小于1.0时,表明商品之间不可能具有真正的关联关系。

  在某些情况下,提高度会出现负值,此时商品之间很有可能具有相互排斥的关系,体现在购物篮中,就是这些商品从来不会出现在同一个购物篮中。

为了说明问题,我们下面还是以几个具体的案例说明上述问题

  超市中熟食、面包、肉类三种商品之间的关系——三项指标表示的商品相关性

  图1-3是我们对某超市熟食、面包、肉类商品的关联性分析图,相信前一次邓斌同学的演示大家还记忆犹新,我们在这里向大家解释一下如何解读这个关系图。

  我们以第一行数据为例,表示客户购买熟食时,有8.33%的客户会同时购买面包,这个比例很少,因此可以认为买熟食的客户只有很少的比例会购买 面包。

  第二行数据表示在客户购买面包时,会有33.33%的客户同时购买熟食,这样的关联度数字具有商业价值,我们在这里也要注意,熟食与面包的关联 度方向性很强,这是代表了不同的消费行为。

  第三行数据显示购买熟食品的客户在完成购物后,会去买肉类商品。

  在表1-3中我们可以看出,熟食与肉类、肉类与熟食之间具有关联关系。

  肉类和面包与熟食之间、熟食与肉类和面包之间具有关联关系,这些关联关系经得起反复计算,是真正的关联关系,而其他商品之间没有真正有意义的关 联关系。

  

我们在前面谈到了,商品关联度有好几种表示方式,但是这些方式实在很麻烦!你可能会问,哎呀,有没有办法用一个简单的数据,直截了当地表示商品之间的关联度然有了,表示商品关联度的数值可以统称为R值(Relationship的简称),这个R值作为商品之间相关性的数值统称,可以是商品同时出现在购物篮的概 率,也可以是商品之间的提高度。

R值的含义

  R值是衡量商品相关性的重要指标,按照购物篮分析的规律,R值与商品相关性的对应关系定义如图1-2所示。

图1-2 R值与相关性指标对应关系

  对于R值大于0.75,则可以认为具有相当强的相关性,R值在0.25~0.75为较强相关,R值低于0.25的相关为弱相关。

  1. 不要盲目乐观——当商品之间的R值大于0.75时

  在购物篮商品相关性分析时,如果发现商品之间的相关性越强,当然代表商品之间具有很强的关联关系,但是别高兴太早,R值越大越可能得出无意义的分析结果,因为此时揭示的可能是卖场司空见惯的东西。比如三文鱼片与绿芥末经常会出现在一起,或者热狗面包与热狗、卷笔刀与铅笔、方便面与火腿肠经常出现在一起等,这样的分析结论要尽早剔除,以免为业务人员所嘲笑。西方有一句名言:“不要尝试再去发明车轮”,用在这里作为某些大的R值的评价是很恰当的。

  2. 临时因素造成的强关联关系——当商品之间的R值在0.25~0.75之间

  这类R值在购物篮数据分析行业称为“强关联”,很多“强关联”是临时因素“干扰”造成的,有些“干扰因素”没有意义(如下面提到的伪关联),有 些“干扰因素”有意义,比如摆放在同一个堆头区商品很容易同时出现在购物篮中,看上去具有很好的相关性,一旦促销结束、堆头撤销,商品的相关性也会消失,但是这样的临时因素就非常有意义,可以证明促销组织非常成功,因此可以用来评估促销效果。

  3. 隐藏在微弱特征背后的真相——当商品之间的R值在0.25以下

  在购物篮分析行业,将R值低于0.25的相关性称为“弱关联”。在很多弱关联中,蕴藏了很多不为人知的商业规律,比如啤酒与尿布这类商品的关联关系,相关关系特征相当微弱,只有在特定的条件下(比如购买啤酒与尿布的父亲),这些特征才会强化从而被人发现,所以零售专家认为,弱关联最吸引人。在弱 关联中找出商品之间存在的关联关系,对于很多数据分析人员来说是个极大的挑战,因此购物篮分析的主要任务是在弱关联的关系中找出商品之间的相关性。

  4. 同行是冤家——当商品之间的R值为负值

  出现负值代表商品从来不出现在同一购物篮中,商品之间的关系是排斥关系。很多购物篮分析数据不提及R值为负的情况,这是因为R值为负数时,分析 难度更大。一般来说,只有在商品之间的功能相同时,R值为负值才有意义,因此我们称为“同行是冤家”,这时往往代表商品之间是竞争替代关系。

R值背后隐藏的事实

在卖场中存在大量的商品关联关系,比如油条与豆浆、三文鱼与绿芥末、牛奶与面包等等,这些商品之间具有较强的关联关系,也有一些商品之间是竞争 关系(负关联即排斥关联),比如米饭与面食、猪肉与鸡肉、各类面包之间、不同品牌牛奶之间等等。

尾声

其实除了“啤酒与尿布”之外,商品之间还会存在很多奇特的关联现象,只是这个故事给我们打开了通往发现真相的大门。我相信,人们对这个经典的案例的挖掘还会继续下去,借句老话说:经典早就了永恒。我希望,我们今天的演示能够为在Data Mining挖掘出来数据信息之后抓耳挠腮、不知何用的同学提供一点点思路。虽然我们还没涉足 会进行自己的创业,但是我们可以结合我们平时的所见所闻所想,再佐以前人的经验,牛顿说:我们成功,是因为我们站在巨人的肩膀上。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2014年1月13日
下一篇 2014年1月14日

相关推荐