- 交易格式
- 表格格式
在上图中,超市市场分析员分析顾客购买商品的场景,顾客购买面包同时也会购买牛奶的购物模式就可用以下的关联规则来描述:
面包 => 牛奶 [ 支持度 =2%, 置信度 =60%] (式 1)
式 1中面包是规则前项(Antecedent),牛奶是规则后项 (Consequent)。实例数(Instances)表示所有购买记录中包含面包的记录的数量。支持度(Support)表示购买面包的记录数占所有的购买记录数的百分比。规则支持度(Rule Support)表示同时购买面包和牛奶的记录数占所有的购买记录数的百分比。置信度(confidence)表示同时购买面包和牛奶的记录数占购买面包记录数的百分比。提升(Lift)表示置信度与已知购买牛奶的百分比的比值,提升大于 1 的规则才是有意义的。关联规则 式 1的支持度 2% 意味着,所分析的记录中的 2% 购买了面包。置信度 60% 表明,购买面包的顾客中的 60% 也购买了牛奶。如果关联满足最小支持度阈值和最小置信度阈值,就说关联规则是有意义的。这些阈值可以由用户或领域专家设定。就顾客购物而言,根据以往的购买记录,找出满足最小支持度阈值和最小置信度阈值的关联规则,就找到顾客经常同时购买的商品。
关联规则使用的数据可能是交易格式,也可能是表格格式,如下所述。
交易数据对于每个交易或项目具有一个单独的记录。例如,如果客户进行了多次采购,则每次采购都会有一个单独的记录,并且相关联的商品与客户 ID 相链接。这种格式有时称为 行穷尽格式。
表 1. 交易格式数据
客户 | 采购 |
---|---|
1 | jam |
2 | milk |
3 | jam |
3 | bread |
4 | jam |
4 | bread |
4 | milk |
表格数据(也称为篮子数据或真值表数据),由单独的标志表示项目,其中每个标志字段表示一个特定项目的存在或不存在。每个记录表示一个相关项目的完整集合。标志字段可以是分类的,也可以是数字的。
表 2. 表格格式数据
客户 | Jam | Bread | Milk |
---|---|---|---|
1 | T | F | F |
2 | F | F | T |
3 | T | T | F |
4 | T | T | T |
Aprior、Carma 和序列节点是常用的关联规则挖掘算法,它们都可以使用交易格式和表格格式数据进行挖掘处理。其中 Aprior 算法,处理速度快,对包含的规则数没有限制,是一种最有影响的挖掘关联规则的方法。
回页首
IBM SPSS Modeler 作为一种
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!