江湖流传一句话:”字不如表,表不如图”,在 Python 中数据可视化有许多选择,但是大多数的库在语法简洁与灵活度不能平衡,本系列将探讨数据探索时如何使用合适的数据可视化库完成工作。
本系列或多或少涉及一些 pandas 的骚操作( 上很难看到相关的资料),其并非可视化的重点,不会多做讲解。
一切技巧与应用,尽在 pandas 专栏中:
前言
不管是在数据探索还是 告阶段,数据可视化都是一个非常有用的工具。今天我们来看看如何使用四象限图(波士顿矩阵图),为店铺销售员分门别类。本系列我将尽可能使用不同的工具制作。
计划中的工具:
分析思路可以直接参考上一篇文章:
使用Python的seaborn 包做出波士顿矩阵图,改善店铺销售水平
为什么需要介绍多个 Python 的可视化库?因为它们各有特点,而且我不喜欢太复杂的东西,总是在找一个最简单的可视化库。这也是我为可视化专栏做的准备工作
导入包代码如下:
用你的分析能力,提供改善建议
这次案例数据比上一节 seaborn 的多了一个维度,订单数据包含多个店的数据:
每位销售员接待客人的记录:
现在你要根据这些数据,得到这些问题的答案:
- 换掉其中某几位员工(意味着裁员),应该裁掉谁?
- 从中选出某一位员工,对其它员工进行培训和销售技能分享。应该选谁分享,哪些人需要被培训?
分析指标
沿用上一节的2个重要指标:
假设大环境元素相对固定的情况下,我们就可以使用以上指标分析销售员的水平
使用 pandas 能非常容易关联2个数据表,并且简单求出每个订单的总价:
通过汇总,得到最终指标维度数据:
接下来将使用 altair 制作四象限图,顺带了解一下他有趣的图像语法。
一开始你会觉得使用 altair 需要比较多的代码,但实际上他非常灵活,只需要一点小技巧就能用任何我们喜欢的方式调用。
静态图
四象限图实际是散点图 + 线图(水平或垂直线),下面是上一节使用 seaborn 做的图。
而 altair 没有严格按图表类型进行区分,而是让你选择数据点的形状。
作图需要3个步骤:
- 确定数据源
- 把数据源中的字段与坐标系关联
- 选择数据的形状
现在按上述的步骤,选择一个店,做出散点图:
现在能得到一个散点图:
现在还需要线图:
现在只是画出客单价的平均线,同理得到成交率的平均线:
现在我们得到3个图表,只需要简单把它们叠加起来就可以:
这么多的代码,这包有啥好用!?
细看上面的代码,我们发现3个图表很多定义部分是一模一样的。
这是理所当然的,因为这个图表制作流程就是基于很多共性的东西。
进一步简化即可:
这样的作图形式非常灵活直观,比如,为图表的每个点加上标签:
到这里,我们只是在做静态图,其实 altair 真正厉害之处是动态图表,并且能做出图表之间的联动。
整体店铺销售水平可视化
为了方便后续的代码编写,把一些通用过程定义到函数中:
现在用所有店铺的销售员指标,制作四象限图:
代码没啥好说的,如果此时我们打上标签,必然导致图表内容密密麻麻。
现在加个提示标签,当鼠标移到数据点上,显示该数据点的信息:
如下是动图:
encode 方法中能让你把数据绑定在图表很多属性上,比如大小,颜色等等。
现在虽然通过提示标签能让用户选择性查看某个点的信息,但是在分析的时候,我们更多地希望以店铺为单位进行观察。
接下来,我们使用 altair 制作出 BI 软件常见的图表联动效果
不同维度的图表联动
现在希望同时展示两个图表,一个是之前制作的多店四象限图,另一个是不同店铺的销售额柱状图。
通过点击店铺销售额的柱状图,旁边的四象限图高亮显示该店的销售员数据点。效果如下:
接下来,我会把一些过程通过自定义函数包装。
与大多数 BI 软件可视化的逻辑一样,我们需要使用同一份数据源制作不同的图表。
因此,我们需要使用 altair 的数据转换功能对数据做汇总:
使用这个数据源做四象限图即可:
然后,使用”订单数据源(order_src)” 制作店铺销售额柱状图:
把2个图表并列放置,只需要使用 逻辑或运算符”|” 即可:
整体代码如下:
现在图表已经有了,但是缺少交互联动。在以上的代码上加上一些联动的定义,就可以做到。
首先,定义”鼠标点击行为”:
现在其实柱状图已经可以接受点击行为。但是实际点击时,是看不到任何的效果。
这是因为我们没有告诉他,筛选后的变化反映在哪个地方。
因此,需要把行为绑定到颜色上,再次修改代码:
由于散点图与柱状图中的 encode 方法参数 color 均使用定义的条件 color ,所以当点击行为触发时,这些图表都能一同变化。
不过此时你会发现散点图的提示标签不再起作用,这是 vega lite 上的小 bug ,只需要在散点图上添加一个单选行为即可:
是不是觉得代码有点多了?我们仍然可以进一步封装。
甚至可以弄成一个 excel 的模板,只需要配置好各种设置,简单一句代码就能做出复杂的图表。这留在以后再介绍吧。
总结
altair 是一个非常有趣的可视化包,它基于 vega lite (这是一个大数据可视化工具) ,而 vega lite 底层是基于 d3.js(这是目前前端可视化的标杆)。
只要学会一定的套路,能非常简单灵活使用它做出各种复杂的图表
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!