围绕“出版工作中的数据分析与应用”,5月25日开卷数据交流会邀请福建科学技术出版 副 长李长青做了《从Smart到Smarter》的主题分享,内容如下:
各位同仁,大家好!再次登上开卷的讲堂,距离上次一晃已经三年多了。在此之前,开卷多次邀请我再次分享经验,但是我一直在思考一个问题:我能带给大家什么?——我深恐对不住大家这宝贵的一个小时。这一次,开卷的邀请盛情难却,而我也有了一些新东西,所以就斗胆来了。
为什么我会走上数据分析这条路?我们是一家国内少有的几家没有教材教辅图书的出版 ,我们必须靠着五六千万的生产码洋来支撑起日常生活,没钱,不能任性,不能出错,为此被逼上了数据分析这条路子。
数据分析的优点是稳定、可操作、易掌握、可推广。数据分析是一个基础,但也不是万能的,我们要和经验对接,寻找两个的统一,从而提升我们的策划质量。
一、开卷的行业意义
一是指南针。开卷不等于全部的需求,但是它告诉了我们需求在哪里。就像我们古代有一个意象,叫做“指月”。说月亮在指头上面,不是说月亮长在指头上面,而是顺着指头的方向我们能看到月亮。我们说开卷是指南针,顺着开卷我们能看到市场的需求,已经实现的在哪里。
二是测量尺。比如,开卷的排名、在架数据等,能够给我们很清晰地呈现出问题所在。
三是粘合剂。编发意见不统一是常见的,作为第三方数据,开卷能够帮助我们的编发人员共同来面对问题。
二、从Smart到Smarter
为了让大家更好的记忆,我就把要讲的内容梳理一下,凑了几组Smart。
第一组Smart,谈的就是出版机构如何实现数据驱动。
实现数据驱动,首先要有人,要有想从事数据分析来提升策划水平的人;其次要有数,有分析对象——数据;再下来要有为,要去做数据分析这件事;在做的过程中要讲究一些方法,有法;最后就是持之以恒地做,有恒。这五个有,把它们的头一个字母凑起来,倒过来读刚好就是Smart,也是我今天讲座的大框架。
(一)有人TALENT
有人,是第一组Smart中的t, talent。这儿用talent,而不是ordinary,是说从事数据分析,要先具备一些基本的技能素养。这些技能素养,也可以用一组Smart来概括:数学统计STATISTICS、经济管理MANAGEMENT、做事用心ATTENTIVELY、态度严谨RIGOROUS ATTITUDE、业务知识TASK KNOWLEDGE。
1.数学统计STATISTICS
主要包括常用指标、描述方式、基本方法、基本思路、基本思维等。
常用指标有频数(册数、码洋、品种数)、比重、排名、变化趋势(增长率、成长性)、区域分布(渠道、省份、店别)、相对值、相对效率(销量出版效率、码洋出版效率、在架书店动销比)等。
基本方法有五:汇总Summary、聚类Merge、分类Assortment、对比Relative或排序Rank、趋势Trends。这就是第三组的Smart。
首先是汇总。汇总后才能看出整体情况,不遗漏。
其次是聚类和分类,这两个可能大家容易混淆,聚类是先有数后有类,可以消除个体的影响,而分类是先有类后有数,可以消除类别的影响。比如这是一个聚类分析,是对我们发行的一个评估,这个数据一拿出来我们就可以看出五大类、三个主体一目了然,再针对这些区域给出相应的解决方案。
再者是对比,分成纵向和横向。单独看一个数据是不会有感觉的,必须跟另一个数据对比才会有感觉。
排序,排序也是一种对比,对比后按大小排序。未经排序我们是看不出重点所在的。由于精力有限,在解决问题的过程中要抓大放小,因此,排序就大有必要了。
趋势,趋势本质是不同时间点的对比。比如说我们2016年所处的名次,单从上图,是说不出是好还是坏的。那么,通过2012到2016的趋势就可以看出来,我们 整体是一个波动的过程,现在又回到相对好的一个位置。还可以看出,近5年来化工 在中医门类有一个强势崛起的过程。可以看出,中国中医药虽然2016年登上了榜首,但其出版效率的问题一直未得到有效地解决。
数据分析要长期跟踪,动态分析,研究趋势,其原因是需求存在短期波动与长期稳定的特点,原因是干预措施的效果具有滞后性。
2.经济管理MANAGEMENT
经济学、管理学中有很多成熟的经验和模式,对于分析决策非常必要。比如4W模式、五步分析法、科学管理七法、波特竞争理论、生命周期律、市场竞争策略等。
数据分析4W模式
五步分析法
科学管理七法
(二)有数RECORD
有数,是第一组的Smart中的R,Record。整理过的才叫DATA,我们拿得到的数据,也许整理过,也许只是简单的记录,未经处理,所以只能说是Record。
互联 时代提供了无限数据可能,开卷数据、出版 内部数据、豆瓣评论、微信粉丝、阅读量、专业 群、天猫数据等等,除此以外,还有行业内的各种产业 告,如百度指数、舆情洞察、人群画像,还可以通过爬虫自己爬取有需要的数据……这些对我们的选题开发,都是很有帮助的。
做数据分析,一定要注意数据质量的问题。计算机界有一个很有名的说法,叫“Garbage In,GarbageOut”,翻译过来就是“垃圾进、垃圾出”,意思是指,装入的是垃圾,出来的当然也是垃圾。即用胡乱选择的垃圾数据作样本,产生的研究结果自然也没有任何意义。
数据质量是保证数据应用的基础。怎么评价数据的质量,有五个指标:经济性Saving、完整性Maturity、一致性Accordant、相关性Relevant、及时性Timeliness。这就是第四组的Smart。
应该说,开卷的Smart系统是符合上述特点的。此外,从它的指标设置与出版业的关系来看,它具有明确的SPECIFIC、有意义的 MEANINGFUL、可达成的ATTAINABLE、相关的 RELEVANT、及时的TIMELY五个特点,这就是第五组的Smart。从咱们使用者角度看,它是一个简易的Simple、可管理的Manageable、具有行动导向的Action-Oriented、符合实际Realistic的工作工具Tool,这就是第六组的Smart。
谈完有数,接下来谈谈有为。
(三)有为ACTION
有为,是第一组的Smart中的A,Action。
显然,有了人,有了数,我们就要开始动手做了。怎么做?从分析的目标看,涉及 会分析、行业分析&板块分析、本版分析&同行分析、产品分析、属性分析五个层次。因此,与之相对应的数据监控体系,也必须有五种类型,根据其功能不同,我把它们命名为望远镜TELESCOPE、广角镜ANGLE WIDELY MIRROR、瞄准镜SIGHT MIRROR、后视镜REAR MIRROR和放大镜MAGNIFY MIRROR。 把这五种镜子的首个字母连起来,这就是第七组的Smart。
1.望远镜TELESCOPE:
要看 会大环境,且时间长。比如说十三五规划,比如说一带一路,比如说我们做健康类的,做医学类的,要关注健康中国2030规划……在我们埋头拉磨的同时,一定要抬头看路,抬头看路不但要看当下,还要看远方,要看到是光明,要避开曲折。看得远,才能绕过曲折走向目标,才能走得快走得好。
2.广角镜ANGLE WIDELY MIRROR:
主要针对行业和板块。行业的变化和板块的规模决定了天花板到底有多高。当天花板比较高的时候,我们就努力的向上走。当我们已经靠天花板很近的时候,就要控制好自己的步伐,想好是换个房间还是打破天花板。
广角镜主要强调要宽。行业分析除了我们出版行业之外,必须放眼到内容产业,要关注到我们服务的学术行业,关注对出版业起支撑作用的支撑行业,如信息技术、智能商业BI等。要拓宽广角镜,就要关注有关行业 站,要积极参加各种行业会议,学习了解行业 告,像国民经济发展 告,总署发布的产业分析 告,各类的行业 告,特别是开卷的 告。这些信息对我们都会有启示。
3.瞄准镜SIGHT MIRROR:
在这个层面上,开卷数据查询系统做得很好,特别是在架数据,时间、地区钻取等,还有选题服务、管理服务、发行服务都是很好的示范。
4.后视镜REAR MIRROR:
5.放大镜MAGNIFY MIRROR:
放大镜聚焦于产品之下,寻找产品背后的影响因子,或称属性分析。属性分析要尽量细。刚才说过,数据分析除了分析数值之外,还可以分析文本。属性分析的主要对象就是文本,包括主书名分析、营销书名分析、广告词分析、商品详情分析、产品介绍分析、评论分析等。属性分析还和 店上的SEO搜索优化有很大的关联。当然,属性分析可能更适用于科技类、生活类及一些实用性产品,对于文艺类、畅想型的,不一定适用。
属性分析的方法有句式分析、情感分析、词频分析、字频分析、语义 分析、文献计量学分析等。
书名分析,按使用的深度,我把它分为1.0到3.0几个层次。
1.0版本,就是看排行榜寻找热门书名,看榜单,找感觉。
2.0版本,就是把排行榜的书名进行分词,统计词频,排序,找热词,通过热词找热点。同理,字频分析也有意义。
2.5版本,就是在2.0版本的基础上增加了时间因素,看趋势,逐月观察,热词的增增减减之间一定有玄机。
3.0版本,语义 分析,找关联。语义 一方面统计整个榜单中各词出现的频度,频度越高,点就越大,另一方面将出现在同一书名中的词用线连起来,一起出现的次数越多,线就越粗。从全市场中医前1000和本版中医的语义分析可以看出,我们的产品形成3个主要聚类,基本处于全市场语义 中右下方,再次体现了我们的小和特,也提示后续产品布局还有可开拓的空间。
语义 分析不但可以用于市场图书分析,也可用于重大出版项目的分析。如国家出版基金项目等。
(四)有法METHOD
有法,是第一组的Smart中的M,METHOD。
1.基础方法
基础方法包括假设SUPPOSE、增维MULTIDIMENSION、降维ABATEDIMENSION、拆分RESOLVE、变形TRANSFORM五种方法,这就是第八组的Smart。
假设SUPPOSE:
当不知道结果,或者有几种选择的时候,就可以假设。先假设有了结果,然后逆向思维,寻找支持或反对的证据。从结果到原因,思考要有怎么样的因,才能产生这种结果。这有点寻根的味道。那么,可以知道,现在满足了多少因,还需要多少因。如果是多选的情况下,就可以通过这种方法来找到最佳路径(决策)。
不但结果可以假设,原因、过程也可以假设,相当于解方程的过程。
增维MULTIDIMENSION:
如果当前的维度不能很好地解释问题时,就需要对数据做一个运算,增加多一个指标。如均价、出版效率、相对比。
降维ABATEDIMENSION:
当数据维度太多的时候,不必每个维度都拿来分析,有一些有关联的指标,可以从中筛选出代表的维度即可。如码洋=定价×销量;那么,有时码洋就可以忽略。
我们一般只关心对我们有用的数据,当有某些维度的数据跟我们的分析无关时,就可以筛选掉,达到降维的目的。凡是非相联、非目标维度,均可略去,忽略是相对的。
本次被忽略的维度,在下一次分析中可能因为相关或目标而成为分析对象;反之亦然。
拆分RESOLVE:
拆分适用于非基本因素的复合因素(可拆分因素,加减乘除)。把分析目标从复合因素转到不可再细分的基本单元,可防止多因素混杂。
变形TRANSFORM:
当数据不直观,或大小失当时,可以转换成其他形式,如绝对数、相对数、比率等的转换。最典型的是百分比、出版效率、在架动销比等。
2.进阶方法
进阶方法,如系统图SYSTEMDIAGRAM、矩阵图MATRIX DIAGRAM、箭条图ARROWDIAGRAM、关联图RELATIONSHIP DIAGRAM、思维图THINKING MAP五种图进行可视化,既是呈现,也是分析。这五种图法,其首字母连起来,就是第九组的Smart。
3.高阶方法
除前面的方法后,我们还有高阶方法可以选择,比如语义 分析SEMANTIC WEB ANALYSIS、建模分析MODELING ANALYSIS、方差分析ANOVA ANALYSIS、回归分析REGRESSION ANALYSIS、三轴图法TRIAXIAL DIAGRAM,这就是第十组的Smart。
(五)有恒STAMINA
那么,有了这十组Smart,我们怎么用它,只用一次吗?显然不是,我们要持之以恒用它不断来修正我们的认识,改进我们的生产进程。
怎么持之以恒地做呢?我用传统中国的“道法术器势”来概括它。道就是分析思维体系,System;法是分析方法,Method;术是具体的一些战术、套路,Art;器就是常用的一些工具,Tool;最后就是形势,普遍使用数据分析的大形势,Regnant。这就是第十一组的Smart。
1.道System
道,涉及8个“识”。以数据常识、统计意识、业务知识为基础,执行中要有抽样与整体意识、定性定量结合意识、多侧面多维度意识,要用数据质量意识、持续改进意识贯穿全过程。
2.法Method
法有广义、狭义之分,此处讲是狭义的法。前面第一组的Smart讲的法是广义的法。狭义的法,指的是基础性、基本的方法,主要有前面提到的第三组和第八组的Smart。
3.术Art
术也是广义法的组成,它一般指成套方法的组合,是套路,是模式。包括前面提到的进阶方法和高阶方法,即第九组和第十组的Smart。当然,其他未提及的方法,只要是成套路的组合,都是术。
4.器Tool
器,就是我们使用的工具,从数据源来看,内部数据加外部数据相结合,特别是开卷SMART系统是一个非常重要的数据体系,从软件方面,EXCEL是基础,有可能的话学点SPSS、语义分析软件UCINET、 络爬虫等。
5.势Regnant
要将数据分析培养成为潜意识行为,一切行为和手段都可以数据化。经常数据分析,用数据说话,通过自己的实践,让数据分析成为所在机构的主流方式,营造数据分析的势能。
三、数据分析实例
数据分析,按用途分以下五类。
(一)日常观测要点
全集团、全 、产品线、科室概况。
具体图书表现如何。
主攻门类的竞争者是谁(总体名次、码洋占有率、出版效率;新书码洋占有率、出版效率;近半年新书品种供应量;市场收益的年度分布,近2年新书依赖度,平均销售书龄;产品风格,单品收益率,产品线体系布局;该门类对对手的市场收益贡献率)。
主攻门类有什么好书出现。
我关心的个别品种表现如何。
有什么新的选题可以开发。
竞争者有什么变化。
整个市场板块有无变化。
发行工作做得如何。
(二)板块选择:选面
外部指标(市场引力):开卷数据,市场份额、增长率、出版效率、书龄分析。意义:反映市场需求大小和平均竞争力的指标。
(三)选题开发:选点
1.有明确想法时
参考当前量、累计量;出版者、出书时间;主销渠道、省份、季度分布;在架情况、在架动销比;市场生命周期阶段;所属板块态势;多品种出版效率分析;定价-销量分析;定价-码洋分析;内容、装帧;本 优势、特色。
2.无明确想法时
(四)产品监测(印数)
图书的当期销量是服从生命周期模型,累计销量服从生产曲线模型。我们可以通过这两个模型来预估我们的产品到底该印多少。
加印数的决定,可以参考以下方式
? 根据生命周期率得出 市场需求最小量
? 根据生长曲线模型得出 市场需求最大量
? 参考在架书店动销比决定加量或减量
? 参考半年至一年备货量大小(扣库存、在途)
? 参考同类书市场寿命(平均书龄、本书出版时间)
? 根据印刷工价选择风险-利润的平衡点
(五)发行营销应用
数据分析在发行营销中也有多方面的应用。可以用于营销工作,更可以对发行工作做一个深入的分析。
1.营销的应用
2.发行评估应用
最后,总结一下。今天我跟大家分享了11组Smart,我相信,我们在基于开卷SMART系统之上,博采各类数据,通过一系列的Smart分析过程,一定会让我们更好地在较短时限TIMED内,通过适宜的APPROPRIATE方式,成长为所在机构内重要的SIGNIFICANT、激励人MOTIVATIONAL的标杆,掌握必要的资源 RESOURCED,取得令人兴奋的EXCITABLE业绩,并不断循环RECYCLE往前,这就是Smarter。从Smart到Smarter!
数据分析是一个不断成长的过程,借用英国著名信息学家、科幻作家阿瑟·克拉克的一句话:“他从未成熟,但一刻也没有停止成长”,用这句话共勉,我们一起在数据分析的路上一起向前走。
谢谢大家!
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!