数据分析与挖掘概述
1.什么是数据分析和挖掘
数据分析和挖掘都是基于搜集来的数据,应用数学、统计、计算机等技术抽取出数据中的有用信息,进而为决策提供依据和指导方向。
-应用漏斗分析法挖掘出用户体验过程中的不足之处,从而进一步改善产品的用户流程。
-利用AB测试法检验 页布局的变动对交易转化率的影响,从而确定这种变动是否有利。
-基于RFM模型实现用户的价值分析,进而针对不同价值等级的用户采用各自的营销方案,实现精准触达。
2.数据分析与挖掘的应用领域
4.数据挖掘的流程

4.1明确目标
这是数据分析与挖掘的第一步,即明确数据分析的对象、目标、或任务。此环节应该跟业务需求方多次沟通与合作,把握最终要解决的问题。
4.2搜集数据
明确企业面临的痛点或工作中需要处理的问题后,下一步就得规划哪些数据可能会影响到这些问题的答案,这一步就称为数据的搜集过程。
4.3清洗数据
为确保数据分析或挖掘结果的准确性,往往需要对数据做一些基本的清洗和整理,如数据的一致性检验、缺失值和异常值的处理以及无量纲化处理等。
4.4构建模型
建模的目的主要是为了预测,例如使用线性回归模型预测产品的销售额;利用决策树模型预测用户是否具有欺诈行为;利用朴素贝叶斯模型预测邮件是否为垃圾邮件。
4.5模型评估
通常情况下,在模型搭建好后,并不意味着分析或挖掘任务的结束,还需要对模型的拟合效果做评估,其目的就是不断优化模型,使最终的模型能够更好地反映数据的真实性
4.6应用部署
挖掘出来的模式或规律是给真正的业务方或客户服务的,故需要将这些模式重新部署到系统中。这里的部署就是常说的“上线”,方便业务方或客户直接操作搭建的模型。
5.常用的数据分析与挖掘工具
5.1 R语言
R语言是由奥克兰大学统计系的Robert和Ross共同开发的,并在1993年首次亮相。其具备灵活的数据操作、高效的向量化运算、优秀的数据可视化等优点,受到用户的广泛欢迎。
它是一款优秀的数据挖掘工具,用户可以借助强大的第三方扩展包,实现各种数据挖掘算法的落地。
5.2 python
Pyhton是由荷兰人Guido van Rossum于1989年发明的,并在1991年首次公开发行。它是一款简单易学的编程类工具,同时,其编写的代码具有简洁性、易读性和易维护性等优点,也受到广大用户的青睐。
借助于pandas、statsmodels、scipy等模块用于数据处理和统计分析;matplotlib、seaborn、bokeh等模块实现数据的可视化功能;sklearn、PyML、keras、tensorflow等模块实现数据挖掘、深度学习等操作。
5.3 Weka
Weka由新西兰怀卡托大学计算机系Ian Written博士于1992年末发起开发,并在1996年公开发布Weka 2.1版本。它是一款公开的数据挖掘平台,包含数据预处理、数据可视化等功能,以及各种常用的回归、分类、聚类、关联规则等算法。
对于不擅长编程的用户,可以通过Weka的图形化界面完成数据分析或挖掘的工作内容。
5.4 SAS
SAS是由美国北卡罗来纳州大学开发的统计分析软件,当时主要是为了解决生物统计方面的数据分析。在1976年成立SAS软件研究所,经过多年的完善和发展,最终在国际上被誉为统计分析的标准软件,进而受到各个领域的广泛应用。
5.5 SPSS
SPSS是世界上最早的统计分析软件,最初由斯坦福大学的三个研究生在1968年研发成功,并成立SPSS公司,而且在1975年成立了SPSS芝加哥总部。用户通过SPSS的界面实现数据的统计分析和建模、数据可视化及 表输出,简单的操作受到了众多用户的喜爱。
除此之外,SPSS还有一款Modeler工具,其充分体现了数据挖掘的各个流程,例如数据的导入、清洗、探索性分析、模型选择、模型评估和结果输出,用户可基于界面化的操作完成数据挖掘的各个环节。
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树预备知识Python简介214850 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!