数据分析与挖掘概述

1.什么是数据分析和挖掘

数据分析和挖掘都是基于搜集来的数据，应用数学、统计、计算机等技术抽取出数据中的有用信息，进而为决策提供依据和指导方向。
-应用漏斗分析法挖掘出用户体验过程中的不足之处，从而进一步改善产品的用户流程。
-利用AB测试法检验页布局的变动对交易转化率的影响，从而确定这种变动是否有利。
-基于RFM模型实现用户的价值分析，进而针对不同价值等级的用户采用各自的营销方案，实现精准触达。

2.数据分析与挖掘的应用领域

4.数据挖掘的流程

4.1明确目标

这是数据分析与挖掘的第一步，即明确数据分析的对象、目标、或任务。此环节应该跟业务需求方多次沟通与合作，把握最终要解决的问题。

4.2搜集数据

明确企业面临的痛点或工作中需要处理的问题后，下一步就得规划哪些数据可能会影响到这些问题的答案，这一步就称为数据的搜集过程。

4.3清洗数据

为确保数据分析或挖掘结果的准确性，往往需要对数据做一些基本的清洗和整理，如数据的一致性检验、缺失值和异常值的处理以及无量纲化处理等。

4.4构建模型

建模的目的主要是为了预测，例如使用线性回归模型预测产品的销售额；利用决策树模型预测用户是否具有欺诈行为；利用朴素贝叶斯模型预测邮件是否为垃圾邮件。

4.5模型评估

通常情况下，在模型搭建好后，并不意味着分析或挖掘任务的结束，还需要对模型的拟合效果做评估，其目的就是不断优化模型，使最终的模型能够更好地反映数据的真实性

4.6应用部署

挖掘出来的模式或规律是给真正的业务方或客户服务的，故需要将这些模式重新部署到系统中。这里的部署就是常说的“上线”，方便业务方或客户直接操作搭建的模型。

5.常用的数据分析与挖掘工具

5.1 R语言

R语言是由奥克兰大学统计系的Robert和Ross共同开发的，并在1993年首次亮相。其具备灵活的数据操作、高效的向量化运算、优秀的数据可视化等优点，受到用户的广泛欢迎。
它是一款优秀的数据挖掘工具，用户可以借助强大的第三方扩展包，实现各种数据挖掘算法的落地。

5.2 python

Pyhton是由荷兰人Guido van Rossum于1989年发明的，并在1991年首次公开发行。它是一款简单易学的编程类工具，同时，其编写的代码具有简洁性、易读性和易维护性等优点，也受到广大用户的青睐。
借助于pandas、statsmodels、scipy等模块用于数据处理和统计分析；matplotlib、seaborn、bokeh等模块实现数据的可视化功能；sklearn、PyML、keras、tensorflow等模块实现数据挖掘、深度学习等操作。

5.3 Weka

Weka由新西兰怀卡托大学计算机系Ian Written博士于1992年末发起开发，并在1996年公开发布Weka 2.1版本。它是一款公开的数据挖掘平台，包含数据预处理、数据可视化等功能，以及各种常用的回归、分类、聚类、关联规则等算法。
对于不擅长编程的用户，可以通过Weka的图形化界面完成数据分析或挖掘的工作内容。

5.4 SAS

SAS是由美国北卡罗来纳州大学开发的统计分析软件，当时主要是为了解决生物统计方面的数据分析。在1976年成立SAS软件研究所，经过多年的完善和发展，最终在国际上被誉为统计分析的标准软件，进而受到各个领域的广泛应用。

5.5 SPSS

SPSS是世界上最早的统计分析软件，最初由斯坦福大学的三个研究生在1968年研发成功，并成立SPSS公司，而且在1975年成立了SPSS芝加哥总部。用户通过SPSS的界面实现数据的统计分析和建模、数据可视化及表输出，简单的操作受到了众多用户的喜爱。
除此之外，SPSS还有一款Modeler工具，其充分体现了数据挖掘的各个流程，例如数据的导入、清洗、探索性分析、模型选择、模型评估和结果输出，用户可基于界面化的操作完成数据挖掘的各个环节。

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树预备知识Python简介214850 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

数据分析与挖掘概述

数据分析与挖掘概述

1.什么是数据分析和挖掘

2.数据分析与挖掘的应用领域

4.数据挖掘的流程

4.1明确目标

4.2搜集数据

4.3清洗数据

4.4构建模型

4.5模型评估

4.6应用部署

5.常用的数据分析与挖掘工具

5.1 R语言

5.2 python

5.3 Weka

5.4 SAS

5.5 SPSS

相关推荐