数据挖掘导论
-
- 导入
- 一、为什么要进行数据挖掘
-
- 1.数据爆炸但知识贫乏
- 2.数据在爆炸式增长
- 3.数据安全
- 4.从商业数据到商业智能的进化
- 5.KDD的出现
- 二、什么是数据挖掘
-
- 1.广义技术角度的定义
- 2.狭义技术角度的定义
- 3.商业角度的定义
- 4.数据挖掘与其他科学的关系
- 5.数据挖掘对象
- 6.挖掘到什么知识
- 三、数据挖掘方法
-
- 1.数据挖掘中常用的十三种技术
- 2.有监督学习
- 3.无监督学习
- 4.半监督学习
- 5.主动学习
- 6.迁移学习
- 7.强化学习
- 四、数据挖掘过程
-
- 1.明确目标
- 2.搜集数据
- 3.数据清洗
- 4.构建模型
- 5.模型评估
- 6.应用部署
- 五、数据挖掘的应用
- 六、数据挖掘隐私权问题
- 七、小结
- 八、随堂练习
导入
数据挖掘技术背景
一、为什么要进行数据挖掘
1.数据爆炸但知识贫乏
??人们积累的数据越来越多。但是,目前这些数据还仅仅应用在数据的录入、查询、统计等功能,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,导致了“数据爆炸但知识贫乏”的现象。
3.数据安全
5.KDD的出现
??基于数据库的知识发现(KDD)一词首次出现在1989年举行的国际人工智能联合大会IJCAI-89Workshop。
??1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议(KDD’95)。
由Kluwers Publishers出版,1997年创刊的《Knowledge Discovery and Data Mining》是该领域中的第一本学术刊物。
(1)已获得的大量数据往往是数据丰富但信息贫乏的
(2)计算设备变得廉价且功能强大
(3)没有强大的工具的话,数据量已经超过人类的理
解能力
(4)数据收集存储的速度越来越快
(5)传统技术已经不适用于原始数据
(6)数据挖掘有助于科学研究
二、什么是数据挖掘
1.广义技术角度的定义
??数据挖掘()就是实际应用数据中,提取、人们事先不知道的、但又是潜在有用的信息或知识的。
该定义包括好几层含义:
- 数据源必须是真实的、大量的、含噪声的;
- 发现的是用户感兴趣的知识;
- 发现的知识要可接受、可理解、可运用;
- 并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
数据、信息、知识
信息:经过提炼、加工和解释的数据
信息是对数据经过过滤、融合、标准化、对比、翻译、分类、管理等一系列环节处理后得到的。
2.狭义技术角度的定义
??也有人把数据挖掘视为知识发现过程中的一个基本步骤。例如过程模型主要包含以下七个阶段,知识发现过程由这些步骤的迭代序列组成:
- 知识表示
- 数据清理
- 数据集成
- 数据选择
- 数据变换
- 数据挖掘
- 模式评估
3.商业角度的定义
??数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
??数据挖掘从商业的角度可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
4.数据挖掘与其他科学的关系
??数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。
??此外,还与神经 络、模式识别、空间数据分析、图像处理、信 处理、概率论、图论和归纳逻辑等等领域关系密切。
5.数据挖掘对象
- 关系数据库
数据库中数据的特点如下:
数据动态性
数据的不完全性
噪声数据
数据类型不一致
异构性
数据冗余性
数据稀疏性
由于数据库中的数据具有以上特点,使其在挖掘过程中难以直接使用,因此在进行数据挖掘以前必须对数据进行预处理。
- 数据仓库
数据仓库的特点如下:
面向主题
集成的数据
不可更新
随时间不断变化
高质量的挖掘结果依赖于高质量的数据,数据仓库为数据挖掘准备了良好的数据源,因此,数据仓库是数据挖掘的最佳环境。
数据立方体
2.有监督学习
1.明确目标
? 这是数据分析与挖掘的第一步,即明确数据分析的对象、目标、或任务。此环节应该跟业务需求方多次沟通与合作,把握最终要解决的问题。
2.搜集数据
?明确企业面临的痛点或工作中需要处理的问题后,下一步就得规划哪些数据可能会影响到这些问题的答案,这一步就称为数据的搜集过程。
3.数据清洗
?为确保数据分析或挖掘结果的准确性,往往需要对数据做一些基本的清洗和整理,如数据的一致性检验、缺失值和异常值的处理以及无量纲化
4.构建模型
?建模的目的主要是为了预测,例如使用线性回归模型预测产品的销售额;利用决策树模型预测用户是否具有欺诈行为;利用朴素贝叶斯模型预测邮件是否为垃圾邮件。
5.模型评估
?通常情况下,在模型搭建好后,并不意味着分析或挖掘任务的结束,还需要对模型的拟合效果做评估,其目的就是不断优化模型,使最终的模型能够更好地反映数据的真实性。
6.应用部署
?挖掘出来的模式或规律是给真正的业务方或客户服务的,故需要将这些模式重新部署到系统中。这里的部署就是常说的“上线”,方便业务方或客户直接操作搭建的模型。
数据挖掘模型
- 商业理解
??从商业角度来理解项目目标和要求,并把这些理解知识转换成数据挖掘问题的定义和实现目标的最初规划。
1、确定业务目标(包括背景、商业目标和商业成功标准)
2、评估项目环境(包括资源目录、需求、假设和约束、风险和所有费用)
3、确定数据挖掘目标(把业务目标翻译成数据挖掘目标)
4、制定项目计划
- 数据理解
??数据理解阶段从初始的数据收集开始,通过一些活动处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。
1、收集原始数据,生成原始数据收集 告。
2、描述数据,生成数据描述 告。
3、探索数据,生成数据探索 告。
4、检验数据质量,生成数据质量 告。
- 数据准备
??数据准备是对可用的原始数据进行预处理,使之满足建模需求。这些数据将是模型工具的输入值。这个阶段的任务有一个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。
1、选择数据。
2、清洗数据,生成数据清洗 告。
3、构造数据。
4、整合数据(数据集成)。
5、数据格式化。
- 建立模型
?? 选择和应用不同的建模技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据处理阶段。
1、选择建模技术。
2、生成测试方案。
3、建立模型。
4、评估模型。
- 评价
??已经从数据分析的角度建立了高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底的评估模型,检查构造模型的步骤,确保模型可以完成业务目标。
1、评价结果。
2、重审过程。
3、确定下一步可能的活动列表和最终决定。
- 部署
??部署就是将其发现的结果及过程表示为可读文本形式。简单的部署可以是生成一份 告,复杂的部署可能是实施一个覆盖整个企业的可重复的数据挖掘过程。
1、规划部署。
2、规划监控和维护。
3、生成最终 告。
4、回顾项目。
五、数据挖掘的应用
数据挖掘的应用领域
六、数据挖掘隐私权问题
-
个人数据隐私权:个人对以数据形式收集和存储在信息系统中的有关自己的资料加以控制和保护的权利。
-
数据挖掘是建立在大量真实数据分析的基础之上的,这就会产生个人数据的隐私保护问题。
-
从数据挖掘的角度来看,隐私既可能带来成功,亦可能带来威胁。滥用隐私不仅破坏企业在客户心目中的良好形象,也会将数据挖掘推入灰暗的前景中,阻碍数据挖掘这一新兴技术的采纳、应用和推广。
典型案例
-
2018年3月18日曝光的裙带公司剑桥分析公司()数据隐私丑闻事件。
-
剑桥分析公司是美国一家政治数据分析公司,被曝光在未经用户同意的情况下,利用在 上获得的5000万用户的个人隐私数据,来创建档案,并在2016美国总统大选期间针对这些人进行定向宣传,有助推特朗普获胜的嫌疑。
-
该丑闻凸显了的“”中存在的问题:数据挖掘。
七、小结
-
数据挖掘是一种解决“数据爆炸但知识贫乏”困境的技术,旨在从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。
-
数据挖掘是一类深层次的数据分析方法。它与传统的数据分析以及联机分析处理有本质的不同。数据挖掘采用信息论、集合论、神经 络、遗传算法、模糊数学等方法发现隐藏在数据中概念、关联、分类预测和偏差等类型的知识。
-
数据挖掘所发现知识的质量与数据的质量密切相关,数据挖掘过程中。原始数据的预处理是工作量最大的一项任务。
八、随堂练习
1 (单选题)
和表示
正确答案: A
2 (单选题)
“米是飞机飞行最大高度”与“米的高山”表示
正确答案: B
3 (单选题)
“飞机无法飞越这座高山”表示
正确答案: D
4 (单选题)
某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题/p>
正确答案: A
5 (单选题)
当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离/p>
正确答案: B
6 (单选题)
什么是KDD/p>
正确答案: A
7 (多选题)
大数据时代的主要特征( )
正确答案: ABCD
8 (单选题)
下列哪项不是大数据时代的热门技术( )
正确答案: D
9 (单选题)
( )是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。
正确答案: C
10 (单选题)
依据历史数据形成刻画用户特征的类标识,进而可以预测未来数据的归类情况,属于0
正确答案: B
11 (单选题)
( )在事先不知道数据分类的情况下,根据数据之间的相似程度进行划分,目的是使得同类别的数据对象之间的差别尽可能的小,不同类别的数据对象之间的差别尽可能的大。属于0
正确答案: D
12 (单选题)
( )基于输入的用户信息,通过模型的训练学习,找出数据中的规律和趋势,以确定未来目标数据的预测值
正确答案: C
13 (单选题)
从购物篮商品集中找出商品与商品之间的关系,有助于发Tr同商品之间的联系( )
正确答案: D
14 (判断题)
数据挖掘就是知识发现的过程( )
正确答案: 错
15 (填空题)
过程是正确的顺序是:商业理解、( )、数据准备、( )、模型评估、( )
正确答案:
第1空:数据理解
第2空:建立模型
第3空:结果分布
16 (填空题)
是( )的简写
正确答案:跨行业数据挖掘标准过程
17 (判断题)
整个挖掘过程是一个不断反馈的过程( )
正确答案: 对
18 (单选题)
知识发现的英文简写是( )
正确答案: B
19 (单选题)
数据挖掘的英文简写是( )
正确答案: C
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!