文章目录
- 序言
- 工业大数据分析概论
-
- 工业大数据分析的概述
-
- 工业大数据分析的概念
- 工业大数据分析的相关技术
- 工业大数据分析的基本过程
- 工业大数据分析的类型
- 工业大数据分析价值
- 工业大数据分析支撑业务创新
- 工业大数据分析的特殊性
-
- 从工业数据分析到工业大数据分析
- 工业大数据与商务大数据分析
- 工业大数据建模的难点
- 工业数据分析中的常见问题
-
- 业务和数据理解不当导致的失误
- 建模和验证过程的失误
- 避免失误的方法
- 工业大数据分析框架
-
- CRISP-DM 模型
- CRISP-DM 模型的落地难点
- 工业大数据分析的指导思想
- 业务理解
-
- 认识工业对象
-
- 工业系统的抽象化
- 工业系统的功能描述
- 系统功能与业务场景的关联
- 系统功能到技术原理的理解
- 理解数据分析的需求
-
- 工业过程中的数据分析需求
- 数据分析的价值需求
- 具体业务场景的数据分析需求
- 数据分析需求的梳理方法
- 工业数据分析目标的评估
-
- 工业知识的理解
- 工业知识的合用性
- 专业领域知识的融合
- 制造的全生命周期
- 数据理解
-
-
- 业务与数据的关系
- 离散行业的数据源
- 流程行业的数据源
- 数据的分类及相互关系
- 数据质量
-
- 数据质量的定义
- 数据质量的组成要素
- 数据质量的影响因素
-
- 数据准备
-
- 业务系统的数据准备
- 工业企业的数据准备
- 物联 的数据准备
- 建模分析的数据准备
-
- 数据预处理概述
- 数据异常处理
- 数据缺失处理
- 数据归约处理
- 数据建模
-
- 模型的形式化描述
-
- 基本描述
- 模型的深入表述
- 对建模思想的影响
- 工业建模的基本过程
-
- 建模的基本思路
- 模型融合的方法
- 模型的优化过程
- 工业建模的特征工程
-
- 数据初步筛选
- 特征变换
- 特征组合
- 特征筛选
- 特征的迭代
- 工业数据分析的算法介绍
-
- 传统的统计分析类算法
- 通用的机器学习类算法
- 针对旋转设备的振动分析类算法
- 针对时序数据的时间序列类算法
- 针对非结构化数据的文本挖掘类算法
- 统计质量控制类算法
- 排程优化类算法
- 模型的验证与评估
-
- 知识的质量
-
- 知识的确定性与准确性
- 知识的适用范围
- 知识的质量与可靠性
- 传统数据分析方法及其问题
-
- 基于精度的验证方法
- 精度验证方法的局限性
- 解决验证问题的传统方法
- 基于领域知识的模型验证与评估
-
- 对适用范围的评估
- 对精度的评估
- 场景的综合评估
- 模型的迭代评估
- 总结与展望
- 模型的部署
-
- 模型部署前应考虑的问题
-
- 模型部署对工作方式的改变
- 模型部署的标准化与流程化
- 模型部署的自动化与智能化
- 实施和运行中的问题
-
- 数据质量问题
- 运行环境问题
- 精度劣化问题
- 范围变化问题
- 问题的解决方法
-
- 数据质量问题
- 运行环境问题
- 精度劣化问题
- 范围变化问题
- 部署后的持续优化
- 展望未来
序言
工业大数据分析概论
工业大数据分析的概述
工业大数据分析的概念
工业大数据分析是利用统计学分析技术、机器学习技术、信 处理技术等技术手段,结合业务知识对工业过程中产生的数据进行处理、计算、分析并提取其中有价值的信息、规律的过程。
工业数据分析多领域交叉:
工业大数据分析的基本过程
工业数据分析的基本任务和直接目标是发现与完善知识,企业开展数据分析的根本目标却是为了创造价值。这两个不同层次的问题,需要一个转化过程进行关联。为了提高分析工作的效率,需事先制定工作计划,
工业大数据分析的特殊性
进入大数据阶段,数据本身的变化是最基本的,在此基础上引发工作方法和价值体现的改变。对于数据的变化,非工业领域往往强调数量变化,但在工业领域,数据变化的重点更是数据完整性和质量的提升。工业大数据分析方法的重点,是如何利用数据条件的改善,得到质量高的分析结果。这使得工业大数据分析方法不同于传统的数据分析,也不同于商务大数据分析。此外,工业场景的边界都有专业领域的机理进行约束,所以工业大数据的分析注重数据模型和机理模型的融合,它的重要特征是数据与机理的深度融合。
从工业数据分析到工业大数据分析
工业大数据与商务大数据分析
工业过程对分析结果的精度、可靠度要求高,而工业对象和过程本身的复杂性也高。数据分析得到的知识,必须超越人们以往已有的知识,换而言之,工业大数据的分析,往往要在更差的条件下得到更好的结果。
工业大数据分析困难程度的增加,会引发分析方法的质变。对于复杂的工业过程数据分析,人们往往要强调因果性,而不能仅仅止步于相关关系;强调领域知识和数据分析过程的深度融合,而不是漠视已有的领域知识;强调复杂问题简单化,而不是追求算法的复杂和高深。这些思想变化的本质,都是问题复杂度的增加引发的。
工业对象复杂度的增加,也会导致分析工作失败可能性的显著增加。要提高数据分析的工作效率,关键之一就是设法降低分析过程失败的概率,所以数据分析的前期准备性工作和后期的评估和验证工作就显得特别重要。
工业大数据建模的难点
工业大数据分析的过程,并非选择好一个算法就可以一蹴而就的,而往往是个持续改进、修正、完善的过程。
与商务或互联 大数据分析相比,工业大数据分析的难点就在复杂性上,不能仅仅看作基础算法,导致这种差异性的原因主要有三点:首先,工业产品大多是在人类知识发现的基础上制造出来的,人们对工业过程的认识原本就相对深刻,分析过程不能止步于肤浅的认识、只有分析得到的知识具有更高精度和可靠性的时候才有实用价值;其次,人们对工业大数据分析结果的可靠性要求很高,不能满足于似是而非的结论;再次,工业过程数据的复杂性很高、数据质量也不理想,建模的困难度往往很大。所以,工业大数据分析面临的主要矛盾是:业务需求高、数据条件差。
基于历史数据的大数据分析也有极大的局限性。导致局限性的原因有两个方面,首先是人类接触的大量信息和知识并未出现在数字空间;其次是在数据足够多、分布完整、质量良好的前提下可以建立理想的数据模型,但当模型涉及到的因素很多、形成真正的复杂多维度问题(如变量数目大于40)且机理不清晰时,就不能有足够的数据来建立和验证模型(因为数据需求量有可能是维度的指数函数)。克服局限性的主要手段就是充分利用专业领域知识,领域知识的本质作用可以看作“降维”,故而可以让有限的数据,分析到足够可靠的结果。
工业数据分析中的常见问题
业务和数据理解不当导致的失误
设定不具备价值的目标,业务上难以实施的目标,分析难度过大的目标
建模和验证过程的失误
不能及时终止子目标,应事先对数据的质量和条件进行评估,避免由于数据质量低难得到高质量的分析结果。
目标衡量的失误,工业界对结论的可靠性要求很高,对分析结果的评估,是值得仔细研究的问题,而多数团队对这个问题的重要性认识不足。
避免失误的方法
工业领域的数据分析不能仅仅把数据分析工作看成利用单纯的数据分析技巧的过程,而是数据分析和领域知识融合的过程。在进行深入的数据分析之前,必须对业务需求、专业领域背景知识、数据的基本情况作尽可能深入的理解,明确问题的内涵,要学会选择合适的方法解决合适的问题,还要对分析结果的可靠度有科学的评估办法
工业大数据分析框架
CRISP-DM 模型
CRISP-DM 模型是欧盟起草的跨行业数据挖掘标准流程(CrossIndustry Standard Process for Data Mining)的简称。
这个标准以数据为中心,将相关工作分成业务理解、数据理解、数据准备、建模、验证与评估、实施与运行等六个基本的步骤,如下图所示。在该模型中,相关步骤不是顺次完成,而是存在多处循环和反复。在业务理解和数据理解之间、数据准备和建模之间,都存在反复的过程。

CRISP-DM 模型的落地难点
工业数据关联关系复杂,工业数据质量差,工业场景的分析要求高。
工业大数据分析的指导思想
工业大数据分析过程的效率低下,很可能是大量无效的循环往复导致的。所以,工业大数据分析方法的关键,是如何减少不必要的反复、提高数据分析的效率。
减少无效反复的重要办法是采用工程上常见的“以终为始”的思维方式。在进行深入研究之前,要进行一个相对全面的调研,从如何应用、如何部署开始,反推需要进行的研究。要减少不必要的探索,关键是数据分析知识和领域知识、相关信息的有机结合。实际分析工作中又不能假设或者要求数据分析人员事先对这些知识和信息有着充分的理解。所以要设法让分析师在分析的过程中,更加主动、有针对性地补充相关知识,即所谓“人在环上”。
最后,要努力提高数据分析的自动化程度,充分利用计算机的计算和存储能力、减少人为的介入。
业务理解
业务理解和数据理解的目的,一方面,只有深入理解业务,才能实现领域知识与数据分析的有机融合、从而得到高水平的分析结果;另一方面,真正成为一个领域专家需要多年的积累,完整地掌握业务知识是不现实的。所以,难免需要在后续的建模、评估、实施过程中,需要通过与专业人士的交流与合作,来补充必要的知识。
认识工业对象
工业系统的抽象化
特定的生产设备、生产环节可以看成小的工厂,而车间、工厂也可以看成大的设备——它们都可以抽象成“系统”,差别只是系统的大小和复杂程度不同。其中,大系统往往可以分解成若干相互作用的子系统。
与系统相关的要素常被抽象三类:外部向系统的输入、系统向外部的输出、系统内部状态。其中,系统的输入输出包括控制指令、物质和能量,即所谓控制流、物质流和能量流;内部状态包括工艺参数、设备状态、产品状态、工作模式等。控制问题的复杂性在于相关要素未必都是能够直接测量或者间接观测的、而且内部状态未必是受控的。
工业系统的功能描述
系统功能可以用输入输出关系描述,所有的输出都可以看作一种“功能”。比如,高炉不仅生产铁水,还可以生产煤气、高炉渣。工业系统提供有用功能的同时,往往也会有些负面的作用。比如,汽车在提供交通功能的同时会产生污染、噪声、安全问题。于是,系统的某些功能就是抑制、弱化、预防这些负面作用的。,功能之间往往是互相关联、相互影响的。理解工业对象时,需搞清楚各个功能之间的关系。当技术手段对其他功能产生负面影响时,就会影响技术的实用性。应用数据分析的结果时,要事先想到并避免这些问题。
系统功能与业务场景的关联
经常出现的问题是对某些重要功能的忽视,比如提高安全性的防范功能、提高稳定性的抗干扰功能等。
系统设计出来的功能都是有用的、与场景有关的。如汽车上的空调、刮雨器。通过分析系统可能面对的场景,就可以发现一些可能被忽视的功能;通过完整地认识场景,就能够完整地认识功能。
场景变化可以分成外部场景的变化和内部场景的变化。外部场景的变化指的是系统的环境和输入发生的变化,内部场景的变化包括设备磨损、性能劣化等连续变化,也包括操作异常和故障等突发的变化。
系统功能到技术原理的理解
对应工业系统的每个功能,都会对应一套实现逻辑或流程,这里称之为技术原理。要深入了解系统,可以通过流程来认识技术原理。
需要特别注意的是场景的变化可能引发流程的变化。比如,在钢铁生产过程中,钢种、规格变了,工艺流程可能就会变。另外,对于系统内部连续或突发的变化,工业界往往有一套预防、检测、应对、弱化影响的机制;要深刻理解工业系统,必须重视相关的原理。
理解数据分析的需求
工业过程中的数据分析需求
数据分析是业务优化活动中的一环,数据分析的目标是业务目标所决定的。DMAIC 模型是企业管理中常用的一套用于改进的操作方法,包括界定 D(Define)、测量 M(Measure)、分析 A(Analyze)、改进I(Improve)、控制 C(Control)等五个步骤。我们这里借助 DMAIC 模型,理解数据分析的前序和后续工作,从而明确数据分析工作的前置条件和发挥作用的基础。
- 界定:准确定位用户关心的、需要解决的业务问题。主要从业务方面了解客户、需求、存在的问题、解决问题的意义等。在这个过程中,最好能明确问题发生的场景、类型,希望分析得到的输入输出关系等。
- 测量:这个阶段的工作,就是要把业务需求转化成数据问题。或者说,用数据来描述业务需求,对问题更加深刻的认识。
- 分析:运用统计技术方法找出存在问题的原因。
- 改进:在数据分析的基础上,找到解决问题的方法。改进可以看成一个优化数学问题、确定怎么做是最好的。
- 控制:具体的实施和落实。具体的实施必须是在流程中完成的,会涉及到各种软硬件条件和管理制度。
五个步骤中,前面两个步骤在进入数据分析之前完成,用于明确对数据分析的目标和要求;而后面两个步骤要在数据分析之后完成,以创造价值。为了避免无效的分析工作,应该在分析之前就确定改进和控制的路径是不是存在,这是提高数据分析工作效率的有效方法。
数据分析的价值需求
数据分析的目的是创造价值,要确认两个方面的问题:价值是真的存在、还是想当然的;价值是否足够大、投入产出是否核算。
具体业务场景的数据分析需求
工业对象和过程往往都是复杂的系统。这意味着,在不同的场景下问题之间的关系将会发生改变。数据分析之所有应用价值,往往就是因为场景的变化使得经验不再适用、需要用数据来说话。所以,数据分析需坚持的一个原则是分析和应用都要结合具体的流程。如前文所述,分析结果的应用,一定存在某个流程中,如果现在还没有这样的流程,就要考虑如何建立这样的流程、并对合理性进行论证,才能保证最后的分析结果是可以落地的。
数据分析需求的梳理方法
对工业对象和业务需求的理解建议用5W1H方法(Why、What、Where、When、Who、How),对问题进行深入的理解。在此基础上,围绕业务目标进行分析,把与业务目标相关的因素找出来并进行分类,以此类推,再把相关因素的相关因素找出并进行分类。对此,思维导图和鱼刺图是非常合适的工具。但是,这些工具难以描述对相关要素的逻辑、时序关系。所以,对于重点关键问题,还可用 ER 图、流程图、Petri 等方法,对要素、活动之间的关系进行更加深入的描述。
工业数据分析目标的评估
工业知识的理解
知识的作用就是让我们能够从一部分信息推断出另外一部分信息。诊断型分析、预测型分析、处方型分析本质上都是要获得这样的知识。工业知识往往是复杂多变量的。
工业知识的合用性
知识F(X)->Y是否合用与业务目标有关。例如,诊断式分析要判断问题产生的原因,所用的信息可以是问题产生之后的表象,也就是说 X 可以出现在 Y 之后;对于预测式分析,X 则一定要出现在 Y 之前,这样的信息才能被用来预测。对于这两种分析,XY 之间不一定具备因果关系,而对于处置式分析,则 X 需要与 Y 有因果关系。
需要关注的问题:方法的合理性,业务流程和基础手段的约束
专业领域知识的融合
“知识重用”可以避免不必要的风险和成本,是工业大数据分析的重要原则。
专业领域的知识和数据模型的融合方式有两种,其一是利用专业领域知识识别影响业务问题的关键因子,并加工有效特征,作为工业建模的输入变量来融入工业分析模型中;其二是利用产品工作机理建立高效的诊断、检测、预测模型,利用数据模型去优化机理模型控制参数,实现机理模型和数据模型的融合。
制造的全生命周期
产品全生命周期可以分成生命初期(BOL)、生命中期(MOL)和生命后期(EOL)三个阶段。生命初期以设计制造为主,生命中期以使用维修为主,后期则以回收及再利用为主。工业大数据分析在产品运维服务领域具有最广阔的应用前景,但也面临最艰难的挑战,其应用面临的主要挑战是跨生命周期数据的管理和分析。
数据理解
在CRISP-DM模型中,业务理解和数据理解的箭头是双向的,业务理解和数据理解要在不断反复的过程中深化。业务理解是数据理解的基础和起点,用于全面理解工业对象和业务需求;数据理解是从数据的角度认识对象和业务、是认识的深化,即判断是否有数据解。
工业大数据即工业数据的总和,我们把它分成三类。即企业信息化数据、工业物联 数据和外部跨界数据。
业务与数据的关系
业务流程数据的消费者,也是数据的生产者,在理想情况下,数据可以刻画工业系统及其运行轨迹的完整映像。但是,在现实条件下只能部分地刻画工业对象、也只能记录工业对象运行的部
分痕迹。
实际工作中,不能单纯通过数据,理解工业对象及相关业务,而是要结合一定的专业领域知识,才能理解数据的含义。业务理解是数据理解的基础、是数据理解的起点;反过来,离开数据,人们对对象的理解将会是粗糙的、模糊的,不利于对系统和业务的精准控制和优化。所以,数据理解支撑对业务理解的深化。
离散行业的数据源
离散工业主要是通过对原材料物理形状的改变、组装,成为产品,使其增值。离散制造的产品往往由多个零件经过一系列并不连续的工序的加工最终装配而成。加工此类产品的企业可以称为离散制造型企业。例如火箭、飞机、武器装备、船舶、电子设备、机床、汽车等制造业,都属于离散制造型企业。高端装备是指技术含量高、资金投入大、涉及学科多、服役周期长,一般需要组织跨部门、跨行业、跨地区的制造力量才能完成的一类技术装备。
在互联 与大数据环境下,分散化制造对 络化协同制造需求日益加剧,企业的生产要素和生产过程必将进行战略性重组,从而引发企业内和跨企业业务过程的集成、重构、优化与革新。当前,围绕制造跨生命周期业务过程集成与优化方面的研究主要集中在异质业务过程匹配与共享、跨企业业务过程整合与改进、企业间业务过程的外包机制等方面。未来,还需要针对互联 大数据环境下智能制造跨生命周期异质业务过程柔性集成、基于海量运行日志的高端装备制造、跨生命周期业务流程智能优化等方面进行深入研究。
流程行业的数据源
流程行业的生产规模往往较大、信息系统的完备性较好、自动化水平相对较高,具有较好的数据条件。流程行业的计算机系统是分层次的,最常见的是把信息和控制分成基础自动化(BA)、制造执行系统(MES)、企业资源计划(ERP)三层。等级越低对实时性要求越高、数据采集的频度越高,但数据保存的期限却非常短;级别越高则数据覆盖范围越大,数据保存时间相对较长,但很少采集高频数据。
数据的分类及相互关系
数据质量
数据质量的定义
数据质量的本质是满足特定分析任务需求的程度。从这种意义上说,需求和目标不同,对数据质量要求就不一样。为了避免数据分析工作功亏一篑,应该尽量在进行分析之前,根据需求对数据质量进行评估。业务需求分析要“以终为始”,要从“部署”和应用开始。
数据质量的组成要素
完整性,规范性,一致性,准确性,唯一性,关联性。
数据质量的影响因素
是否稳定可靠,是否可直接检测、人为因素(主观认识、数据处理)、观测精度、噪声。
数据准备
业务系统的数据准备
就是要实现跨企业、跨部门或跨领域不同业务系统之间的数据整合和共享,关键是要实现机构、人员、装备物资、项目等基础信息的标准化和互联互通,业界通常称为数据集成,打破“信息孤岛”,拆除“数据烟囱”,实现基础数据资源的互通和共享最关键的一步是数据统筹,包括“聚、通、用”三个环节,数据统一汇聚到一个平台上建立数据共享开放标准和机制,之后主动开展更多应用,使相互融通、相互支持的数据形成聚合效应,推动各部门基础数据共享互通,保证基础数据的“一数一源”。可从以下几个方面着手。一是要进行数据资源梳理,搞清“是谁的”、“是什么”、“在何时”以及“在何地”等元数据信息,构建基于 络环境的信息资源目录,二是要建立数据资源标准化和共享交换体系。
工业企业的数据准备
就是要针对要解决的问题开展数据治理,实现数据资源的互通和共享。因此,公司需要一个类似数据治理委员会的机构,他的职责是执行现有数据策略、挖掘未被满足的需求以及潜在安全问题等,创建数据治理策略,使数据的采集、管护、储存、访问以及使用策略均实现标准化,同时还会考虑各个部门和岗位的不同需求。工业大数据分析需要产品全生命周期数据作支撑,工业企业数据准备的核心,是实现产品跨生命周期的数据有效集成与溯源。
物联 的数据准备
支持万物互联的物联 (Internet of Things,IoT)是通过射频识别(RFID)、无线传感器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联 连接起来,进行信息交换和通讯,以实现智能化识别、定位、跟踪、监控和管理的一种 络。物联 创造出的数据将远多于互联 ,物联 包含了数以亿级的节点,代表各种对象,从小型的无处不在的传感器设备、手持设备到大型 络服务器和超级计算机集群,数据每时每刻都在大量产生,以时间序列为数据形态。有对决策贡献大的数据,也有帮助较小的数据,还有噪声数据,各种数据性质不同,处理的方式、存储的手段以及在此之上的信息提取方法各不相同,这些数据在不同的系统或场合中被使用、重用或引用,比如数据的查询、分析等。对如此海量数据的有效治理是物联 数据得以应用的关键所在。
产品追溯是工业大数据分析和应用的一个典型应用场景。它是指产品从制造、流通、消费到回收的整个生命周期过程中,利用标识技术记录和查询产品状态、属性、位置等信息的过程,其目的是全方位记录产品信息数据,促进企业内部信息系统之间、企业之间、企业和用户之间信息的有效共享,提高工业企业 络化、智能化水平。物联 数据准备应基于统一的标识解析体系实现数据的互联、互通、共享和溯源。标识及标识解析技术是实现产品追溯的核心关键。
建模分析的数据准备
数据预处理概述
主要有数据的异常值处理、数据的缺失值处理、数据的归约处理等
数据异常处理
异常数据点对象被称作离群点,不同的环境,异常值也可以有不同的类型,有点异常值、背景异常值或集体离群值,异常数据的处理方法有基于统计学的方法、基于多元高斯的方法、基于相似度的方法、基于密度的方法、基于聚类技术的方法、基于模型的方法等。
数据缺失处理
处理数据缺失的方法很多,根据数据的基础情况、数据的缺失情况来综合选择。如果数据量足够大,缺失数据比例小,则缺失数据可以直接删除;如果数据连续缺失,则可以利用平滑方法填补等。数据的插值方法主要有利用纵向关系进行插值,如线性插值法、拉格朗日插值法、牛顿插值法、三次样条函数插值法等;利用横向关系插值,如多元插值法等;内插值法,如 sinc 内插值法等。
数据归约处理
数据归约技术可以在保持原有数据完整性的前提下得到数据的归约表示,使得原始数据压缩到一个合适的量级同时又不损失数据的关键信息。数据归约的主要策略有数据降维、数量归约、数据压缩。
数据降维基本原理是将样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个关于原数据集紧致的低维表示。数据降维的方法有很多,如主成分分析、T-SNE方法、流形学习降维等。数量归约是用代替、较小的数据集来替换原有的数据集,方法主要有参数方法和非参数方法。参数方法就是利用模型进行数据估计、非参数方法则是利用聚类、数据立方体等技术进行归约表示。数据压缩是使用数据变换的方式对原始数据进行压缩表示,使得压缩数据能够实现原始的数据的重构又不损失数据中的有价值信息。主要的压缩方法有无损压缩和有损压缩。
数据建模
数据建模的本质是发现知识
模型的形式化描述
基本描述
F ( X ) = Y F(X)=Y F(X)=Y其中,X 为可以获得的数据,Y 为希望得到的数据,F 是 X 到 Y的映射。建模就是选择 X,确定其定义域、并获得映射 F 的过程。
模型的深入表述
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!