77页2.4万字企业大数据应用平台ETL系统运维实施技术方案(WORD)

免责声明

请勿将该文章用于任何商业用途,仅供学习参考,违者后果自负!

资料下载方式

完整版文档已上传至知识星球“无忧智库-新基建智慧城市圈子”(星球 53232205)平台。

以下是方案全文:

目 录

1 项目服务方案 3

1.1 日常维护方案 3

1.1.1 项目概述 3

1.1.2 故障响应和服务内容 4

1.2 服务支撑体系 45

1.2.1 服务组织 45

1.2.2 服务流程 46

1.2.3 服务规范体系 47

1.2.4 团队稳定性方案 56

1.3 质量控制能力 62

1.3.1 服务质量管理 62

1.3.2 质量保障体系 63

1.3.3 质量管理措施 63

1.3.4 项目培训方案 64

1.3.5 服务工作协同 65

1.4 应急预案 72

1.4.1 应急响应方案 72

1.4.2 重点保障方案 77

项目服务方案

日常维护方案

项目概述

背景介绍

为保障企业大数据应用平台的日常生产运维工作,保持运维工作的延续性,需由“经分后台SS、ETL等应用日常维护服务”提供相关的监控、维护工作。

服务目标

在确保企业经营分析系统运维工作顺利开展,包括经分现 系统每日正在运行的上千项流程的日常运维、DACP流程调度、数据分发、进出口数据质量、ETL配置维护以及及时性监控、月生产维护、重点应用及时完成情况监控。

服务原则

例行服务必须按规定时间进行,服务响应时间必须在合同规定的时间内执行,故障应急必须迅速做出反应。准确无误地完成所承诺的服务。要求避免服务过程中的失误,避免服务过中影响局方的业务稳定。术业有专攻,提供专业的服务团队为局方提供专业服务,保证服务质量。

符合局方相关维护规定,做好信息安全保密工作。

故障响应和服务内容

故障等级和服务响应

故障级别定义

故障级别

故障定义

服务描述

一级故障

一经接口、重点应用相关接口故障或延迟;重点应用、重点模型调度故障或延迟

重点接口或程序延迟或故障。

二级故障

基础模型DWD、中间层模型DWA的相关接口或程序故障或调度延迟

基础、公共层模型或程序故障或延迟

三级故障

条线主题公共层DWA模型故障或调度延迟

主题公共层模型故障或延迟

四级故障

非重点应用层程序故障或调度延迟。

非重点应用故障或延迟

服务响应时间

故障级别

电话响应时间

VPN拨入时间

人员到场时间

故障恢复时间

一级

3次内

15分钟

2小时内

2小时内

二级

3次内

15分钟

2小时内

2小时内

三级

3次内

30分钟

4小时内

4小时内

四级

3次内

60分钟

4小时内

6小时内

重点值守:

在局方的要求下,主要是在重要通信保障或国定节假日期间,根据保障等级要求,提供

现场或远程VPN值守服务,根据服务质量进行考核。

突发情况响应

面对突发情况或突发事件,应提供应急响应,要求按照故障等级和响应时限到达现场处理。如有同类故障的处理预案,立即进行业务恢复。否则升级至远程技术支撑中心,同时通 各相关厂商请求提供技术支持服务。同时,现场支持服务工程师将到达现场,实施或配合进行业务恢复和故障处理。

服务满意度保障

空中选 系统服务确保及时、有效的解决服务中出现的问题,不造成各类故障预警,使空中选 系统达到服务满意度指标考核要求。

具体工作:1、对空选系统进行维护;2、确认系统情况合理升级系统版本;3、相关应用配置按需调整;4、对相关应用特征进行及时更新。根据要求,对流量策略进行调整,并对设备系统进行安全漏洞扫描,及时更新系统补丁,避免系统隐患。

生产安全

维护人员需遵守局方的人员进出、机房管理与安全生产规定。

信息安全

维护人员需遵守局方信息安全相关保密规定。系统安全服务包括系统安全保障、信息安全支持服务。系统安全保障是根据相关方要求,定期检查空选系统安全设置,防止一些未经允许的访问影响系统的安全。信息安全支持服务是根据集团信息安全规范和工信部信息安全按要求,确定支持服务作业计划,定时进行系统和应用安全性检查,定期进行系统密码回收和检查,定时对系统的补丁、漏洞等进行检查,对发现或受理的问题进行预防性的维护作业,消除故障隐患。根据不同时期的不同要求,经过协商确认后,系统安全服务作业计划具体内容项目可以定期或不定期的调整。

优化建议

积极主动对系统运营提出性能或功能上的优化建议,与局方人员一起,进行实施,评估能否取得明显效果。

临时任务:

有承担局方临时交办任务的义务,并根据具体情况,承诺相应的服务质量。

服务内容

7X24小时电话支持服务

提供7X24小时电话支持,受理 障,咨询和远程技术支持服务。拨打 障电话3次内有人应答

常规巡检

常规巡检月为单位,范围包括:

常规巡检作业项目

作业周期

例行检查

监控结果检查、记录

4次/月

系统例行检查、记录

4次/月

软件检查

业务量检查

4次/月

业务性能耗时检查

4次/月

日志检查

检查日志中的错误

4次/月

系统软件和应用软件版本、补丁检查

不定期

分析和优化

为配合新增要求的分析和优化任务。

按需

为保障系统的健康、高效运行,消除问题隐患,提供系统巡检服务。

SS运维服务

  • 工作概述:
  • 保障DACP调度系统上YT机平台及MPP平台的程序正常运行;
  • 工作重点:
  • 每天全程监控重点流程:
  • 夜间3次定时巡检汇 :2点,5点,8点

    白天2次重点监控汇 和多次巡检调度系统:重点汇 11点,17点

  • 根据流程的重要程度,按既定的时效及质量要求,及时监控、发现、并处理DACP调度系统中的各类异常问题;
  • 重点监控并优化重点流程的调度情况,保障出数的及时性及准确性;
  • 定期总结DACP调度中的系统、流程调度等问题,并及时进行主动优化或反馈给开发人员进行优化,以保障DACP调度系统的稳健性及效率。
  • 自动化告警脚本按需求阀值调整、优化。
  • 工作内容:
  • SS运维服务主要包括了日常监控运维、月初运维任务等。具体维护内容如下:

    日常监控运维

    SS日常监控运维工作包括流程调度监控及维护、固定分发新增、临时任务处理及跟踪等。

    SS重点流程监控及维护:

  • 重点监控日程序
  • 总数:1000 (个)监控时段:-23:00 (每日)

  • 重点监控月程序
  • 总数:60(个)监控时段:-23:00 (1 -7 )

  • 重点监控分钟程序
  • 总数:10 (个)监控时段:-23:00 (每日)

    1. 流程调度监控及维护
  • 负责监控DACP平台;
  • 负责监控及处理调度流程异常的问题,包括失败,等待,长时间未触发,流程依赖缺失,权限缺失等问题;
  • 每天通过后台自动化监控脚本,对全量调度流程进行全方位监控,将日常遇到的失败,延迟等问题进行定位分析并优化处理,程序问题及时协调开发人员及时进行处理;
  • 对常见问题进行总结分析,归纳问题的发生频率、影响面、共性等,针对性制定优化措施,以减低挂起量,提升出数及时性,提升日常运维效率。
    1. SS重点流程监控及维护
    2. 临时任务处理

    临时任务包括各项临时性、突发性、及专项任务等,诸如系统割接上线配合,因数据错误、程序问题等需要流程临时调度、批量重跑后续,查找流程下线需要的详细信息以及流程下线,支撑经分侧查证流程调度情况,重点应用重点支撑保障、固定分发问题查证等。

    1. 固定分发接口配置

    由于经分生产所需或日常工单需求所需,SS维护人员对现有接口进行修改配置或新增配置。

    1、维护突发事件处理

    由于日常生产中遇到各类突发事件,例如数据库宕机、表空间满、调度系统异常、4A平台异常等等。

    月初运维任务

    SS月初运维任务包括属地化基站维表维护、账单科目维表维护、主策划维表、部分DWD月流程手工维护、月末DWD重点日流程手工维护、以及属地化月表后置流程调度。

    1. 属地化基站维表

    每月月底最后一天完成属地化基站文件导入数据确认后,维护人员电话督促各属地基站维护人员必须在1 完成基站维护,如遇不可控因素影响进度必须及时上 。

    13个属地完成基站维护后,维护人员完成相应的验证工作,验证完成后邮件通知后续维护人员。

    2)账单科目维表维护

    每月初对账单科目维表DIM_ACC_ITEM_CODE按要求进行更新个性化处理。

    每月待客户通知shfin.r_vr011表维护完成,ss确认shfin.r_vr011表从mpp已成功分发至一体机SHFIN.RPT_VR011。(注:select * from all_objects where object_name like’%RPT_VR011%’确认分发一体机成功)手工调度以下程序。

    步骤等级

    平台

    程序

    备注

    1

    一体机

    DimAccItemCode

    重做后续

    2

    一体机

    DimEvtIvrNode

    确认程序运行成功

    一体机

    DimEvtCsrSkill

    一体机

    DimAccWmsNavtreemap

    3)主策划维表

    每月初对主策划维表按要求进行更新个性化处理;同时打上相应的完成标识。

    每月甲方通知数据表维护完成。

    4)部分DWD月流程及月末DWD重点日流程

    对于部分需要手工干预的DWD月流程及部分月底的DWD日流程进行前置判断验证,并及时进行手工调度并跟踪过程、及完成情况。

    每月当出账那边出完账验完数据之后,甲方通知一体机和24库数据都已到位,可以执行以下操作。

    步骤等级

    平台

    程序

    1

    一体机

    DwdMergeBillM

    1

    一体机

    DwdMergeBillProdM

    1

    一体机

    DwdMergeBillItemM

    1

    一体机

    DwdMergeBillDtl4M

    2

    一体机

    DwdAccFinItemDtlM

    3

    一体机

    DwdAccPrepaySplitedM

    3

    一体机

    DwdSvcGrpMemProdM

    3

    一体机

    DwdSvcGrpSrvAttrM

    3

    一体机

    DwdSvcUsrOsStateM

    3

    一体机

    DwdPrtyGrpInfoM

    3

    一体机

    DwdAccWriteoffRecM

    3

    一体机

    DwdAccAdjustBusiRecDmM

    3

    一体机

    DwdAccPocketM

    3

    一体机

    DwdAccSumBillM

    3

    一体机

    DwdAccPocketM

    3

    一体机

    DwdAccSumBillM

    3

    一体机

    DwdAccGrpAdjustM

    3

    一体机

    DwdAccGrpOweInfoM

    3

    一体机

    DwdAccOweM

    4

    mpp

    DwdMergeBillDtl4M_MPP

    在以上程序运行成功后

    步骤等级

    平台

    程序

    1

    一体机

    DwdMergeRcBillDtlD

    1

    一体机

    DwdMergePromBillD

    1

    一体机

    DwdMergeSrvcDtl1D

    1

    一体机

    DwdMergeDailyBillD

    1

    一体机

    DwdMergeUsageBilltD

    1

    一体机

    DwdMergeBillDtl3D

    2

    一体机

    DwdAccItemDtlD

    2

    一体机

    DwdAccFinItemDtlD

    3

    一体机

    DwdAccPrepaySplitedD

    5)属地化月表后置流程调度

    每月月初在用户属地化表已经生成验证通过的情况下,对于依赖该表的后置流程进行手工干预发起调度,并跟踪过程及完成情况。

    属地化数据验好后,待甲方邮件通知结果表已分发到MPP库:

    确认分发表分发完成;

    分发完成后将DACP调度(MPP任务)强制通过,监控后续程序调度情况。

    自动化维护及监控措施

    1) 模板化辅助维护手段

    类别

    模板化辅助手段

    用途

    系统

    yt,mpp总体运行情况

    监控DACP调度系统是否正常运行、今日总程序完成数

    系统

    yt,mpp的DWD程序运行情况

    监控基础层程序完成数

    依赖

    程序血缘分析

    查看程序调度所用到的表,生成的目标表。

    依赖

    后置依赖查询

    批量查找任意流程的所有后置流程,调度流程影响分析

    依赖

    前置依赖查询

    批量查找任意流程的所有前置流程,调度流程依赖的条件

    依赖

    事件触发程序执行条件查询

    如果事件触发流程没有触发就根据流程flowid查看程序依赖的接口以及判断的分控表

    依赖

    SS流程名查询

    以程序名或表名查找流程名称

    依赖

    查询表固定分发

    当用到的表不是ss程序跑出的时候,以表名去分发控制表查看表是否属于分发,源库是哪里及分发情况

    异常

    运行超长时间流程查询

    速查一周内平均运行时间超长的流程清单发开发优化程序

    异常

    等待流程查询

    速查长时间等待运行的流程清单

    异常

    查看接口装载完成情况

    以接口 去ETL分控表查询出接口装载状态根据情况接口、程序跟踪处理

    异常

    创建程序实时监控列出YT和MPP

    直接查询表即可统一处理不同平台的所有失败程序

    2个平台所有失败程序、失败原因更新到日志表里

    异常

    列出YT和MPP哪些接口没好

    查出今日dacp显示没有通过的接口以及影响的程序

    异常

    热点通 (重点保障)完成情况列表

    查重点保障程序及依赖的所有前置该完成还没完成的程序清单

    异常

    热点通 及依赖没完成

    快速定位重点保障程序及前置未完成的最终依赖原因

    的大致原因

    异常

    一经前置日程序哪些没跑

    单独监控这个组的所有程序完成情况(重点保障)

    异常

    查程序未运行原因

    定位程序延迟未触发的最终依赖原因

    异常

    监控日流程没跑的

    监控所有日程序今日还没运行成功的清单

    异常

    超过1天未完成列表

    查延迟1天还未运行的程序并分类处理

    异常

    超过2天未完成列表

    查延迟2天还未运行的程序并分类处理

    异常

    查重点接口延迟列表

    单独监控重点保障程序依赖的所有接口该完成还未完成的接口

    异常

    监控月流程没跑的

    监控所有月程序该完成还没运行成功的清单

    异常

    监控程序依赖失效的

    查因依赖配置问题导致未触发的程序

    异常

    60库,判断接口装不装YT机,

    查因依赖接口配置问题导致未触发的程序

    瞒足3张配置表都要有记录

    异常

    查程序延迟大致原因

    辅助分析程序比昨天完成时间晚的原因

    (今日数据,分析前置完成时间是否有延迟)

    异常

    查询程序中存在死循环的程序

    查因依赖配置问题导致未触发的程序

    (即互相依赖)

    2) 自动化监控措施

    告警分类

    DACP监控项

    告警形式

    告警级别

    监控频率

    1

    dacp系统监控

    检查程序发送至agent状态超过10分钟,疑似代理僵死监控

    电话/短信

    非常重要

    每1小时

    2

    dacp15分钟内无任何程序跑出告警

    电话/短信

    非常重要

    每1小时

    3

    YT机表空间监控

    电话/短信

    非常重要

    每1小时

    4

    代理进程数、长时间不写日志监控

    电话

    非常重要

    实时

    5

    rabbit@YP-DACP-01进程监控

    电话

    非常重要

    实时

    6

    server进程长时间不写日志监控

    电话

    非常重要

    实时

    7

    dacp流程监控

    基础话单明细检查

    电话/短信

    重要

    每1小时

    8

    漫入话单明细检查

    电话/短信

    重要

    每1小时

    9

    小话单明细检查

    电话/短信

    重要

    每1小时

    10

    2点批次dwdayrun完成数告警

    电话/短信

    重要

    每1小时

    11

    3点批次dwdayrun完成数告警

    电话/短信

    重要

    每1小时

    12

    4点批次dwdayrun完成数告警

    电话/短信

    重要

    每1小时

    13

    6点批次dwdayrun完成数告警

    电话/短信

    重要

    每1小时

    14

    dwdayrun程序失败告警

    电话/短信

    重要

    每1小时

    15

    7点批次SS重要程序完成数告警

    电话/短信

    重要

    每1小时

    16

    正在运行的程序运行时长超过1小时告警

    短信

    重要

    每1小时

    17

    失败程序告警

    短信

    重要

    每1小时

    18

    经分热点未完成数告警

    短信

    重要

    每1小时

    19

    超过参考时间接口未完成告警(经分热点及所有前置依赖的接口监控)

    电话/短信

    非常重要

    每1小时

    20

    dacp流程总体运行情况监控

    日程序总数,程序执行成功数与参考完成数短信提示

    短信

    重要

    每1小时

    21

    流程失败个数

    短信

    重要

    每1小时

    22

    正在执行程序个数

    短信

    重要

    每1小时

    23

    等待前置程序个数

    短信

    重要

    每1小时

    24

    等代理程序个数

    短信

    重要

    每1小时

    25

    今日未触发程序个数

    短信

    重要

    每1小时

    26

    ss监控

    ss代理进程监控

    短信

    重要

    每20分钟

    ETL运维服务

  • 工作概述:
  • 保障云化ETL平台、话单合并服务器的正常运行;
  • 实时监控云化ETL平台的接口运行情况、及时处理因各种故障原因导致失败的接口,确保平台的数据采集、预处理、传输、入库、库内处理的及时性和准确性;
  • 定期分析云化ETL平台接口各个环节的运行情况、相关程序内存使用率、ODS表空间使用率等数据进行分析,设计合理的优化措施来保障平台系统的稳健性及生产效率。
  • 保证重点大接口在规定时间之内完成。
  • 日常ETL维护

    1. 云化ETL平台的日常运维
  • 基本信息
  • 日接口1600个左右,月接口1200个左右,小时接口逾40*24个左右;
  • 涉及外围数据库约 35台;
  • 涉及各类外部业务平台约50个;
  • 日常运维包括:
    1. 及时处理各种原因导致的数据抽取、装载失败接口(如ETL平台本身软硬件故障、源文件缺失、源表表结构变化、源数据库连接异常等);
    2. 按需求工单要求新增抽取库、新增外部数据接入、新增接口配置等;
    3. 按需求工单要求对存量接口进行修改;
    4. etl调度计划、优先级等例行优化;
    5. 完善各类告警配置;
    6. 实行7*24专人值班制度,每日例行巡检工作(白天:8:00、12:00、17:00;晚上:05:00、21:00,):

    巡检内容:

  • 5:00通 今日重点接口的完成情况详情;
  • 5:00通 截止当前ETL接口总体情况 告(当日接口任务量,截止当前接口完成总数,失败总数,待调度总数,终止总数);
  • 21:00-8:30全程监控并及时处理 管电话告警;
  • 21:00通 当日话单接口各个小时总体情况
  • 8:00、12:00、17:00 针对Jobtracker,Taskertracker,话单合并等程序进行巡检,及时对各类异常问题进行查证处理,并保持跟踪直至问题解决。
    1. 日常维护过程有13个接口为重点关注对象,要保证这些接口完成的及时性。
    2. 话单装载保障工作

    涉及话单接口主要有GPRS、语音、短信、物联 以及各类漫入话单;

    维护工作包括:

  • 话单原始文件的采集、合并、传输以及最终入一体机和MPP数据库全过程的监控和问题处理;
  • 因数据仓库故障,需人工处理故障期间失败话单接口;
  • 因话单服务器故障,需人工处理故障期间话单分发,合并,上传程序;
  • 配合各类对话单数据质量验证的工作;
  • 目前有如下话单,其中第一类话单:10003、10010、10025为大数据量话单,是计费侧主动推送,其余均为第二类话单,数据量较小的话单,也是计费侧主动推送。
  • 第一类大数据量话单 10003、10010、10025的装载流程图如下:
  • 其余第二类话单的流程装载流程图如下:
  • 声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

    上一篇 2022年10月9日
    下一篇 2022年10月10日

    相关推荐