免责声明
请勿将该文章用于任何商业用途,仅供学习参考,违者后果自负!
资料下载方式
完整版文档已上传至知识星球“无忧智库-新基建智慧城市圈子”(星球 53232205)平台。
以下是方案全文:
目 录
1 项目服务方案 3
1.1 日常维护方案 3
1.1.1 项目概述 3
1.1.2 故障响应和服务内容 4
1.2 服务支撑体系 45
1.2.1 服务组织 45
1.2.2 服务流程 46
1.2.3 服务规范体系 47
1.2.4 团队稳定性方案 56
1.3 质量控制能力 62
1.3.1 服务质量管理 62
1.3.2 质量保障体系 63
1.3.3 质量管理措施 63
1.3.4 项目培训方案 64
1.3.5 服务工作协同 65
1.4 应急预案 72
1.4.1 应急响应方案 72
1.4.2 重点保障方案 77
项目服务方案
日常维护方案
项目概述
背景介绍
为保障企业大数据应用平台的日常生产运维工作,保持运维工作的延续性,需由“经分后台SS、ETL等应用日常维护服务”提供相关的监控、维护工作。
服务目标
在确保企业经营分析系统运维工作顺利开展,包括经分现 系统每日正在运行的上千项流程的日常运维、DACP流程调度、数据分发、进出口数据质量、ETL配置维护以及及时性监控、月生产维护、重点应用及时完成情况监控。
服务原则
例行服务必须按规定时间进行,服务响应时间必须在合同规定的时间内执行,故障应急必须迅速做出反应。准确无误地完成所承诺的服务。要求避免服务过程中的失误,避免服务过中影响局方的业务稳定。术业有专攻,提供专业的服务团队为局方提供专业服务,保证服务质量。
符合局方相关维护规定,做好信息安全保密工作。
故障响应和服务内容
故障等级和服务响应
故障级别定义 |
故障级别 |
故障定义 |
服务描述 |
一级故障 |
一经接口、重点应用相关接口故障或延迟;重点应用、重点模型调度故障或延迟 |
重点接口或程序延迟或故障。 |
|
二级故障 |
基础模型DWD、中间层模型DWA的相关接口或程序故障或调度延迟 |
基础、公共层模型或程序故障或延迟 |
|
三级故障 |
条线主题公共层DWA模型故障或调度延迟 |
主题公共层模型故障或延迟 |
|
四级故障 |
非重点应用层程序故障或调度延迟。 |
非重点应用故障或延迟 |
服务响应时间 |
故障级别 |
电话响应时间 |
VPN拨入时间 |
人员到场时间 |
故障恢复时间 |
一级 |
3次内 |
15分钟 |
2小时内 |
2小时内 |
|
二级 |
3次内 |
15分钟 |
2小时内 |
2小时内 |
|
三级 |
3次内 |
30分钟 |
4小时内 |
4小时内 |
|
四级 |
3次内 |
60分钟 |
4小时内 |
6小时内 |
重点值守:
在局方的要求下,主要是在重要通信保障或国定节假日期间,根据保障等级要求,提供
现场或远程VPN值守服务,根据服务质量进行考核。
突发情况响应
面对突发情况或突发事件,应提供应急响应,要求按照故障等级和响应时限到达现场处理。如有同类故障的处理预案,立即进行业务恢复。否则升级至远程技术支撑中心,同时通 各相关厂商请求提供技术支持服务。同时,现场支持服务工程师将到达现场,实施或配合进行业务恢复和故障处理。
服务满意度保障
空中选 系统服务确保及时、有效的解决服务中出现的问题,不造成各类故障预警,使空中选 系统达到服务满意度指标考核要求。
具体工作:1、对空选系统进行维护;2、确认系统情况合理升级系统版本;3、相关应用配置按需调整;4、对相关应用特征进行及时更新。根据要求,对流量策略进行调整,并对设备系统进行安全漏洞扫描,及时更新系统补丁,避免系统隐患。
生产安全
维护人员需遵守局方的人员进出、机房管理与安全生产规定。
信息安全
维护人员需遵守局方信息安全相关保密规定。系统安全服务包括系统安全保障、信息安全支持服务。系统安全保障是根据相关方要求,定期检查空选系统安全设置,防止一些未经允许的访问影响系统的安全。信息安全支持服务是根据集团信息安全规范和工信部信息安全按要求,确定支持服务作业计划,定时进行系统和应用安全性检查,定期进行系统密码回收和检查,定时对系统的补丁、漏洞等进行检查,对发现或受理的问题进行预防性的维护作业,消除故障隐患。根据不同时期的不同要求,经过协商确认后,系统安全服务作业计划具体内容项目可以定期或不定期的调整。
优化建议
积极主动对系统运营提出性能或功能上的优化建议,与局方人员一起,进行实施,评估能否取得明显效果。
临时任务:
有承担局方临时交办任务的义务,并根据具体情况,承诺相应的服务质量。
服务内容
7X24小时电话支持服务
提供7X24小时电话支持,受理 障,咨询和远程技术支持服务。拨打 障电话3次内有人应答
常规巡检
常规巡检月为单位,范围包括:
常规巡检作业项目 |
作业周期 |
|
例行检查 |
监控结果检查、记录 |
4次/月 |
系统例行检查、记录 |
4次/月 |
|
软件检查 |
业务量检查 |
4次/月 |
业务性能耗时检查 |
4次/月 |
|
日志检查 |
检查日志中的错误 |
4次/月 |
系统软件和应用软件版本、补丁检查 |
不定期 |
|
分析和优化 |
为配合新增要求的分析和优化任务。 |
按需 |
为保障系统的健康、高效运行,消除问题隐患,提供系统巡检服务。
SS运维服务
夜间3次定时巡检汇 :2点,5点,8点
白天2次重点监控汇 和多次巡检调度系统:重点汇 11点,17点
SS运维服务主要包括了日常监控运维、月初运维任务等。具体维护内容如下:
日常监控运维
SS日常监控运维工作包括流程调度监控及维护、固定分发新增、临时任务处理及跟踪等。
SS重点流程监控及维护:
总数:1000 (个)监控时段:-23:00 (每日)
总数:60(个)监控时段:-23:00 (1 -7 )
总数:10 (个)监控时段:-23:00 (每日)
- 流程调度监控及维护
- SS重点流程监控及维护
- 临时任务处理
临时任务包括各项临时性、突发性、及专项任务等,诸如系统割接上线配合,因数据错误、程序问题等需要流程临时调度、批量重跑后续,查找流程下线需要的详细信息以及流程下线,支撑经分侧查证流程调度情况,重点应用重点支撑保障、固定分发问题查证等。
- 固定分发接口配置
由于经分生产所需或日常工单需求所需,SS维护人员对现有接口进行修改配置或新增配置。
1、维护突发事件处理
由于日常生产中遇到各类突发事件,例如数据库宕机、表空间满、调度系统异常、4A平台异常等等。
月初运维任务
SS月初运维任务包括属地化基站维表维护、账单科目维表维护、主策划维表、部分DWD月流程手工维护、月末DWD重点日流程手工维护、以及属地化月表后置流程调度。
- 属地化基站维表
每月月底最后一天完成属地化基站文件导入数据确认后,维护人员电话督促各属地基站维护人员必须在1 完成基站维护,如遇不可控因素影响进度必须及时上 。
13个属地完成基站维护后,维护人员完成相应的验证工作,验证完成后邮件通知后续维护人员。
2)账单科目维表维护
每月初对账单科目维表DIM_ACC_ITEM_CODE按要求进行更新个性化处理。
每月待客户通知shfin.r_vr011表维护完成,ss确认shfin.r_vr011表从mpp已成功分发至一体机SHFIN.RPT_VR011。(注:select * from all_objects where object_name like’%RPT_VR011%’确认分发一体机成功)手工调度以下程序。
步骤等级 |
平台 |
程序 |
备注 |
1 |
一体机 |
DimAccItemCode |
重做后续 |
2 |
一体机 |
DimEvtIvrNode |
确认程序运行成功 |
一体机 |
DimEvtCsrSkill |
||
一体机 |
DimAccWmsNavtreemap |
3)主策划维表
每月初对主策划维表按要求进行更新个性化处理;同时打上相应的完成标识。
每月甲方通知数据表维护完成。
4)部分DWD月流程及月末DWD重点日流程
对于部分需要手工干预的DWD月流程及部分月底的DWD日流程进行前置判断验证,并及时进行手工调度并跟踪过程、及完成情况。
每月当出账那边出完账验完数据之后,甲方通知一体机和24库数据都已到位,可以执行以下操作。
步骤等级 |
平台 |
程序 |
1 |
一体机 |
DwdMergeBillM |
1 |
一体机 |
DwdMergeBillProdM |
1 |
一体机 |
DwdMergeBillItemM |
1 |
一体机 |
DwdMergeBillDtl4M |
2 |
一体机 |
DwdAccFinItemDtlM |
3 |
一体机 |
DwdAccPrepaySplitedM |
3 |
一体机 |
DwdSvcGrpMemProdM |
3 |
一体机 |
DwdSvcGrpSrvAttrM |
3 |
一体机 |
DwdSvcUsrOsStateM |
3 |
一体机 |
DwdPrtyGrpInfoM |
3 |
一体机 |
DwdAccWriteoffRecM |
3 |
一体机 |
DwdAccAdjustBusiRecDmM |
3 |
一体机 |
DwdAccPocketM |
3 |
一体机 |
DwdAccSumBillM |
3 |
一体机 |
DwdAccPocketM |
3 |
一体机 |
DwdAccSumBillM |
3 |
一体机 |
DwdAccGrpAdjustM |
3 |
一体机 |
DwdAccGrpOweInfoM |
3 |
一体机 |
DwdAccOweM |
4 |
mpp |
DwdMergeBillDtl4M_MPP |
在以上程序运行成功后
步骤等级 |
平台 |
程序 |
1 |
一体机 |
DwdMergeRcBillDtlD |
1 |
一体机 |
DwdMergePromBillD |
1 |
一体机 |
DwdMergeSrvcDtl1D |
1 |
一体机 |
DwdMergeDailyBillD |
1 |
一体机 |
DwdMergeUsageBilltD |
1 |
一体机 |
DwdMergeBillDtl3D |
2 |
一体机 |
DwdAccItemDtlD |
2 |
一体机 |
DwdAccFinItemDtlD |
3 |
一体机 |
DwdAccPrepaySplitedD |
5)属地化月表后置流程调度
每月月初在用户属地化表已经生成验证通过的情况下,对于依赖该表的后置流程进行手工干预发起调度,并跟踪过程及完成情况。
属地化数据验好后,待甲方邮件通知结果表已分发到MPP库:
确认分发表分发完成;
分发完成后将DACP调度(MPP任务)强制通过,监控后续程序调度情况。
自动化维护及监控措施
1) 模板化辅助维护手段
类别 |
模板化辅助手段 |
用途 |
系统 |
yt,mpp总体运行情况 |
监控DACP调度系统是否正常运行、今日总程序完成数 |
系统 |
yt,mpp的DWD程序运行情况 |
监控基础层程序完成数 |
依赖 |
程序血缘分析 |
查看程序调度所用到的表,生成的目标表。 |
依赖 |
后置依赖查询 |
批量查找任意流程的所有后置流程,调度流程影响分析 |
依赖 |
前置依赖查询 |
批量查找任意流程的所有前置流程,调度流程依赖的条件 |
依赖 |
事件触发程序执行条件查询 |
如果事件触发流程没有触发就根据流程flowid查看程序依赖的接口以及判断的分控表 |
依赖 |
SS流程名查询 |
以程序名或表名查找流程名称 |
依赖 |
查询表固定分发 |
当用到的表不是ss程序跑出的时候,以表名去分发控制表查看表是否属于分发,源库是哪里及分发情况 |
异常 |
运行超长时间流程查询 |
速查一周内平均运行时间超长的流程清单发开发优化程序 |
异常 |
等待流程查询 |
速查长时间等待运行的流程清单 |
异常 |
查看接口装载完成情况 |
以接口 去ETL分控表查询出接口装载状态根据情况接口、程序跟踪处理 |
异常 |
创建程序实时监控列出YT和MPP |
直接查询表即可统一处理不同平台的所有失败程序 |
2个平台所有失败程序、失败原因更新到日志表里 |
||
异常 |
列出YT和MPP哪些接口没好 |
查出今日dacp显示没有通过的接口以及影响的程序 |
异常 |
热点通 (重点保障)完成情况列表 |
查重点保障程序及依赖的所有前置该完成还没完成的程序清单 |
异常 |
热点通 及依赖没完成 |
快速定位重点保障程序及前置未完成的最终依赖原因 |
的大致原因 |
||
异常 |
一经前置日程序哪些没跑 |
单独监控这个组的所有程序完成情况(重点保障) |
异常 |
查程序未运行原因 |
定位程序延迟未触发的最终依赖原因 |
异常 |
监控日流程没跑的 |
监控所有日程序今日还没运行成功的清单 |
异常 |
超过1天未完成列表 |
查延迟1天还未运行的程序并分类处理 |
异常 |
超过2天未完成列表 |
查延迟2天还未运行的程序并分类处理 |
异常 |
查重点接口延迟列表 |
单独监控重点保障程序依赖的所有接口该完成还未完成的接口 |
异常 |
监控月流程没跑的 |
监控所有月程序该完成还没运行成功的清单 |
异常 |
监控程序依赖失效的 |
查因依赖配置问题导致未触发的程序 |
异常 |
60库,判断接口装不装YT机, |
查因依赖接口配置问题导致未触发的程序 |
瞒足3张配置表都要有记录 |
||
异常 |
查程序延迟大致原因 |
辅助分析程序比昨天完成时间晚的原因 |
(今日数据,分析前置完成时间是否有延迟) |
||
异常 |
查询程序中存在死循环的程序 |
查因依赖配置问题导致未触发的程序 |
(即互相依赖) |
2) 自动化监控措施
序 |
告警分类 |
DACP监控项 |
告警形式 |
告警级别 |
监控频率 |
1 |
dacp系统监控 |
检查程序发送至agent状态超过10分钟,疑似代理僵死监控 |
电话/短信 |
非常重要 |
每1小时 |
2 |
dacp15分钟内无任何程序跑出告警 |
电话/短信 |
非常重要 |
每1小时 |
|
3 |
YT机表空间监控 |
电话/短信 |
非常重要 |
每1小时 |
|
4 |
代理进程数、长时间不写日志监控 |
电话 |
非常重要 |
实时 |
|
5 |
rabbit@YP-DACP-01进程监控 |
电话 |
非常重要 |
实时 |
|
6 |
server进程长时间不写日志监控 |
电话 |
非常重要 |
实时 |
|
7 |
dacp流程监控 |
基础话单明细检查 |
电话/短信 |
重要 |
每1小时 |
8 |
漫入话单明细检查 |
电话/短信 |
重要 |
每1小时 |
|
9 |
小话单明细检查 |
电话/短信 |
重要 |
每1小时 |
|
10 |
2点批次dwdayrun完成数告警 |
电话/短信 |
重要 |
每1小时 |
|
11 |
3点批次dwdayrun完成数告警 |
电话/短信 |
重要 |
每1小时 |
|
12 |
4点批次dwdayrun完成数告警 |
电话/短信 |
重要 |
每1小时 |
|
13 |
6点批次dwdayrun完成数告警 |
电话/短信 |
重要 |
每1小时 |
|
14 |
dwdayrun程序失败告警 |
电话/短信 |
重要 |
每1小时 |
|
15 |
7点批次SS重要程序完成数告警 |
电话/短信 |
重要 |
每1小时 |
|
16 |
正在运行的程序运行时长超过1小时告警 |
短信 |
重要 |
每1小时 |
|
17 |
失败程序告警 |
短信 |
重要 |
每1小时 |
|
18 |
经分热点未完成数告警 |
短信 |
重要 |
每1小时 |
|
19 |
超过参考时间接口未完成告警(经分热点及所有前置依赖的接口监控) |
电话/短信 |
非常重要 |
每1小时 |
|
20 |
dacp流程总体运行情况监控 |
日程序总数,程序执行成功数与参考完成数短信提示 |
短信 |
重要 |
每1小时 |
21 |
流程失败个数 |
短信 |
重要 |
每1小时 |
|
22 |
正在执行程序个数 |
短信 |
重要 |
每1小时 |
|
23 |
等待前置程序个数 |
短信 |
重要 |
每1小时 |
|
24 |
等代理程序个数 |
短信 |
重要 |
每1小时 |
|
25 |
今日未触发程序个数 |
短信 |
重要 |
每1小时 |
|
26 |
ss监控 |
ss代理进程监控 |
短信 |
重要 |
每20分钟 |
ETL运维服务
日常ETL维护
- 云化ETL平台的日常运维
- 及时处理各种原因导致的数据抽取、装载失败接口(如ETL平台本身软硬件故障、源文件缺失、源表表结构变化、源数据库连接异常等);
- 按需求工单要求新增抽取库、新增外部数据接入、新增接口配置等;
- 按需求工单要求对存量接口进行修改;
- etl调度计划、优先级等例行优化;
- 完善各类告警配置;
- 实行7*24专人值班制度,每日例行巡检工作(白天:8:00、12:00、17:00;晚上:05:00、21:00,):
巡检内容:
- 日常维护过程有13个接口为重点关注对象,要保证这些接口完成的及时性。
- 话单装载保障工作
涉及话单接口主要有GPRS、语音、短信、物联 以及各类漫入话单;
维护工作包括:
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!