应用代维AMS服务可以提供哪些服务?
- 应用代维AMS
服务名称
服务内容
使用场景
运维平台混沌工程演练服务
帮助用户在线验证系统可能存在的潜在风险,通过故障模式识别和建设、演练风险分析及控制、制定应急预案、故障注入、故障恢复、复盘等全流程的演练实战服务,帮助用户构建混沌工程的系统能力:构建故障模式库和武器库建设,验证应急预案的有效性。
客户需提升其混沌工程的演练能力,协助客户完成演练。
运维平台故障管理代维服务
基于华为云专家经验以及云上业务运维的最佳实践,通过对客户有痛点的核心应用,进行故障树梳理和相应应急预案的开发,并通过混沌演练验证,帮助客户提高故障快速恢复效率,为业务稳定运行保驾护航。
客户业务故障事件频发,故障管理流程不规范。
运维平台发布管理优化实施服务
围绕单一变更场景,如软件变更、配置变更等,分析流程风险点,梳理相应标准化SOP,给出优化意见。
- 客户变更管理体系欠缺。
- 客户已有部分标准化作业能力,需要向确定性变更风控进阶。
运维平台发布管理驻场支持服务-基础包
负责变更评审管理、变更回溯、变更知识总结、重大变更支持、变更项目管理,每套基础包包含100个以内的应用。
运维平台发布管理驻场支持服务-增量包
服务内容与基础包服务相同,主要用于超出基础包的应用,每个增量包包含10个以内的应用。
运维平台应用运维托管(5X8)
服务周期内为客户应用提供远程应用托管服务,包括在客户日志、指标、告警接入的前提下,为客户应用提供5x8监控,针对客户生产环境出现的告警按照预设的预案进行响应处理,跟踪生产故障,进行全生命周期管理。
适用于业务可用性要求一般的场景。
运维平台应用运维托管(7X24)
服务周期内为客户应用提供远程应用托管服务,包括在客户日志、指标、告警接入的前提下,为客户应用提供7x24监控,针对客户生产环境出现的告警按照预设的预案进行响应处理,跟踪生产故障,进行全生命周期管理。
适用于业务可用性要求高的场景。
运维平台应用托管增量服务(5X8)
为客户新增或扩容的应用提供远程应用托管服务,包括在客户日志、指标、告警接入的前提下,为客户应用提供5x8监控,针对客户生产环境出现的告警按照预设的预案进行响应处理,跟踪生产故障,进行全生命周期管理。
5*8增量服务包。
运维平台应用托管增量服务(7X24)
为客户新增或扩容的应用提供远程应用托管服务,包括在客户日志、指标、告警接入的前提下,为客户应用提供7x24监控,针对客户生产环境出现的告警按照预设的预案进行响应处理,跟踪生产故障,进行全生命周期管理。
7*24增量服务包。
运维平台应用托管实施服务
将客户目标范围内的资源、应用纳管入运维平台,纳管范围不超过100实例,实施范围包括资源纳管、账号托管、日志采集、监控配置等。
用于首次将客户业务统一接入运维平台进行托管的场景。
运维平台应用托管实施增量服务
对于客户新增部署的服务或者扩容的资源进行纳管接入,满足运维需要。
用于增量客户业务接入运维平台的场景。
运维平台生产准备度评审治理服务
结合运维工具,帮客户开展生产准备度评审活动,指定对应的评审流程,制定对应业务PRR评审相关评审子项,内容描述以及评判标准。自动化实现在线评审相关的开发工作,对实际业务进行PRR评审检测,给出评审结果。
适用于需要华为专家为客户进行实际生产准备度评审服务,进行实际演练操作。
运维平台运行态风险评估治理服务
结合运维工具,定制客户运行态风险评估的标准流程,定制风险评估子项相关信息及检测标准。自动化实现部分评估的相关工作,对实际的业务进行风险评估并给出评估结果。
适用于需要华为专家为客户进行实际运行态风险评估服务的演练、操作等。
运维平台业务可用性度量治理服务
结合客户实际业务和运维工具,制定客户产品的SLO,开发对应的SLI的指标项以及对应的基线数据,监控业务SLO/SLI指标情况。
适用于需要华为专家为客户进行实际可用性度量服务的演练、操作等。
运维平台开发支持服务-高级专家
为客户提供基础的开发支持服务:提供 SDK/API的使用支持及Demo展示;提供开发环境搭建指导及应用开发过程指导。在客户使用平台开发AI应用过程中,辅助客户进行 数据准备、模型选择/调优,推理加速、知识工程、应用编排、应用部署、应用集成等支持工作,帮助客户快速提升智能化应用开发能力,协助解决开发过程中遇到的各类问题。
客户运营调优能力不足,需购买华为云专业服务来支撑其业务发展。
运维平台开发支持服务-资深顾问
为客户提供应用迁移改造过程的开发支持,针对运维平台之上的应用或者数据做迁移适配改造支持,包括不限于AI应用及配套模型等迁移性评估和方案设计,AI应用及模型推理脚本改造调试,单机/分布式的性能优化,大模型对应微调/训练脚本改造及性能调试等的开发支持。
运维平台开发支持服务-高级咨询专家
为客户提供在运维平台上进行通用组件开发时的开发支持服务,包括以下场景:
- 3rd闭源模型的对接。
- 开源模型的引入。
- 增量预训练。
- 开源模型的场景化调优。
- 模型评测:基于加速器评测功能,设计评测策略,选择评测数据集、执行评测过程(客观通过加速器功能自动完成,主观需要人工执行。
- 数据准备:数据接入、治理(清晰去重规整等)、生成数据集。
- 构建知识库。
- prompt工程。
- 动态知识注入RAG。
- 知识库接入。
运维平台开发支持服务-资深咨询专家
为客户在应用开发过程中提供专业的开发支持服务:
- 包括结合客户应用场景做应用整体解决方案的需求调研和方案设计的支持。包括但不限于(算力、存储、网络)规划,大模型选型与评测设计,数据准备设计,模型编排方案设计,软件平台集成方案设计等。
- 包括基于已有的《应用设计》方案进行的应用开发的支持,包括的环节不限于数据准备,模型选择/调优,推理加速、知识工程、应用编排,应用部署实施全流程。
成本管理可视
标签体系设计、成本预测、成本监控对账、成本分配分析。
- 云成本治理体系不健全。
- 资源管控机制不完善。
- 部门协同效率低。
- 成本预算不清晰。
成本管理优化
成本优化建议、云资源周期管控。
变更风控驻场支持服务-基础包
负责变更评审管理、变更回溯、变更知识总结、重大变更支持、变更项目管理。
20个应用/年。
变更风控驻场支持服务-增量包
20个应用/月。
变更风控优化提升服务
围绕单一变更场景,如软件变更、配置变更等,分析流程风险点,梳理相应标准化SOP,给出优化意见。
每个变更场景。
变更风控自动化能力构建服务
围绕“操作半径、作业影响”,协助客户梳理高危命令基线、Action编排规则等,完成变更活动工具化及CICD流水线建设与实施。
每人每月。
混沌工程演练服务基础版
混沌工程演练服务是帮助用户在线验证系统可能存在的潜在风险,通过故障模式识别和建设、演练风险分析及控制、制定应急预案、故障注入、故障恢复、复盘等全流程的演练实战服务,帮助用户构建混沌工程的系统能力:构建故障模式库和武器库建设,验证应急预案的有效性,提升运维团队的故障快速恢复能力,持续实践并优化应急体系、组织应急能力、并提升系统的韧性和可靠性。
客户需提升其混沌工程的演练能力,协助客户完成演练。
混沌工程演练服务增量包
服务内容同混沌工程演练服务基础版,与基础包配合购买增加服务范围,适用于演练场景数超过5个的情况,每增加一个演练场景按需购买增量包。
客户演练场景数超出基础版演练数量限制。