当前位置：首页 > news >正文

云环境停机问题升级：复杂性与流程故障成主因，云服务改进聚焦规范运营

news 2026/6/16 13:11:50

运营层面的故障

Uptime的研究结果显示，电力问题仍然是重大停机的主要原因，凸显传统基础设施工程重要性。即便云服务提供商提升物理恢复能力，停机仍可能源于数字和流程层面。云平台是复杂堆栈，增加交互点，使错误易波及其他层，如今停机比十年前更意外。传统数据中心停机原因明显，云环境中触发因素多样，是复杂性管理的失败。报告中变更管理和配置错误论述挑战常见假设，规模既能放大优势也能放大劣势，大型云服务提供商流程失败影响更广泛。Uptime分析还表明，自动化未消除人为因素，2025年因人为未遵循程序导致的停机比例较2024年上升10个百分点，58%与人为错误相关的停机是员工未遵循既定程序造成的。自动化效果取决于运营模式，人为错误多是流程等设计缺陷，用户将工作负载迁移到云后仍会受停机业务影响，共享责任模式适用于恢复能力规划。

优化变更管理

Uptime数据表明，云服务提供商需将运营规范作为首要设计要求，从优化变更管理做起。高风险变更应严格测试、逐步部署并配备强大回滚机制，还要更好绘制依赖关系图。云服务提供商还需提升程序质量，未遵循程序导致停机事件增多，完善操作手册等对提升恢复能力日益重要。可见性也是关键问题，基于软件的分布式恢复工具带来新风险，云服务提供商需更透明、快速的事件诊断。

考虑停机因素进行设计

Uptime 2024年分析显示，54%受访者称最近一次重大停机损失超10万美元，20%称超100万美元，停机成本高。用户评估云恢复能力不应仅依据正常运行时间承诺，而应从故障处理能力角度评估，这不仅是技术问题，更是业务问题。Uptime数据传达核心信息：停机问题对云服务提供商和用户愈发严重，云服务下一阶段改进聚焦构建更易理解、安全变更和规范运营的系统。

查看全文

http://www.rkmt.cn/news/1535330.html