信通院发布首份《中国混沌工程调查报告》,京东云成典型案例

2021年11月,中国信通院发布国内首个《中国混沌工程调查报告》,基于混沌工程业界现状,探索并提升国内云业务系统稳定性。作为对外输出混沌工程能力的先行者,京东云加入信通院成立的国内首个混沌工程实验室,参与混沌工程标准编写,并贡献了混沌工程的最佳实践。

  今年首次开启“晚8点”模式的京东11.11,迎来持续脉冲式流量高峰,对系统在持续高压环境下的稳定性有极高要求。借助领先的混沌工程能力,京东云不仅以超高弹性应对海量并发,保障流量高峰的平稳顺滑,还推进技术备战常态化、自动化,减少25%的备战时间和人力投入。

  搞破坏,混沌工程的稳定之道

  “系统越复杂,越脆弱”。企业在数字化转型中拥抱云计算、大数据、AI等新技术的同时,容易出现系统架构复杂度拉升、调用链增长、依赖关系复杂等问题。混沌工程被认为是检验、增强系统稳定性的不二选择。

  混沌工程为揭示系统缺陷而进行破坏性试实验,提前探知系统风险,通过架构优化和运维模式改进来解决系统风险,真正建立系统的韧性架构,降低企业损失。

  在混沌工程的理论中,将正常的系统数据假设为“稳定状态”,参照真实环境的多类型事件注入故障,如服务器崩溃、硬盘故障、网络连接断开等,并直接面向生产环境的实际流量进行破坏性实验。通过“稳定状态”的变化来反驳假设,发现并修复问题。

  在实施过程中破坏系统稳定状态的难度越大,即可对系统稳定性树立更强的信心。一旦发现缺陷,就能定向优化改进,避免在系统规模化后缺陷被放大。

  不同于业界熟知的故障注入测试,混沌工程不仅制造故障来测试系统反馈,还基于不可预知性模拟各类异常场景,进行生产上各层次的流量切换演练。

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="信通院发布首份《中国混沌工程调查报告》,京东云成典型案例">


  自从Netflix开源ChaosMonkey,混沌工程在全球多家顶级科技企业的实践,充分验证其在稳定性领域的作用。伴随云服务逐渐成为基础设施,稳定性被不断强调,混沌工程正在凭借“搞破坏”的工程理念成为云服务的稳定之道。

  助力企业引入混沌工程,京东云推出稳定性主动管理系统云泰

  “平时多演练、战时少挨枪”。京东云在多年的京东618、京东11.11磨练中,成为混沌工程的领先实践者和受益者,从单业务场景故障到整机房断电宕机…..京东云完美通过各类超「变态」场景考验。

  基于京东体系多年积累的混沌工程能力,京东云沉淀出稳定性主动管理系统——云泰,对外输出可见、可查、可管、可控的稳定性解决方案,提供稳定性主动测算、故障注入与演练、全链路压测、红蓝对抗和基于“稳定性基线”的评分服务等核心功能。

  通过稳态监控功能,云泰可保持对核心资源、服务的数据观测,支持完成主动测算系统稳定性,从实时和周期性完成健康度、异常趋势及SLI可用性测算,到实时感知突发事件和异常事件,快速定位系统故障等日常需求,云泰系统都全面覆盖。

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="信通院发布首份《中国混沌工程调查报告》,京东云成典型案例">


  同时云泰系统的故障注入与演练功能,支持引入指定的演练对象后,在演练大厅选择故障类型、编排演练场景,定时执行故障演练,并通过对关联业务、基础资源等对象“稳定状态”的实时监控,快速完成故障定位,检验系统的稳定性能。

  相比手动演练易出现操作故障、不可重复执行、无历史记录等问题,云泰的演练平台不仅设有种类丰富的故障,可高效完成场景编排,还能自动、定时、重复执行,并结合实时监控、实时定位和完善的历史记录帮助全面探索系统稳定性。

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="信通院发布首份《中国混沌工程调查报告》,京东云成典型案例">


  针对传统性能测试经济成本高、技术难度大、测试周期长的痛点,云泰系统内置了全链路压测平台,压测集群支持百万级并发,且能按需、实时扩容,其高性能、低成本、可扩展和支持复杂场景的特性,可以为多个行业提供优质的性能测试服务,尤其是海量高并发、波峰波谷现象明显的电商、游戏等领域。

  全面输出,京东云服务产业数字化

  作为京东集团面向政企客户输出技术的核心平台,京东云致力于打造“更懂产业的云”,运用京东数智化实战中积累的技术能力,助力产业数字化升级。

  以战养战,混沌工程不仅在京东内部广泛应用,也在持续对外输出,推进提升产业数字化过程中的系统稳定性。

  以2021年服贸会为例,京东云再度作为官方技术服务商,提供数智化技术支持与运营服务保障,继助力打造全球闻名的“永不落幕服贸会”后,驱动展客商体验全面升级。服贸会开幕前,京东云正是基于混沌工程,在6个场景下对直播、2D、3D、官网、智能推荐和预约购票等多个子系统的部署情况进行故障模拟,完成破坏性演练工作,保障服贸会相关系统的稳定性和高可用。

  在云服务成为产业数字化基础设施的当下,作为最懂产业的云,京东云将继续积极参与混沌工程实验室项目,为普及混沌工程贡献有生力量,同时持续输出京东云的混沌工程成功经验,助力产业数字化过程中IT系统稳定性的持续提升。