4小时实现16次资源精准腾挪 京东云成功护航红包互动的背后

“扛住了!扛住了!赢了!”寸步不离紧盯数据大屏的京东备战团队转瞬间一片欢呼雀跃,伴随着零点二十分钟左右最后一轮红包互动的如约而至,京东首次“春晚征程”圆满落下帷幕。

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="4小时实现16次资源精准腾挪京东云成功护航红包互动的背后">


  除夕当天参与一线值守的京东云技术人员欢庆圆满完成任务

  相比过往入局者们争先恐后打响线上流量争夺的狙击战,京东这次可谓克服“流量+履约”的“难上加难”,不但从容应对了高达数亿峰值的极端并发流量洗礼;还有序肩负起全国“年货春运”中零售和物流等整体供应链履约,妥妥刷新春晚全球最复杂技术场景纪录,堪称绝绝子!

  回顾前期筹备的种种时刻,今年的春晚红包互动着实给京东出了一道不小的难题!“此过程中,京东技术体系需要支持红包互动及购物交易场景,两个场景差异性大,峰值频繁往返切换,技术挑战极大;另外除红包互动场景外正值年货节,京东技术体系还需要支持京东的交易、支付、客服、分拣、配送等众多业务场景,链路超长。每一个链路节点的增加,都大幅提升了项目技术系统的复杂度和保障难度。这座极具技术挑战的‘珠穆朗玛’不好攀登!”备战团队成员们纷纷表示。

  但令人惊叹的是,仅仅19天,在不增加计算资源且独立支持的情况下,超10000名技术人员基于京东云行云研发效能平台协同作战,凭借早已修炼多年的云原生数字基础设施以及历经多次大规模场景技术锤炼的混合多云操作系统云舰等技术,利用遍布全国的70多座数据中心,为世界级最大规模互动成功搭建了一个超高弹性、高效敏捷的数字底座,成功应对了史上最高网络互动流量高峰与最复杂应用场景。

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="4小时实现16次资源精准腾挪京东云成功护航红包互动的背后">


  奋战在一线的京东云技术人员

  4小时互动不断、累计互动量达691亿次、上万名技术人员高效协同、16次秒级精准腾挪、秒级资源顺畅切换……京东云凭啥能成?

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="4小时实现16次资源精准腾挪京东云成功护航红包互动的背后">


  “京东第一次!春晚红包互动,我们可是立了军令状!”

  “这是京东第一次独立支持春晚红包互动这么个大项目,一定要打个漂亮仗!“谈起容易做起来却非常难!京东红包项目组技术负责人介绍,“春晚互动项目不仅仅是一个极具挑战性的技术问题,更是一个多部门高效协作的问题,时间紧、任务急、挑战大、涉及人员复杂等问题都是必须要应对的。为此我们在短时间内专门拉通了数十个一级部门,超过一万名以上的研发人员联手作战,实现多个业务系统的有序对接和调优,让整个项目高效协同起来。”备战之初,京东就已形成了完善的备战体系架构:由备战总指挥统一部署,项目备战团队跟进,统一协调横跨零售、科技、物流等多个部门的所有研发团队。

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="4小时实现16次资源精准腾挪京东云成功护航红包互动的背后">


  京东云产品研发部工程师讨论春晚项目

  据悉京东技术体系有超3000名技术人员参与了项目的技术攻关与保障工作,除夕当天参与一线值守的技术保障人员就多达2000人。超万名京东人协同作战的背后,是跨度多达一个月的年货节、春晚红包互动等精彩时刻,更重要的是为全国消费者创造了极致体验并带动数十万商家、客户与合作伙伴共同分享了节日盛宴的喜庆祥和。

  用“变形金刚”的思维来应对这次的“难上加难”

  掐指一算,春晚红包互动已经迈入第七个年头,今年京东云在首次护航虎年春晚中完全告别通过单纯增加服务器资源来攻克高并发的传统操作,凭借更加高效敏捷的资源腾挪调度以及云原生基础设施、混合多云操作系统云舰等技术杀手锏,根据“战场”变化而快速“变身”满足需求,就像变形金刚一样。

  对此2022春晚项目IDC基础保障负责人、京东云基础设施研发部高级总监,负责京东云基础设施研发部高级总监常亮表示:“为了应对本次春晚互动,我们并没有单独准备额外的资源,一方面因为短期临时投入过大,与京东云长期追求的精细化研发资源管理理念相悖;另一方面由于疫情导致的全球供应链紧张,让增加资源的客观路径变得行不通。所以仅仅就是通过之前‘618’以及‘11.11’的资源,通过内部快速腾挪以及扩容,做到秒级调度近300万个容器、超1000万核算力资源在春晚互动以及年货春运两种模式中迅速切换,虽然困难很大但我们成功了。”

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="4小时实现16次资源精准腾挪京东云成功护航红包互动的背后">


  除夕值守的京东云技术人员进行春晚前的工作部署

  从拆借资源满足复杂需求过渡到提升系统架构的高效敏捷能力做到快速变阵来应对纷繁挑战,尤其是锻造提升大规模场景极端并发下的能力,在某种程度上代表着云厂商技术能力的持续性创新,这一次京东云借助春晚舞台可谓身体力行。

  从资源优化的角度深挖下去,我们知道,本次春晚红包互动的难点就在于“红包+消费”叠加带来的全链路复杂性,“如此高并发的流量下,过去在大促环节中使用的双活架构在应对挑战时显然后力不足,所以很重要的就是通过业务评估完成系统分级来达成资源的最优化调配。”基于此,项目筹备团队早早预想到并制定了分级标准(SABC)来完成资源的动态调整与更新。例如在春晚互动环节中,红包互动链路系统就为S级,反之其他则会酌情降级,这样一来就可确保在互动过程中高优先级的应用系统尽量多得到资源使用机会,做到“更少资源办大事儿”。

  当然在敏捷灵活的资源应对提升上,本次春晚红包互动项目照例亮出了京东云“当家王牌”,即强大的混合多云操作系统云舰。得益于京东云从内而发的云原生技术稳定支持,通过发挥其针对大规模异构基础设施的敏捷调度以及资源灵活平滑扩容等能力,确保全局资源编排和成本最优、系统运行最稳。尤其是内嵌其中的智能调度系统,利用了机器学习、深度学习智能算法,对应用资源使用情况进行预测来完成弹性优化;同时,超大规模离在线混部技术也在本次技术筹备中为化解长周期脉冲式流量洪峰实现了有限资源的充分利用,原来三台机器能解决的问题,这次只要一台就搞定了,让算力发挥出最大价值。

  谈及将“人算”做到极致来迎接“天算”的考验,这次备战项目团队也颇有心得。为了做到灵活敏捷的响应,团队在活动前就对可能发生的流量分布进行了预测。例如根据过往观看春晚并参与活动的多维数据,率先绘制了“流量地图”来提前预判地域流量差异,并进行资源的针对性部署。

  关于预测,春晚项目T-PaaS及中间件负责人张金柱做了一个形象生动的比喻:“如果将这次红包互动项目看作是让数以亿计的观众快速进入到某个场馆来观看比赛的话,中间件其实相当于场馆的各个通道。我们需要配合资源调度系统快速、合理地打开这些通道,承接涌入的人流,保证大家有序、可控地进入到自己的座位观看比赛,其实就是确保大家能够顺利参与到红包互动中来。对此我们会根据目前掌握的数据分析预判大流量可能出现的环节,并做好对应的资源部署与调整的同时,预判流量流转的路径以及走向,做好把控和引导及时响应资源需求来进行扩缩容,确保‘有限的资源用在刀刃上’以及快就一个字。”

  春晚互动以及保障方案的快速落地,除了在很大程度上体现了京东云积木化IT思维,更是多年来应对自身6.18和11.11的常态化备战经验。这次针对可能出现的意外情况,京东云首创“应急剧本”作为异常演练预案。“在备战过程中,通过多达7轮的压力测试,其中还包括公网压测以及断网演练等,反复练习预案的操作步骤并观察效果,同时还要考察系统上运行的应用的健康度,进而验证是否符合预期效果并不断调整,更好应对突发的业务异常和模块异常等情况,为互动保驾护航。”重保人员总结道。

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="4小时实现16次资源精准腾挪京东云成功护航红包互动的背后">


  奋战在一线的京东云技术人员

  如今的京东云可通过一站式安全、高效生产体系来助力研发进行全链路、全方位的架构升级和精细化资源管理,做到越来越多依靠系统来确保重大节点的稳定,而不是单纯依靠技术人力,这是打磨了两年的泰山项目的可贵经验,更是快速平稳应对特殊业务场景的能力修炼。

  洪峰叠加履约从单纯上云到更好用云

  记忆犹新的春晚流量洪峰背后,是庞大而复杂的世界级的供应链应用场景。众所周知,本次京东在支持春晚的同时还肩负起了支持全国“年货春运”中零售和物流等整体供应链履约的工作,涉及前端App平台、订单、结算、支付、搜索、推荐,到后端的仓储、配送、客服、售后等多种业务系统,可以说依靠多年在业务场景淬炼而成的“云链一体”高响应、高敏捷能力,成功唱响一曲:从单纯“上云”满足业务需求到“用好云”、提升创新效能的高歌,不仅仅展现了自身的硬核技术实力,更能够看做是中国云计算行业创新发展的一道剪影。

  长期以来,京东对供应链的全链路进行了应用创新,实现近1000万自营商品的世界级库存周转,全国超300座城市的分钟级送达;利用智能供应链超级自动化完成对商品全流程进行智能决策+自动采买,并采用“京慧”数字化供应链服务解决方案,为海量商家提供一体化供应链优化决策服务,这次更是携手更多实体企业在春节期间继续实现高质量增长。

  另外2022年作为京东连续第10年“春节也送货”:让全国30个省份、超过300个城市、近1500个区县的消费者,即使是在除夕、大年初一也可以正常下单收货,享受超过20万名京东物流小哥送货上门的春节物流服务,用“年货春运”充分满足商家与消费者在春节期间的服务需求。

  当然要实现“更快更好”的物流配送目标,确保订单的短时高效准确送达,平台智能订单分发系统、运力调控系统、顾客与商家双向数据的实时同步运算都面临着极大挑战,此时安全及稳定的云服务底座就显得格外重要。

  目前京东物流已实现全量上云,“跑”在云上的数据库根据预先估计好的数据量做好资源规划和分配,真正洪峰到来之时云数据库就会通过高可用架构、自动故障切换、弹性扩容机制等一系列数据库级别的技术手段,保证数据可备份,故障可切换,增量可扩容,从容应对流量高峰期间的数据压力,充分实现对京东“年货春运”春节24小时不打烊的全链路保障。

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="4小时实现16次资源精准腾挪京东云成功护航红包互动的背后">


  京东云支持京东连续第10年春节也送货

  “今年春晚对于支付端的挑战也是非常大的”,春晚项目支付端负责人表示:“今年除了原有的订单交易链路上的流量之外,在发奖、红包查阅、用户登录注册等多个链路均会受到流量洪峰的考验。”对此京东云自主产权的支付结算服务平台,充分利用动态规则拆分算法专利解决了海量数据对账问题,达成核心交易系统持续不间断能力超99.99%,具备极强的容灾能力及可观的吞吐量,成功应对支撑春晚峰值流量的同时为用户提供安全、稳定、便捷的红包互动体验。

  
500)this.width=500" align="center" hspace=10 vspace=10 alt="4小时实现16次资源精准腾挪京东云成功护航红包互动的背后">


  奋战在一线的京东云技术人员

  为保障广大消费者春节期间的用户体验,京东首个智能数字人客服芊言也正式上岗啦,致力提供有技术、有温度的客户服务体验;芊言自然交流、流畅互动的背后是京东云自主研发的京东智能客服言犀提供世界领先的多模态交互技术。春节期间芊言和其他“客服伙伴”将承载史上最高的SaaS服务流量洪峰,为用户提供7*24小时全链路场景智能化服务。最新数据显示,自年货节启动至春晚结束,京东智能客服言犀累计咨询服务量达5.5亿次,为16.5万商家提供超1亿次服务,陪伴全国人民舒心办年货,安心过大年。

  历经备战时间史上最短、互动活动史上最长、世界上规模最大的网络互动活动、全球最复杂场景的360度考验,对京东云来说,本次春晚红包互动除了应对极端且复杂场景的综合技术能力提升之外,更是从流量角逐到产业数字化的变革,从业务“上云”到“更用好云”的深化。