2023-07-11 11:25:29 天极网
随着物流行业规模快速增长,面对海量C端用户及行业客户,如何提供高效、可靠、安全的物流IT服务,提升物流服务差异化竞争力,是包括顺丰在内的很多头部物流企业的探索和实践的方向。
7月8日,华为开发者大会2023 ( Cloud )在广东东莞华为溪流背坡村正式召开,顺丰科技运维专家金可印先生受邀出席大会,在确定性运维专题论坛上围绕《顺丰科技确定性运维实践》进行主题分享,与全球开发者一起碰撞出新的火花与灵感,探索新的创新方向和可能。
顺丰科技快递+业务运维架构(1+1+1):1个底座,1套体系,1套能力,保障业务高可用
在应对多行业个性化物流需求时,顺丰智慧物流通过构建“1+1+1”运维架构:一个混合云底座,一套保障体系,一套稳定性能力,并结合华为云实践经验,构建确定性运维能力,做到故障的可防、可控,保障系统高可用,支撑业务快速发展。
一个底座:构建统一云底座,通过云上DevOps、应用云原生改造、IT治理,实现业务敏捷,快速交付
为满足业务敏捷性和时效性的需求,顺丰科技和华为云联合创新,基于华为云CodeArts,顺丰科技实现了云上敏捷 DevOps开发,覆盖软件开发全流程,从需求规划-迭代管理-代码托管-CICD流水线-测试,应用上线效率提升了3倍,发布成功率达99.5%,线上漏洞数减少29%。顺丰科技与华为云合作实现了100多套业务系统云原生改造和全面上云,同时构建了云上IT治理体系覆盖组织管理、项目管理、资源管理等八大方向,更好地匹配业务发展需要。
一套体系:系统保障体系建设,实现故障可防可控
在变更风险可控上,顺丰通过通过自动化、可灰度、可快速回退来控制变更的风险。变更的自动化可以带来变更效率的提升,并且降低人为操作带来的风险,保障自动化引起故障的爆炸半径,确保当自动化程序出错时,影响控制在可控的范围之内。
在可观测性方面,结合华为云AOM、CES、APM、LTS、CES等云监控服务,顺丰从用户层、业务层、应用层、基础资源层打造立体化的监控体系,可以实时监控系统各项指标,更好地监控和检测系统的运行情况。通过全面提升IT系统的可观测性,支持复杂故障快速排查定位,并实现网络运维从被动响应到主动预防,将有效保证用户网络的业务连续和稳定运行。
同时在一些重要节点,为确保故障发生后最快地恢复业务,顺丰科技构建了应急处置体系,在“双11”、“618”等重要电商购物节通过重大事件保障来保障系统稳定。
一套能力:系统稳定性能力构建,实现应用高可用
在面对海量B端客户服务,顺丰科技在华为云上构建跨region的多活高可用架构,从使多活流量接入、多活流量业务改造、多活区域监控得到全方位的业务故障切换及容灾备份能力。结合架构健康度、工程能力和韧性健康度,确保不同地点的物理系统能够提供连续的业务稳定持续在线,实现RPO指标达到秒级、RTO<30分钟,业务稳定性大幅度提升。
顺丰科技基于AIOps规划——将运维智能化、“确定性”化
金可印先生表示,顺丰智慧快递体系在确定性运维、云原生技术等领域将继续探索AIOps方面的全新应用,通过AIOps,实现更快的告警事件响应、专注打造更加一体化的“统一运维平台”、更加自动化的告警处置,围绕人工智能技术来对智慧快递中的繁杂的运维工作自动化处理,解放生产力,以专注创新和创造更好的运维工具产品以提高告警的快速响应能力,进而为最终用户提供更好的产品和服务体验!
未来,顺丰科技智慧快递业务将更加专注于AI技术在运维领域的探索和应用。在运维领域中,去探索一些场景的匹配、应用和落地,在这些场景中进一步降本提质增效,让运维部门在商业链条中发挥更大的价值,降低企业的IT成本,提升整体运维能力,持续建立一个高效、平稳、安全的运维系统平台,支撑业务发展、转型和创新。