【极客日常】读2023美团技术年货的一些笔记

正直劳动节,翻了下2023年美团的技术年货,挑选了一些和变更风险防控和稳定性建设相关主题的文章做了下浅读。本文仅简单记一下阅读笔记。

总共选读了3篇文章,分别是《基于AI+数据驱动的慢查询索引推荐》、《代码变更风险可视化系统建设与实践》,以及《AIOps在美团的探索与实践——事件管理篇》。

第一篇是AI推荐慢查询索引。实现推荐主要的方式是,收集大量线上SQL的索引引用数据,作为训练集,再根据线上慢查询的实际情况,去推断补充哪一组索引比较合适。这个方案可以作为慢查询治理的一个环节,并且通过相似库表的索引分析,甚至在慢查询没有出现的情况下“治未病”,而不是等到慢查询实际出现后再做紧急修复。从这个角度来看是挺有价值的。

第二篇是代码风险可视化建设。实际阅读的时候,比起代码分析的技术,会更加关注这套可视化能力所赋能的场景。从变更风险防控角度,变更影响面分析一直是一类难点,这套方案则从代码工程类型、风险特征识别、可定制化风险、单服务/跨服务影响等层面做了多维度的分析,并且这些分析内容可以额外辅助到配置变更影响判断和接口自动化用例推荐上,整体来看可应用的场景比较广泛。

同时,在代码风险可读性方面,提供了上下游跳转和实时链路拓扑的试图,从CR的角度来说也是非常及时的,而不是等到变更上线的时候再给一个血缘分析的影响面视图。

第三篇是AIOps在美团的探索与实践,主要侧重于事件管理部分。变更事件是理解变更过程的核心信息来源,但存在数据复杂多样化、领域知识强等复杂的问题。从事件管理角度,美团给出了风险预防、故障发现、事件处理和事件运营等几个维度的能力。

在风险识别方面,主要依赖配置文本/结构合法性检查以及灰度&未变更&历史变更的ABDiff去探测指标异常。在故障发现和事件处理方面,主要通过异常链路拓展视图、相似事件推荐,帮助变更人及时看清线上问题,找到可借鉴的解决方案。在事件运营方面,则提供了一套复盘系统。整体来看,能够满足变更风险管理的基本诉求。

版权声明
本文为博客HiKariのTechLab原创文章,转载请标明出处,谢谢~~~