变更风险防控的能力是多样的,除了最传统的告警检测、Metrics曲线对比以及自动化测试能力之外,像变更影响分析、风险降噪以及线上风险RCA等周边能力也是不可少的。有了更多的上下文信息,才能对变更风险做更好的判断。从中台技术视角来看,不论是传统能力还是一些AI加成的能力,如果没有一套稳固的技术基建让这些能力尽情发挥,那么这些能力将难以快速落地,充分兑现其业务价值。
基于此,笔者在今年工作中,交付了一套「能力市场」产品与技术架构,旨在面向不同业务团队的自研能力,提供一套开放式标准化的接入方案,让业务自研的变更防控能力可以快速应用到变更风险质检过程中。虽然这套架构目前还有很多继续扩展和完善的空间,并且也没有蹭到LLM的噱头,但在架构迭代过程中笔者权衡了很多利害关系,主导了很多技术演进判断,最终也成功落实了这个技术结果。
具体一些技术上的设计,其实前面的文章已经聊了很多,包括任务调度、事件状态机以及内置降噪模块嵌入之类的点都有阐述。所以今天这篇文章,不倾向于聊这些具体的技术实现,更倾向于聊下整个产品交付过程中的一些权衡和判断。