【测试人生】建设变更风险防控平台的经验总结

不知不觉在变更风险防控领域投入了三年之久，从最早做数据类变更风险防控工程，到后续做变更风险平台架构能力，在取得些许成果的同时，也同样沉淀了很多关于变更风险防控平台的技术思考与判断。趁着阶段性收尾，今天就做个总集篇，重点针对建设变更风险防控平台的这段经历，梳理一遍核心经验。

本文主要讲述4个方面：（1）基础工程架构设计（2）质检任务执行设计（3）质检稳定性与效果优化（4）应对LLM时代的挑战。

基础工程架构设计

从架构设计来讲，蚂蚁以前开源的AlterShield可以借鉴，参考《【GitHub探索】蚂蚁变更管控平台AlterShield设计分析》一文了解，当然实际设计最好要结合自己企业内部的技术栈和习惯来定。

从概念关系上来讲，需要定义的基础概念包括变更场景和变更对象，其中变更场景可以拆分成变更渠道、变更类型和变更阶段。一次变更关联一个变更场景和一个变更对象，需要执行多条变更风险观测策略，设计上可以参考《【测试人生】一套灵活的变更风险观测策略匹配机制设计》一文了解。

从灵活扩展的角度来讲，一条策略关联一个能力的执行比较合适，对于如何集成多方检测能力，可以参考《【架构艺术】构建变更风险防控能力市场的一些经验》一文的设计思路。

在实际做变更观测过程中，需要获取很多关联的上下文数据，才能保证变更观测有更好的效果。所以需要有一套旁路的变更事件消费+变更元信息分析的流程，为变更观测提供足量的上下文。这套框架设计可以参考《【架构艺术】变更元信息分析框架设计》一文。

质检任务执行设计

质检任务的执行调度，可以参考以下几篇文章做技术设计：

《【架构艺术】变更风险观测的任务调度设计》
《【测试人生】变更风险观测的流程逻辑设计》
《【架构艺术】通过标准化事件解决变更检测能力的调度问题》

当然在某些特定的业务场景，需要根据变更场景或变更对象，动态注入质检策略。这类需求可以参考《【极客日常】后端任务动态注入执行策略的一种技术实现》一文做设计。

质检稳定性与效果优化

作为一个可靠的，服务于全公司的质检平台，后端稳定性治理是不可或缺的。可以参考《【架构艺术】治理后端稳定性的一些实战经验》一篇文章，来了解如何系统性治理平台的稳定性。

对于质检效果，包括拦截率和准确率等方面，需要做面向业务的定制优化，更多的动作会属于专项的范畴，可以参考《【极客日常】提升发布风险检查准确率的一些思路》一文了解一些思路。从平台基础架构的角度，则更关心架构设计能否支撑质检效果优化的需求，这部分可以参考《【架构艺术】变更风险防控架构嵌入决策降噪模块的方法》一文做了解。当然，除了技术优化动作，平台也需要提供必要的数据运营能力，可以参考《【测试人生】浅谈变更风险防控的数据运营》一文了解一些思路。

应对LLM时代的挑战

坦诚的说，如果通过古法编程手段做到以上三件事情，就已经意味着变更风险防控平台建设进入了深水区。LLMAgent虽然理论上能打平上面这些东西，但不是说就直接重做一遍，这样是纯粹为了技术而技术。所以怎么应对LLM时代的挑战，本质上一是要明确LLM带来的增量价值，二是要确保ROI使得LLM能充分发挥。

整体来讲，可以参考《【测试人生】LLMAgent在变更风险防控垂类应用的思考》一文，了解LLM相对容易做到但古法编程比较难做到的事情，比如变更上下文深度分析总结和风险告警的自动聚类，这个是古法编程不好描述的，但可以用LLMAgent来实现。实际的LLMAgent研发落地方面，可以参考《【测试人生】变更规则校验Agent研发的一些思路》一文，寻找更多的灵感。