【测试人生】建设变更风险防控平台的经验总结

不知不觉在变更风险防控领域投入了三年之久,从最早做数据类变更风险防控工程,到后续做变更风险平台架构能力,在取得些许成果的同时,也同样沉淀了很多关于变更风险防控平台的技术思考与判断。趁着阶段性收尾,今天就做个总集篇,重点针对建设变更风险防控平台的这段经历,梳理一遍核心经验。

本文主要讲述4个方面:(1)基础工程架构设计(2)质检任务执行设计(3)质检稳定性与效果优化(4)应对LLM时代的挑战。

基础工程架构设计

从架构设计来讲,蚂蚁以前开源的AlterShield可以借鉴,参考《【GitHub探索】蚂蚁变更管控平台AlterShield设计分析》一文了解,当然实际设计最好要结合自己企业内部的技术栈和习惯来定。

从概念关系上来讲,需要定义的基础概念包括变更场景和变更对象,其中变更场景可以拆分成变更渠道、变更类型和变更阶段。一次变更关联一个变更场景和一个变更对象,需要执行多条变更风险观测策略,设计上可以参考《【测试人生】一套灵活的变更风险观测策略匹配机制设计》一文了解。

从灵活扩展的角度来讲,一条策略关联一个能力的执行比较合适,对于如何集成多方检测能力,可以参考《【架构艺术】构建变更风险防控能力市场的一些经验》一文的设计思路。

在实际做变更观测过程中,需要获取很多关联的上下文数据,才能保证变更观测有更好的效果。所以需要有一套旁路的变更事件消费+变更元信息分析的流程,为变更观测提供足量的上下文。这套框架设计可以参考《【架构艺术】变更元信息分析框架设计》一文。

质检任务执行设计

质检任务的执行调度,可以参考以下几篇文章做技术设计:

  • 《【架构艺术】变更风险观测的任务调度设计》
  • 《【测试人生】变更风险观测的流程逻辑设计》
  • 《【架构艺术】通过标准化事件解决变更检测能力的调度问题》

当然在某些特定的业务场景,需要根据变更场景或变更对象,动态注入质检策略。这类需求可以参考《【极客日常】后端任务动态注入执行策略的一种技术实现》一文做设计。

质检稳定性与效果优化

作为一个可靠的,服务于全公司的质检平台,后端稳定性治理是不可或缺的。可以参考《【架构艺术】治理后端稳定性的一些实战经验》一篇文章,来了解如何系统性治理平台的稳定性。

对于质检效果,包括拦截率和准确率等方面,需要做面向业务的定制优化,更多的动作会属于专项的范畴,可以参考《【极客日常】提升发布风险检查准确率的一些思路》一文了解一些思路。从平台基础架构的角度,则更关心架构设计能否支撑质检效果优化的需求,这部分可以参考 《【架构艺术】变更风险防控架构嵌入决策降噪模块的方法》一文做了解。当然,除了技术优化动作,平台也需要提供必要的数据运营能力,可以参考《【测试人生】浅谈变更风险防控的数据运营》一文了解一些思路。

应对LLM时代的挑战

坦诚的说,如果通过古法编程手段做到以上三件事情,就已经意味着变更风险防控平台建设进入了深水区。LLMAgent虽然理论上能打平上面这些东西,但不是说就直接重做一遍,这样是纯粹为了技术而技术。所以怎么应对LLM时代的挑战,本质上一是要明确LLM带来的增量价值,二是要确保ROI使得LLM能充分发挥。

整体来讲,可以参考《【测试人生】LLMAgent在变更风险防控垂类应用的思考》一文,了解LLM相对容易做到但古法编程比较难做到的事情,比如变更上下文深度分析总结和风险告警的自动聚类,这个是古法编程不好描述的,但可以用LLMAgent来实现。实际的LLMAgent研发落地方面,可以参考《【测试人生】变更规则校验Agent研发的一些思路》一文,寻找更多的灵感。

版权声明
本文为博客HiKariのTechLab原创文章,转载请标明出处,谢谢~~~