不知不觉在变更风险防控领域投入了三年之久,从最早做数据类变更风险防控工程,到后续做变更风险平台架构能力,在取得些许成果的同时,也同样沉淀了很多关于变更风险防控平台的技术思考与判断。趁着阶段性收尾,今天就做个总集篇,重点针对建设变更风险防控平台的这段经历,梳理一遍核心经验。
本文主要讲述4个方面:(1)基础工程架构设计(2)质检任务执行设计(3)质检稳定性与效果优化(4)应对LLM时代的挑战。
不知不觉在变更风险防控领域投入了三年之久,从最早做数据类变更风险防控工程,到后续做变更风险平台架构能力,在取得些许成果的同时,也同样沉淀了很多关于变更风险防控平台的技术思考与判断。趁着阶段性收尾,今天就做个总集篇,重点针对建设变更风险防控平台的这段经历,梳理一遍核心经验。
本文主要讲述4个方面:(1)基础工程架构设计(2)质检任务执行设计(3)质检稳定性与效果优化(4)应对LLM时代的挑战。
在变更风险防控领域,规则校验和变更中观测一样,是必不可少的能力之一。面向配置类变更和SQL数据类变更,通过严格的静态规则校验可以拦截很多事故风险,保障配置或SQL发布后的安全。从变更风险防控平台的角度来说,一个规则校验系统(规则引擎),可以简单设计成多组变更场景到校验规则的映射,业务SRE角色可以编写较大业务域的通用规则,而业务研发可以编写特定业务域的专项规则,当一个变更发起时,多条规则就统一在这个系统里做执行,这样就能够实现通用的变更规则校验需求。
但是现在是2026年,是一个全民养虾的时代,以前花大力气编写的规则跟系统,不用Agent打平一遍,那怎么着都得out了。所以本文也基于这么个场景,在已有变更规则校验的标准业务流程基础上,怎么研发一个规则校验Agent,去讨论一些思路。
稳定性保障是后端架构演进这件事情上不可缺少的部分。对于不同业务来说,稳定性可能有不同的口径,治理策略或目标也因业务规模大小或服务场景而各有差异,但共性仍然是存在的,讨论起来也逃不过SLA、可用性或者Latency之类的名词。在先前笔者关于稳定性基础保障以及OOM问题排查相关的文章中,已经提到了许多重点稳定性问题的解决措施。所以今天这篇文章,就换一个视角,以一个宏观问题解决者的角度,来聊聊治理后端稳定性的一些实战经验。
LLMAgent应用研发在当下是一个非常热门的话题,目前一个典型的趋势是,各类垂类领域都在思考LLMAgent如何能够代替人力,为其业务场景赋能,一方面是常规提效,另一方面是深度挖掘CornerCase。恰巧笔者最近在做变更风险防控领域LLMAgent应用的技术调研,所以今天这篇博客,也简单分享一下调研来的一些思考。
主要分两个部分,第一部分是LLMAgent可以用在变更风险防控的什么环节,第二部分是系统化落地需要考虑做什么事情。
近期笔者在投入变更风险防控开放平台的额外功能开发,目的是希望设计一套更加灵活的变更风险观测策略匹配机制,能够在满足面向任意变更场景应用观测策略的同时,尽可能保证产品体验,让用户清晰地了解到自己配置的什么策略能够在什么情况的变更过程中生效。在先前的文章当中,有粗浅提到变更观测策略匹配的事情,但没有深入探究,并且笔者以前接手的项目,很多底层设计的技术债也难以偿还,要在以前实现的基础上再做重构也不是很现实了。
所以,趁着扩展新系统的机会,笔者重新思考了下变更风险观测策略匹配机制的事情,跟随这篇文章来抛砖引玉下自己的想法。
首先,还是一个根本问题,一条变更风险观测策略的粒度是怎样的?如果粒度太粗,那么从产品视角,很容易导致「所见非所得」的问题;如果粒度太细,那么用户配置起来也会相当麻烦。经评估,由单个检测能力执行的粒度代表一条策略,这样的形式相对合理,不仅方便产品层面做「所见即所得」的设计,而且实际执行过程中,也可以以原子化的形式做编排,从调度角度来讲也很容易扩展。
详细来讲,一条策略在设计上,需要关联以下几类概念:
去年年底一段时间,笔者参与了组织内部智能化平台项目研发攻坚,虽然主攻平台工程部分,但多少也了解了下目前AIGC可以应用到的一些业务场景,以及技术实践、项目管理的一些事情。在先前的文章里头,有浅要描述下AIGC+Web类项目的角色分工和配合。那今天这篇文章,就浅聊一下如果你即将深入此局,适应一个复杂的后端项目开发,有什么方法论是可以通用的。
主要是两个关键点:(1)理解产品及概念实体联系;(2)主动拆解目标各个击破。
2025年算是LLM增强产品井喷的一年,以笔者亲身经历的,不论是自动化测试平台还是云服务稳定性平台,都在已有平台基建的基础上,依靠LLM增强的AIGC能力,做了诸如XMind用例自动生成、用例步骤自主探索、RCA故障定位以及服务发布风险实时解读等有业务价值的能力。
要做出这样的产品,投入的研发人力也肯定不少,而在这个体系下,怎么分配不同的研发角色,既能让每个模块的同学专注自身能力研发,又可以形成有机结合让整个产品顺利运转起来,是产品架构迭代过程中时刻都要思考的重要问题。为此,这篇文章就简单聊下,如果要大力投入这类型的产品研发,可能需要哪些角色,以及其中可能存在配合是怎样的。
近期笔者因为参与LLM增强项目攻坚,对LLM工程相关的技术也希望有一定的了解,因此希望借这个机会,读一些文章充电,看看目前LLM智能化工程的一些研究趋势。在阅读了几篇文章之后,最终读者选定AgentFlow这个项目做代码实现分析。由于笔者在算法方面的涉猎实在不深,所以本文只是抛砖引玉,阐述上有什么不专业不严谨的地方,也辛苦大家指正。
AgentFlow主要解决现有LLM在进行工具增强推理时有可扩展和泛化能力差的问题,简单来说就是在线LLM-Agent服务缺乏在生产环境中RL(强化学习)的手段。所以AgentFlow提出了以下的解决方案,一是一套动态训练Planner的编排,另外一个是一套奖励目标训练算法Flow-GRPO。源码可以通过这个GitHub来下载,跑了一番看Agent编排的实现比较完整,但在线服务跟训练的部署执行会比较难搞,所以本文更倾向于对Agent编排做详细阐述。
Agent编排包含Planner、Executor、Verifier跟Generator四个角色,Planner会不断Rollout判断下一步要做什么,Executor执行ToolCall,Verifier判断当前问题是否解决,Generator负责整合Output。整个核心代码集中在Solver.solve,长这个样子:
作为国内表现上比较agentic的开发工具之一,trae项目开源了自家trae-agent开发工具,整体也有一段时间了。借着日常闲暇的机会,笔者计划研究下trae-agent的代码实现,看下这个本地AI开发辅助工具是如何运作的。
从开源项目的角度,trae-agent给的文档信息是比较充足的,但代码实现上只能说是MVP版本,只有一些基础功能。当然这个也可以理解,相信实际生产用的trae-agent会远比这个实现更加复杂,以及不可能所有人力都投入到开源项目的建设中。所以今天就简单看看这个项目的主流程。
在Game-Of-AutoTest系列的文章当中,曾经深入聊到如何做好游戏自动化测试的技术实践,包括用例编写和任务调度等多个方面。由于工作原因,笔者再一次需要了解自动化测试平台的整体架构,因此也借着这个机会,从更加宏观的角度,再聊一下自动化平台架构设计的一些通用要点。