智能体应用实践：自动生成日志范化规则(智能体育与运动训练)|科技 |数据 |范化 |规则 |字段 |系统

一、前言

在网络安全运维领域，日志数据是威胁检测、行为分析及事件溯源的关键所在。日志数据大多为非结构化、半结构化形式，不同厂家、不同类型的设备日志数据格式迥异，甚至不同版本的设备日志也会存在差异。像日志审计、态势感知等SIEM类产品，普遍都需要根据日志范化规则对日志进行范化解析，将多源异构数据统一格式和字段，然后再进行日志挖掘分析。

传统的日志范化规则一般都由人工进行适配，是一个耗时耗力的工作。现在大语言模型的能力获得大家普遍认可，本文基于大语言模型构建智能体应用，可根据日志规范文档和日志样例，自动生成日志范化规则。

文章内容包括：

1）梳理了传统的人工处理过程，分析了人工处理的痛点问题；

2）设计并实现了智能体应用，实现自动化生成日志范化规则；

3）总结了智能体应用开发过程中的实践经验。

二、人工处理流程

1. 处理流程

传统的人工处理流程如下：

久久小常识(www.99xcs.com)™

1）样例提取

阅读各类日志源（如网络设备、服务器、安全设备等）的官方技术文档，系统整理目标日志的字段结构、格式规范及典型样例，明确日志中关键信息的分布特征与表达形式，为后续规则编写提供基础参照。

2）正则表达式适配

基于梳理的日志格式，研发人员手动构建提取正则表达式规则，通过定义字段边界、匹配模式等，从非结构化/半结构化日志文本中精准分离出IP地址、时间戳、事件类型、状态码等关键字段，此环节需反复调试以确保字段提取的正确性、完整性。

3）字段绑定配置

关联系统预定义字段，对照不同日志源的技术文档与审计系统的标准化字段字典，人工完成差异化字段的映射匹配 —— 例如将“device_ip”、“src_ip”、“source_address”等不同日志源中的同类字段，统一映射为审计系统通用的“source_ip”字段，保障跨源日志字段含义的一致性。

4）值映射关系配置

通过定义映射关系，将原始值映射为新值，赋予原始值业务语义。针对日志中以编码形式存在的字段值（如状态码“0”、“1”、事件等级“1-5”等），参考文档说明手动配置语义转换规则，建立“编码 - 语义” 对应关系（如“0→正常”、“1→异常”、“5→紧急”），实现日志数据的可读性与标准化。

5）规则验证

使用样例发送相应日志验证编写的日志范化规则是否正确。针对每条编写的范化规则，通过输入测试日志样例、校验输出结构化数据的准确性等方式完成规则验证，若存在字段缺失、语义错误等问题，则需返回前序环节重新调整。

2. 痛点问题

由人工来生成日志范化规则，存在3个痛点问题：

1）效率较低

一个日志源的日志一般有几十种格式，范化规则适配需覆盖“梳理-编写-映射-配置-验证”全流程，操作周期至少需要一周时间。

2）准确性差

编写正则表达式是一个细致活，很容易因人工疏忽出现边界条件遗漏（如未考虑特殊字符、字段长度变化）、匹配逻辑偏差等问题，导致字段提取不完整或错误；跨源字段映射与值语义转换环节，也可能因文档理解偏差、人工操作失误引发标准化不一致。

3）维护困难

当日志源发生格式变更（如设备固件升级导致日志字段新增 / 删除、厂商更新日志编码规范）时，需对原有范化规则进行全量排查与重新编写，同时同步更新日志源元信息，维护工作量大且易出现规则版本混乱，进一步增加运维成本。

三、智能体应用

1. 目标任务

我们的工作目标是基于大语言模型，通过构建智能体应用实现日志范化规则的智能编写，解决上述提到的痛点问题。

参考人工处理流程，智能体应用要自动生成日志范化规则，任务分解如下：

1) 建立日志范化知识库，内容包括数据库中已有的日志样例和范化规则，各个设备日志的样例说明文档等。

2) 大模型根据日志的《样例说明文档》，结合日志范化知识库的样例，为新的日志生成日志范化规则。

3) 根据word或pdf格式的《样例说明文档》，提取出统一的标准格式Excel样例文档field.xls。

4) 智能体调用大模型对field.xls文档中的字段进行校验验证，确认字段及其映射关系，实现日志字段与系统预置字段的自动匹配。

5) 智能体综合前面生成的日志范化正则表达式、日志样例和字段映射，模拟完成全部范化流程，验证范化规则的正确性。

2. 系统架构

智能体应用的系统架构图如下所示：

久久小常识(www.99xcs.com)™

架构说明：

交互应用层：用户与系统交互的入口，用于操作发起（如提交日志处理任务）和结果展示（如查看日志范化规则生成结果）。

核心服务层：SpringBoot服务作为核心，一方面对外暴露标准化接口供前端调用，另一方面承担与数据库的交互工作，负责数据的持久化存储与查询。

数据存储层：数据库用于存储系统运行所需的各类数据，如系统配置信息、生成的规则数据、日志相关信息等。

智能化数据处理层：Python 模块是智能化和数据处理的核心载体。其中，LangChain 框架深度对接大模型服务，配合提示词工程，让大模型完成日志文档语义解析、正则表达式生成、字段映射裁定等自然语言处理任务；pandas 库则专注于数据层面的操作，实现数据清洗以及字段规则映射关系的模板化构建。

范化知识库：将范化策略相关的历史日志和正则表达式模板、预置字段定义、映射表等作为外部检索源供智能体调用。

大模型服务层：提供底层的自然语言处理的 AI 能力，为 Python 模块中的 LangChain 框架提供支撑，是实现智能化任务的核心能力来源。

3. 处理流程

智能体内部处理流程图：

久久小常识(www.99xcs.com)™

处理流程说明：

智能化日志范化规则生成需历经指定数据源、文档处理、生成正则表达式、字段及映射处理、规则生成及验证五大核心环节，各环节逻辑与交互如下：

1）指定数据源

流程起始于明确日志来源，先选定待处理的日志数据源，再基于这些数据源构建或更新知识库，为后续日志解析、规则生成提供知识支撑。

2）文档处理

对选定数据源中的日志文档开展处理：

文档解析：系统通过Python提供的数据处理能力和与大模型的交互能力，对格式混乱的原始文档进行处理，将各类格式（如文本、表格等）的日志文档解析为可进一步处理的形式。

提取和清洗数据：从解析后的文档中提取关键日志数据，并进行清洗操作，去除冗余、错误或无效信息。

生成标准化文件：把清洗后的数据整理生成标准化的文件（如log.txt等），使其格式统一，便于后续环节使用。

3）生成正则表达式

以标准化文件（如log.txt）为输入，依托 RAG 知识库检索相关知识：

RAG 知识库检索：从知识库中检索与当前日志数据匹配的知识内容，为正则表达式生成提供依据。

生成正则表达式：基于检索到的知识，生成用于提取日志字段的正则表达式。

验证正则：对生成的正则表达式进行验证，检查其是否能准确提取目标字段。若验证失败，流程会回退到 “建立知识库” 环节，更新知识库后重新开展文档处理及后续操作；若验证成功，则进入后续环节。

4）字段及映射

针对字段相关信息（以fields.xls等文件为输入），同样利用 RAG 知识库检索：

RAG 知识库检索：检索与字段定义、映射规则相关的知识。

生成字段及映射：依据检索结果，生成日志字段及其与标准化字段的映射关系。

歧义判定：判断生成的字段及映射是否存在歧义。若存在歧义，流程回退到 “建立知识库” 环节，更新知识库后重复文档处理等流程；若不存在歧义，则推进到下一步。

5）规则生成及验证

整合通过验证的正则表达式与无歧义的字段及映射关系：

生成范化规则：生成用于日志范化的规则。

验证规则：对范化规则进行验证，确认其能否准确将非结构化或半结构化日志转化为结构化形式。若验证失败，流程回退到 “建立知识库” 环节，更新知识库后重新执行各环节；若验证成功，会更新知识库，整个日志范化流程结束。

4. 核心优势

使用智能体完成自动生成日志范化规则，突破人工处理瓶颈，优势显著：

1）效率跃升

无需人工梳理文档，系统10分钟内可自动解析日志源文档建模，分钟级生成正则提取、字段映射及语义转换规则。日志适配远超人工处理的效率。

2）质量提升

大模型能识别字段边界特征，正则提取准确率超98%，避免人工漏写边界的问题；内置统一字典，自动实现异构字段标准化映射，搭配自动化测试纠错，减少人工理解偏差导致的错误。

3）成本降低

无需专业运维人员，普通人员上传文档即可操作；日志源格式变更时，系统自动增量更新规则，还能通过版本管理减少规则混乱。整体人力成本下降60%以上。

四、经验总结

智能体应用是大语言模型、RAG、提示词工程和工作流的有机结合，充分利用各方优势，可实现知识引导下的精准语义理解、自动化规则生成与闭环式质量验证，极大提升了日志结构化处理的效率与可靠性。

本次智能体应用实践的重点经验总结如下：

1）提示词工程激发大模型能力

通过领域化的提示词工程能够充分利用大语言模型的能力，准确理解日志文档中的字段描述、示例格式及语义约束，自动生成正则表达式、判定字段映射关系、识别值映射逻辑，降低了对人工专业知识的依赖，实现了自然语言到机器可执行规则的高效转换。

下方对比了专业提示词和不专业提示词生成的效果。

专业提示词及其效果

简单提示词及其效果

2）RAG增强领域知识

为克服大模型在处理企业特定知识时可能出现的“幻觉”与时效性问题，系统引入RAG架构，将内部知识库（包括预置字段定义、映射表、历史日志和正则表达式模板等）作为外部检索源。在处理用户输入时，系统首先从向量化知识库中检索，找到数据库中最相似的示例日志作为参考，再将其注入生成流程，确保所生成的正则表达式和映射建议严格符合企业内部规范，有效提升输出结果的准确性与专业性。

久久小常识(www.99xcs.com)™

3）智能体协同校验提升输出质量

系统采用多智能体协作机制，在处理正则表达式生成时，将整体任务分解为理解、生成、裁判等子环节，由专门智能体分工完成。生成智能体负责初步规则构建，裁判智能体则对其输出进行验证与修正，通过模拟人工审核流程实现生成–评估–调整的闭环优化。该架构显著增强系统的容错与持续优化能力，既可批量自动处理，也可在关键决策点引入人工干预，平衡自动化水平与处理可靠性。