一、前言在网络安全运维领域,日志数据是威胁检测、行为分析及事件溯源的关键所在。日志数据大多为非结构化、半结构化形式,不同厂家、不同类型的设备日志数据格式迥异,甚至不同版本的设备日志也会存在差异。像日志审计、态势感知等SIEM类产品,普遍都需要根据日志范化规则对日志进行范化解析,将多源异构数据统一格式和字段,然后再进行日志挖掘分析。
传统的日志范化规则一般都由人工进行适配,是一个耗时耗力的工作。现在大语言模型的能力获得大家普遍认可,本文基于大语言模型构建智能体应用,可根据日志规范文档和日志样例,自动生成日志范化规则。
文章内容包括:
1)梳理了传统的人工处理过程,分析了人工处理的痛点问题;
2)设计并实现了智能体应用,实现自动化生成日志范化规则;
3)总结了智能体应用开发过程中的实践经验。
二、人工处理流程1. 处理流程
传统的人工处理流程如下:
1)样例提取
阅读各类日志源(如网络设备、服务器、安全设备等)的官方技术文档,系统整理目标日志的字段结构、格式规范及典型样例,明确日志中关键信息的分布特征与表达形式,为后续规则编写提供基础参照。
2)正则表达式适配
基于梳理的日志格式,研发人员手动构建提取正则表达式规则,通过定义字段边界、匹配模式等,从非结构化/半结构化日志文本中精准分离出IP地址、时间戳、事件类型、状态码等关键字段,此环节需反复调试以确保字段提取的正确性、完整性。
3)字段绑定配置
关联系统预定义字段,对照不同日志源的技术文档与审计系统的标准化字段字典,人工完成差异化字段的映射匹配 —— 例如将“device_ip”、“src_ip”、“source_address”等不同日志源中的同类字段,统一映射为审计系统通用的“source_ip”字段,保障跨源日志字段含义的一致性。
4)值映射关系配置
通过定义映射关系,将原始值映射为新值,赋予原始值业务语义。针对日志中以编码形式存在的字段值(如状态码“0”、“1”、事件等级“1-5”等),参考文档说明手动配置语义转换规则,建立“编码 - 语义” 对应关系(如“0→正常”、“1→异常”、“5→紧急”),实现日志数据的可读性与标准化。
5)规则验证
使用样例发送相应日志验证编写的日志范化规则是否正确。针对每条编写的范化规则,通过输入测试日志样例、校验输出结构化数据的准确性等方式完成规则验证,若存在字段缺失、语义错误等问题,则需返回前序环节重新调整。
2. 痛点问题
由人工来生成日志范化规则,存在3个痛点问题:
1)效率较低
一个日志源的日志一般有几十种格式,范化规则适配需覆盖“梳理-编写-映射-配置-验证”全流程,操作周期至少需要一周时间。
2)准确性差
编写正则表达式是一个细致活,很容易因人工疏忽出现边界条件遗漏(如未考虑特殊字符、字段长度变化)、匹配逻辑偏差等问题,导致字段提取不完整或错误;跨源字段映射与值语义转换环节,也可能因文档理解偏差、人工操作失误引发标准化不一致。
3)维护困难
当日志源发生格式变更(如设备固件升级导致日志字段新增 / 删除、厂商更新日志编码规范)时,需对原有范化规则进行全量排查与重新编写,同时同步更新日志源元信息,维护工作量大且易出现规则版本混乱,进一步增加运维成本。
三、智能体应用1. 目标任务
我们的工作目标是基于大语言模型,通过构建智能体应用实现日志范化规则的智能编写,解决上述提到的痛点问题。
参考人工处理流程,智能体应用要自动生成日志范化规则,任务分解如下:
1) 建立日志范化知识库,内容包括数据库中已有的日志样例和范化规则,各个设备日志的样例说明文档等。
2) 大模型根据日志的《样例说明文档》,结合日志范化知识库的样例,为新的日志生成日志范化规则。
3) 根据word或pdf格式的《样例说明文档》,提取出统一的标准格式Excel样例文档field.xls。
4) 智能体调用大模型对field.xls文档中的字段进行校验验证,确认字段及其映射关系,实现日志字段与系统预置字段的自动匹配。
5) 智能体综合前面生成的日志范化正则表达式、日志样例和字段映射,模拟完成全部范化流程,验证范化规则的正确性。
2. 系统架构
智能体应用的系统架构图如下所示:
架构说明:
交互应用层:用户与系统交互的入口,用于操作发起(如提交日志处理任务)和结果展示(如查看日志范化规则生成结果)。
核心服务层:SpringBoot服务作为核心,一方面对外暴露标准化接口供前端调用,另一方面承担与数据库的交互工作,负责数据的持久化存储与查询。
数据存储层:数据库用于存储系统运行所需的各类数据,如系统配置信息、生成的规则数据、日志相关信息等。
智能化数据处理层:Python 模块是智能化和数据处理的核心载体。其中,LangChain 框架深度对接大模型服务,配合提示词工程,让大模型完成日志文档语义解析、正则表达式生成、字段映射裁定等自然语言处理任务;pandas 库则专注于数据层面的操作,实现数据清洗以及字段规则映射关系的模板化构建。
范化知识库:将范化策略相关的历史日志和正则表达式模板、预置字段定义、映射表等作为外部检索源供智能体调用。
大模型服务层:提供底层的自然语言处理的 AI 能力,为 Python 模块中的 LangChain 框架提供支撑,是实现智能化任务的核心能力来源。
3. 处理流程
智能体内部处理流程图:
处理流程说明:
智能化日志范化规则生成需历经指定数据源、文档处理、生成正则表达式、字段及映射处理、规则生成及验证五大核心环节,各环节逻辑与交互如下:
1)指定数据源
流程起始于明确日志来源,先选定待处理的日志数据源,再基于这些数据源构建或更新知识库,为后续日志解析、规则生成提供知识支撑。
2)文档处理
对选定数据源中的日志文档开展处理:
文档解析:系统通过Python提供的数据处理能力和与大模型的交互能力,对格式混乱的原始文档进行处理,将各类格式(如文本、表格等)的日志文档解析为可进一步处理的形式。
提取和清洗数据:从解析后的文档中提取关键日志数据,并进行清洗操作,去除冗余、错误或无效信息。
生成标准化文件:把清洗后的数据整理生成标准化的文件(如log.txt等),使其格式统一,便于后续环节使用。
3)生成正则表达式
以标准化文件(如log.txt)为输入,依托 RAG 知识库检索相关知识:
RAG 知识库检索:从知识库中检索与当前日志数据匹配的知识内容,为正则表达式生成提供依据。
生成正则表达式:基于检索到的知识,生成用于提取日志字段的正则表达式。
验证正则:对生成的正则表达式进行验证,检查其是否能准确提取目标字段。若验证失败,流程会回退到 “建立知识库” 环节,更新知识库后重新开展文档处理及后续操作;若验证成功,则进入后续环节。
4)字段及映射
针对字段相关信息(以fields.xls等文件为输入),同样利用 RAG 知识库检索:
RAG 知识库检索:检索与字段定义、映射规则相关的知识。
生成字段及映射:依据检索结果,生成日志字段及其与标准化字段的映射关系。
歧义判定:判断生成的字段及映射是否存在歧义。若存在歧义,流程回退到 “建立知识库” 环节,更新知识库后重复文档处理等流程;若不存在歧义,则推进到下一步。
5)规则生成及验证
整合通过验证的正则表达式与无歧义的字段及映射关系:
生成范化规则:生成用于日志范化的规则。
验证规则:对范化规则进行验证,确认其能否准确将非结构化或半结构化日志转化为结构化形式。若验证失败,流程回退到 “建立知识库” 环节,更新知识库后重新执行各环节;若验证成功,会更新知识库,整个日志范化流程结束。
4. 核心优势
使用智能体完成自动生成日志范化规则,突破人工处理瓶颈,优势显著:
1)效率跃升
无需人工梳理文档,系统10分钟内可自动解析日志源文档建模,分钟级生成正则提取、字段映射及语义转换规则。日志适配远超人工处理的效率。
2)质量提升
大模型能识别字段边界特征,正则提取准确率超98%,避免人工漏写边界的问题;内置统一字典,自动实现异构字段标准化映射,搭配自动化测试纠错,减少人工理解偏差导致的错误。
3)成本降低
无需专业运维人员,普通人员上传文档即可操作;日志源格式变更时,系统自动增量更新规则,还能通过版本管理减少规则混乱。整体人力成本下降60%以上。
四、经验总结智能体应用是大语言模型、RAG、提示词工程和工作流的有机结合,充分利用各方优势,可实现知识引导下的精准语义理解、自动化规则生成与闭环式质量验证,极大提升了日志结构化处理的效率与可靠性。
本次智能体应用实践的重点经验总结如下:
1)提示词工程激发大模型能力
通过领域化的提示词工程能够充分利用大语言模型的能力,准确理解日志文档中的字段描述、示例格式及语义约束,自动生成正则表达式、判定字段映射关系、识别值映射逻辑,降低了对人工专业知识的依赖,实现了自然语言到机器可执行规则的高效转换。
下方对比了专业提示词和不专业提示词生成的效果。
专业提示词及其效果
简单提示词及其效果
2)RAG增强领域知识
为克服大模型在处理企业特定知识时可能出现的“幻觉”与时效性问题,系统引入RAG架构,将内部知识库(包括预置字段定义、映射表、历史日志和正则表达式模板等)作为外部检索源。在处理用户输入时,系统首先从向量化知识库中检索,找到数据库中最相似的示例日志作为参考,再将其注入生成流程,确保所生成的正则表达式和映射建议严格符合企业内部规范,有效提升输出结果的准确性与专业性。
3)智能体协同校验提升输出质量
系统采用多智能体协作机制,在处理正则表达式生成时,将整体任务分解为理解、生成、裁判等子环节,由专门智能体分工完成。生成智能体负责初步规则构建,裁判智能体则对其输出进行验证与修正,通过模拟人工审核流程实现生成–评估–调整的闭环优化。该架构显著增强系统的容错与持续优化能力,既可批量自动处理,也可在关键决策点引入人工干预,平衡自动化水平与处理可靠性。
传统日志范化规则编写依赖人工、效率低且易出错,本系统以 AI 技术为核心,设计实现了智能体处理方案。系统大幅降低对专业人工的依赖,提升规则生成准确性与效率,有效支持大规模、多来源日志快速范化,其可行性与有效性已在实际应用中验证,为网络安全运维提供可复用、可扩展的工程范式。
现阶段的大模型应用技术中,基础模型的能力已经很强,应优先考虑提示词工程和RAG知识库,并充分利用大模型进行自我反思、校验,可以很大程度上提升最后的输出质量。
未来我们将进一步优化智能体决策能力与自适应水平,推动智能体应用到其他安全领域,实现智能体驱动的安全运营。
)
)
)
(红霉素软膏可以涂在包皮上吗))
)
)
)
)
)
)
)
)
)
)
)
)