当前位置: 首页 > news >正文

无监督通用流数据异常检测新方法SEAD

在当今许多工业和在线应用中,实时识别数据流中的异常(罕见的、意外的事件)至关重要。异常可能表明制造缺陷、系统故障、安全漏洞或其他重要事件。典型的基于机器学习的异常检测系统以监督方式使用标记样本进行训练。但在许多在线环境中,数据极其多样化且其分布不断变化,以至于收集和标记数据成本高昂。

此外,没有单一的异常检测(AD)模型在所有数据类型上都表现最佳。例如,某些AD模型对一类客户有效,而其他模型则对另一类客户有效。但对于给定的客户,事先并不清楚应部署哪个模型,因为客户的工作负载经常随时间变化,因此性能最佳的AD模型也随之变化。

在一篇将于2025年国际机器学习大会(ICML)上发表的论文中,我们尝试用我们称为SEAD(流数据异常检测集成)的方法来解决这些问题。SEAD使用一组异常检测模型的集成,因此它总能针对每种数据类型使用最佳模型,并且它以无监督的方式运行,因此在训练期间不需要标记的异常数据。它在在线环境中高效工作,实时处理流入的数据,并能动态适应数据的变化。

为了评估SEAD,我们将其与三个先前的异常检测模型(每个模型有四种超参数设置)以及一个基于规则的方法进行了比较,共计13个基线。在15项不同的任务中,SEAD取得了最高的平均排名(5.07)和最低的方差(6.64)。

奖励“沉默”

SEAD背后的基本见解是异常是罕见的。因此,SEAD为集成中持续产生较低异常分数的模型(或“基检测器”)分配更高的权重。由于不同的基检测器使用不同的评分系统,SEAD通过根据历史分数的分布将它们分配到不同的分位数来标准化这些分数。

为了计算权重,我们使用了乘法权重更新(MWU)机制,这是专家系统中的一种标准方法。使用MWU时,每个基检测器都被初始化一个起始权重。在每一轮结束时,每个基检测器的新权重是其旧权重与学习率乘以该轮输出的标准化异常分数的负指数之积。

所有基检测器以这种方式更新后,它们的权重被归一化,使其总和为1。通过这个过程,持续输出较大分数的检测器将开始获得较低的权重。我们工作的技术洞察是将这一最初为监督环境提出的经典MWU思想,应用于异常检测的无监督环境。

在模型评估期间,我们能够看到算法根据输入数据重新为基检测器分配权重。在一个数据集上,SEAD为两个不同的模型分配了高权重,这两个模型在涉及真正异常数据的测试阶段都持续识别出异常。然而,在该阶段之后,在干净数据上,其中一个模型继续触发警报,SEAD迅速降低了它的权重。

为了进一步研究SEAD适当加权模型的能力,我们在集成中的13个模型之外,增加了13个仅随机生成分数的额外算法。在我们的测试集上,SEAD的准确率仅下降了0.88%,这表明我们的更新算法在快速剔除不可靠模型方面做得很好。

计算效率

像SEAD这样的集成方法的一个缺点是同时运行多个模型会产生计算开销。为了解决这个问题,我们试验了一种名为SEAD++的方法,该方法以与其权重成比例的概率随机抽样集成模型的一个子集。相对于原始SEAD,这带来了大约两倍的加速,而准确性损失极小。因此,在计算资源有限的使用场景中,SEAD++是一个有前景的替代方案。

SEAD代表了流数据异常检测领域的重大进步。通过实时智能地从候选池中选择性能最佳的模型,它确保了可靠且高效的异常检测。其无监督、在线的特性,结合其适应性,使其成为适用于多种应用的宝贵工具,为流环境中的异常检测树立了新标准。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.rkmt.cn/news/83540.html

相关文章:

  • 数论基础学习笔记
  • 喷砂机厂家排名推荐!2025热门喷砂机厂家实力榜单汇总 - 栗子测评
  • AI狂飙时代:我们该学什么,未来在哪?
  • 深圳视频推广哪家好?当然选深圳市万创科技有限公司 - 栗子测评
  • 2025线上少儿编程哪个机构好?高口碑线上少儿编程培训推荐 - 栗子测评
  • 短视频推广公司哪家好?优质的短视频推广公司推荐 - 栗子测评
  • GEO公司哪家好? 2025 GEO公司测评 - 栗子测评
  • 2025年COD消解仪行业十大品牌,行业优秀企业行业品牌排名公司推荐榜 - 品牌推荐大师1
  • EFT/B 快速脉冲群整改案例服务商推荐 - 栗子测评
  • 实用指南:聊聊关于hive“中文乱码”问题
  • 哪些厂家做自动滴定仪/cod分析仪,哪些企业生产自动滴定仪/cod分析仪,哪个厂家/企业定制 - 品牌推荐大师1
  • 必看!2025年高质量高倍率应急启动电源厂家推荐榜 - 讯息观点
  • 12月10日总结 - 作业----
  • 别再当韭菜充会员了:这 5个免费神器好用到哭,直接干翻同类付费版
  • 2025杭州导演艺考机构哪家靠谱?杭州印象艺考好吗? - 栗子测评
  • 详细介绍:硅基计划6.0 柒 JavaEE 浅谈JVMGC垃圾回收
  • 2025年微孔板离心机国内知名厂家有哪些厂家生产厂家推荐品牌推荐,微孔板离心机96孔板生产厂家推荐 - 品牌推荐大师1
  • laya列表时计算具体体子项是列表中第几个
  • MySQL 性能和变量调整 - 详解
  • 2025年12月工业气体报警器十大生产厂家推荐,谁家实力强?哪家质量好?哪个牌子好? - 品牌推荐大师
  • 2025 最新高山杜鹃鲜花基地TOP5 评测!聚焦国内云南等地优质鲜花厂家,科技赋能+品种创新权威榜单发布,云南花卉产业标杆引领行业升级 - 全局中转站
  • 【转载】Qt中QStyledItemDelegate的使用(二)
  • 2025年国内离心机靠谱厂家推荐,国内离心机十大品牌,行业十大厂家,国内离心机生产商推荐 - 品牌推荐大师1
  • nginx rewrite用法
  • 2025年国产高速/冷冻/低速离心机供应商源头实力优质知名本地生产厂家推荐 - 品牌推荐大师1
  • 2025年冷冻离心机品牌TOP6:优质设备选购指南 - 品牌推荐大师1
  • 2025-2026年中国车辆仓储管理服务平台综合评估报告 - 资讯焦点
  • 切换Rust版本
  • 2025年12月内容审核公司哪家靠谱?优质机构深度解读,智能治理时代的合规之选 - AIEO
  • 当代体系化国学传播奠基人叶无为(字号零) 为国学新时代传承与发展开辟新道路 - 资讯焦点