文章

深度学习在时间序列异常检测中的应用:分类、原理与论文导读

深度学习在时间序列异常检测中的应用:分类、原理与论文导读

1. 引言

1.1 为什么时间序列异常检测如此重要?

在当今数据驱动的世界中,时间序列数据无处不在:从工业传感器的毫秒级采样,到金融市场的逐笔交易,再到医疗设备的连续监护。在这些数据中, 异常往往意味着关键事件——可能是设备即将故障的预警信号、网络入侵的可疑行为、或是患者病情突变的征兆。

时间序列异常检测(Time Series Anomaly Detection, TSAD)的目标,就是在这些源源不断的数据流中,自动识别出偏离正常模式 的观测点或子序列。与静态数据的异常检测不同,TSAD 面临着独特的挑战:时间序列数据具有 temporal dependencies(时间依赖性) ,当前时刻的观测值与历史值密切相关,简单的阈值判断往往无法捕捉到复杂的异常模式。

1.2 TSAD 的独特性:与静态异常检测的区别

维度静态异常检测时间序列异常检测
数据特性独立同分布样本存在时间依赖性
异常形态孤立的异常点点异常、子序列异常、模式异常
上下文全局统计特性需考虑局部上下文和时序模式
检测难度相对较低需建模复杂的时序动态

1.3 单变量与多变量时间序列

时间序列数据根据变量维度可分为两类:

🔹 单变量时间序列(Univariate Time Series, UTS)

仅包含一个变量的时间序列,表示为有序序列:

\[X = (x_1, x_2, ..., x_t)\]

其中 $x_i$ 表示时刻 $i$ 的观测值。UTS 的分析相对简单,只需考虑时间维度的依赖关系。

🔹 多变量时间序列(Multivariate Time Series, MTS)

包含多个相互依赖的变量,表示为向量序列:

\[X = (X_1, X_2, ..., X_t) = ((x_1^1, x_1^2, ..., x_1^d), (x_2^1, x_2^2, ..., x_2^d), ..., (x_t^1, x_t^2, ..., x_t^d))\]

其中 $d$ 是变量维度数,$x_t^j$ 表示时刻 $t$ 第 $j$ 个变量的观测值。

MTS 的独特复杂性:

维度UTSMTS
依赖关系仅时间依赖时间依赖 + 变量间依赖
异常类型时序异常时序异常 + 跨维度异常
检测难度相对较低需建模复杂的时空耦合

MTS 中的变量间往往存在 spatial dependencies(空间依赖性),例如工业系统中温度与压力的相关性、服务器中 CPU 使用率与功耗的正相关性。当这些相关性被破坏时,即使单个变量正常,也可能发生跨维度异常

1.4 典型应用场景

领域检测目标异常含义
🏭 工业物联网传感器数据监测设备故障预警,避免停机损失
💰 金融风控交易行为分析欺诈交易识别,资金安全保护
🏥 医疗健康生理信号监护心律失常检测,生命安全保障
🖥️ 智能运维系统性能监控服务异常发现,用户体验保障
🔒 网络安全流量行为分析入侵攻击检测,信息安全防护

1.5 为什么需要深度学习?

传统的 TSAD 方法(统计检验、阈值判断、简单机器学习)在以下场景面临困境:

挑战说明
📊 高维度与复杂性现代系统产生的多变量时间序列维度高、变量间关系复杂,传统方法难以捕捉非线性依赖
⏱️ 多尺度模式异常可能在不同时间尺度(毫秒、小时、天)表现不同,手工设计特征难以覆盖
🔥 数据量爆炸物联网设备每天产生 TB 级数据,需要自动化、可扩展的检测方法
🏷️ 标签稀缺异常事件罕见且难以标注,监督学习方法往往不可行

深度学习凭借其强大的 特征学习能力非线性建模能力,能够自动从原始时间序列中学习复杂的时序模式和变量间关系,已成为 TSAD 领域的主流方法。

1.6 核心挑战

挑战描述影响
时间依赖性异常可能是连续子序列的异常模式,而非孤立点增加检测复杂性
📏 多尺度性异常可能在不同时间尺度表现不同单一模型难以捕捉所有模式
🔄 概念漂移正常行为的定义可能随时间变化模型需要持续适应
🏷️ 标签稀缺异常样本稀少且难以标注限制监督学习方法的应用
实时性要求许多场景需要毫秒级响应对模型推理速度提出高要求

2. 时间序列的异常类型

根据异常在时间序列中的表现形态,可以分为以下六类:

类型核心特征典型示例
🌍 全局异常与整个序列相比具有极端值客户某天进行了异常大额支付
📍 上下文异常在特定上下文中偏离预期凌晨3点的网站流量与白天相当
📅 季节性异常整体趋势正常,但周期性模式异常餐厅客流呈现异常的周内周期
📈 趋势异常数据发生永久性或长期趋势偏移新产品发布后销售额断崖式下跌
🎨 Shapelet 异常子序列的形状或模式与正常模式不同股市在特定事件后呈现的异常波动形态
🔗 跨维度异常多变量序列中变量间相关性被破坏CPU使用率与功耗的正相关性突然消失

配图建议 1:设计一张信息图,左侧展示时间轴,从上到下依次展示六种异常类型在时间序列上的表现(用红色高亮异常区域)。右侧展示多变量场景:两个子图展示 Metric 1 和 Metric 2 的时间序列,用箭头标注它们通常的相关关系,在某区域用红色标注相关性被破坏的部分。整体使用蓝色表示正常,红色表示异常。


3. 深度学习方法分类体系

根据学习策略,深度学习方法可分为五大类别:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
┌─────────────────────────────────────────────────────────────────────┐
│                    深度学习方法分类体系                                │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  ┌─────────────────┐        ┌─────────────────┐                     │
│  │   🔵 基于预测    │        │   🟢 基于重建    │                     │
│  │  (Forecasting)  │        │ (Reconstruction)│                     │
│  │                 │        │                 │                     │
│  │ 假设:正常可预测 │        │ 假设:异常难重建 │                     │
│  │ 分数:预测误差   │        │ 分数:重建误差   │                     │
│  └─────────────────┘        └─────────────────┘                     │
│                                                                     │
│  ┌─────────────────┐        ┌─────────────────┐                     │
│  │  🟡 基于分类     │        │  🟠 基于表示学习 │                     │
│  │ (Classification)│        │ (Representation)│                     │
│  │                 │        │                 │                     │
│  │ 假设:可学习边界 │        │ 假设:表示空间可分离│                   │
│  │ 方式:单类分类   │        │ 方式:对比学习   │                     │
│  └─────────────────┘        └─────────────────┘                     │
│                                                                     │
│              ┌─────────────────┐                                    │
│              │    🟣 混合方法   │                                    │
│              │    (Hybrid)     │                                    │
│              │                 │                                    │
│              │ 核心:多策略互补 │                                    │
│              └─────────────────┘                                    │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

配图建议 2:设计一个思维导图,中心是”深度学习TSAD方法” ,五个主分支分别指向五大类别。每个主分支用不同颜色表示(预测-蓝色、重建-绿色、分类-黄色、表示学习-橙色、混合-紫色),并在分支上简要标注核心思想。


4. 🔵 基于预测的方法

4.1 核心原理

假设:正常时间序列具有内在的可预测性,异常事件会破坏这种可预测性,导致预测误差显著增大。

工作流程:

  1. 使用历史时间序列窗口 $X_{t-w:t-1}$ 作为输入
  2. 深度预测模型学习正常模式并预测下一时刻值 $\hat{x}_t$
  3. 计算预测误差 $x_t - \hat{x}_t$
  4. 误差超过阈值则判定为异常

数学表达:

\[AS_t = |x_t - \hat{x}_t| > \text{threshold}\]

4.2 优劣势

✅ 优势❌ 局限
实时性好,可在线检测难以预测快速变化的序列
单次前向传播即可预测对突发异常响应可能滞后
适合周期性强的数据复杂模式学习能力有限

配图建议 3:绘制一个对比图,左侧显示模型成功预测正常数据的场景(预测曲线与实际曲线贴合),右侧显示异常发生时预测与实际产生显著偏差(用红色高亮偏差区域)。上方展示预测流程图:输入窗口→预测模型→预测值→与实际值对比。

4.3 代表性论文

📄 Time-Series Anomaly Detection Service at Microsoft (SR-CNN)
🔗 https://arxiv.org/abs/1906.03821
💻 https://github.com/microsoft/anomaly-detector


5. 🟢 基于重建的方法

5.1 核心原理

假设:正常数据可以被压缩到低维潜在空间并有效重建,异常数据由于偏离训练分布,重建误差较大。

与预测方法的关键区别:

方法输入输出信息利用
预测$X_{t-w:t-1}$$\hat{x}_t$仅历史信息
重建$X_{t-w:t}$$\hat{X}_{t-w:t}$完整窗口信息

数学表达:

\[AS = ||X - \text{Decoder}(\text{Encoder}(X))||^2\]

5.2 主要技术路线

技术核心思想
Autoencoder (AE)学习数据的压缩表示,最小化重建误差
VAE将输入编码为概率分布,引入正则化
GAN生成器与判别器对抗训练
Transformer利用自注意力捕捉全局依赖进行重建

5.3 优劣势

✅ 优势❌ 局限
利用完整窗口信息,精度高有轻微检测延迟
适合变化快速的序列模型通常较复杂
可检测子序列异常训练需要更多计算资源

配图建议 4:设计一个 Encoder-Decoder 结构示意图。左侧是原始时间序列输入,经过编码器压缩为低维表示(用窄 bottleneck 图形表示),再通过解码器重建。下方展示正常数据重建效果好(误差小,绿色),异常数据重建效果差(误差大,红色)的对比。

5.4 代表性论文

📄 LSTM-based Encoder-Decoder for Multi-sensor Anomaly Detection (EncDec-AD)
🔗 https://arxiv.org/abs/1607.00148

6. 🟡 基于分类的方法

6.1 核心原理

基于分类的方法将异常检测视为二分类问题(正常 vs 异常)或单类分类问题(仅学习正常类的边界)。

两种范式对比:

范式训练数据适用场景
二分类正常 + 异常样本有足够标注异常样本
单类分类仅正常样本异常样本稀少或缺失

数学表达(单类分类):

\[f(X) = \begin{cases} \text{正常}, & \text{if } X \in \mathcal{N} \\ \text{异常}, & \text{if } X \notin \mathcal{N} \end{cases}\]

6.2 主要技术路线

技术核心思想
Deep SVDD学习将正常数据映射到超球中心
OC-SVM寻找最大间隔超平面分离正常数据
分类网络端到端训练二分类器
度量学习学习距离度量使正常样本聚集

6.3 优劣势

✅ 优势❌ 局限
直接优化分类目标需要标签数据(至少正常样本)
可解释性强(决策边界)异常样本不足时效果受限
可结合传统分类技术对概念漂移敏感

配图建议 5:设计一个特征空间示意图,展示单类分类的概念。左侧:二维平面上蓝色点表示正常样本,被圆形或椭圆形的决策边界包围,红色异常点在边界外。右侧:展示深度网络将时间序列映射到特征空间的过程。

6.3 代表性论文

📄 Deep One-Class Classification (Deep SVDD)
🔗 https://proceedings.mlr.press/v80/ruff18a.html
💻 https://github.com/lukasruff/Deep-SVDD-PyTorch


7. 🟠 基于表示学习的方法

7.1 核心原理

核心思想:不直接优化预测或重建误差,而是专注于学习高质量的、具有判别性的特征表示。在良好的表示空间中,正常样本会形成紧凑的簇,而异常样本会远离这些簇。

工作流程:

  1. 使用对比学习等自监督方法学习表示
  2. 正样本对:语义相似的样本(相邻时间戳、同一序列的增强版本)
  3. 负样本对:语义不同的样本(不同序列、注入异常的样本)
  4. 在表示空间中,远离正常簇的样本判定为异常

学习目标:

\[\mathcal{L} = -\log \frac{\exp(\text{sim}(z_i, z_j^+)/\tau)}{\sum_{k} \exp(\text{sim}(z_i, z_k)/\tau)}\]

7.2 优劣势

✅ 优势❌ 局限
学习到的表示可迁移训练复杂度较高
对噪声更鲁棒需要精心设计对比任务
无需标签数据表示质量依赖数据增强策略

配图建议 6:绘制一个特征空间散点图的概念图。二维平面上,蓝色密集点群表示正常样本的表示(形成 2-3 个簇),红色散点表示异常样本的表示(远离簇或在边缘)。用箭头表示对比学习如何拉近正样本、推开负样本。

7.3 代表性论文

📄 TS2Vec: Towards Universal Representation of Time Series
🔗 https://arxiv.org/abs/2106.10466
💻 https://github.com/yuezhihan/ts2vec


8. 🟣 混合方法

8.1 核心原理

核心思想:单一策略有局限性,结合多种策略可互补。

常见互补组合:

组合互补优势
预测 + 重建预测捕捉未来趋势,重建捕捉全局信息
图学习 + 时序建模同时捕捉空间(变量间)和时间依赖
距离 + 表示学习结合判别能力和表示能力

多任务学习框架:

\[\mathcal{L}_{\text{total}} = \lambda_1 \mathcal{L}_{\text{forecast}} + \lambda_2 \mathcal{L}_{\text{recon}} + \lambda_3 \mathcal{L}_{\text{classification}}\]

8.2 优劣势

✅ 优势❌ 局限
综合利用多种信号模型复杂度高
适合复杂的高维时间序列需要调节多个超参数
通常精度更高训练时间和计算资源需求大

配图建议 7:设计一个多分支网络结构图。输入数据分别进入预测分支(输出未来预测)、重建分支(输出现状重建)和图学习分支(学习变量关系),最终融合三个分支的结果进行异常判定。用不同颜色区分三个分支。

8.3 代表性论文

📄 Multivariate Time-series Anomaly Detection via Graph Attention Network (MTAD-GAT)
🔗 https://arxiv.org/abs/2009.02040
💻 https://github.com/ML4ITS/mtad-gat-pytorch

📄 Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy
🔗 https://arxiv.org/abs/2110.02642
💻 https://github.com/thuml/Anomaly-Transformer


9. 总结

五种深度学习方法的核心差异对比:

方法核心假设关键优势主要局限代表论文
🔵 基于预测正常可预测实时性好难预测快速变化SR-CNN
🟢 基于重建异常难重建精度高有轻微延迟EncDec-AD
🟡 基于分类可学习决策边界可解释性强需设计边界Deep SVDD, THOC
🟠 基于表示学习表示空间可分离鲁棒性强训练复杂TS2Vec
🟣 混合方法多策略互补综合能力好模型复杂MTAD-GAT, Anomaly Transformer

每种方法都有其适用场景和局限性。在实际应用中,建议根据数据特性、标签可用性和任务需求选择合适的方法。


参考文献

  1. 📄 Time-Series Anomaly Detection Service at Microsoft (SR-CNN)
  2. 📄 LSTM-based Encoder-Decoder for Multi-sensor Anomaly Detection (EncDec-AD)
  3. 📄 Deep One-Class Classification (Deep SVDD) 4. 📄 THOC: Timeseries Anomaly Detection using Temporal Hierarchical One-Class Network
  4. 📄 TS2Vec: Towards Universal Representation of Time Series 6. 📄 Multivariate Time-series Anomaly Detection via Graph Attention Network (MTAD-GAT)
  5. 📄 Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy 8. 📄 Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection (DAGMM)
本文由作者按照 CC BY 4.0 进行授权