论文阅读系列之时序数据处理

type

status

date

slug

summary

主要挑战：

可变长度序列

观测时间间隔的不规则性

固定时间离散化。例如，Marlin 等人（2012）和 Lipton 等人（2016）将连续时间观测离散到长达一小时的区间中。这样做的优点是简单，但需要临时处理具有多个观测点的 bin，并且当 bins 为空时会导致数据缺失。
构建能够直接使用不规则采样时间序列作为输入的模型。基于门控循环单元网络（GRUs， Chung et al. （2014））的方法，将由观测值、缺失数据指标和自上次观测以来的时间间隔组成的序列作为输入的方法。Pham 等人（2017）提议通过修改 LSTM 的遗忘门来捕捉时间不规则性（Hochreiter & Schmidhuber，1997），而 Neil 等人（2016）引入了一个新的时间门，用于调节对 LSTM 的隐藏和单元状态的访问。无法处理多变量之间不对齐的情况
预对齐。随着变量数量的增加，这种表示方法可能会遭受序列长度爆炸问题，从而在计算和内存开销方面引发严重的扩展性问题。

不同变量的观测时间点不对齐（异步性）

使用来自未来和过去的观察结果进行插值。Yoon et al. （2019）和 Yoon et al. （2018）提出了一种基于多向 RNN （M-RNN）的方法，该方法可以利用来自给定时间点的相对过去和未来的观察结果。Shukla & Marlin （2019）提出了插值预测网络框架，该框架由几个半参数 RBF 插值层组成，这些插值层根据一组参考时间点对多变量、稀疏和不规则采样的输入时间序列进行插值，同时考虑到时间序列中的所有观测数据。Horn et al. （2020）提出了一种基于集合函数的方法，用于对具有不规则采样和未对齐观察的时间序列进行分类。
Chen et al. （2018）提出了一种变分自动编码器模型（Kingma & Welling， 2014;Rezende et al.， 2014）基于使用神经网络解码器结合潜在常微分方程（ODE）模型的连续时间数据。他们通过潜在连续时间函数对时间序列数据进行建模，该函数通过其梯度场的神经网络表示定义。在此基础上，Rubanova 等人（2019 年）提出了一个使用 ODE-RNN 模型作为编码器的潜在 ODE 模型。ODE-RNN 使用神经 ODE 对隐藏状态动态进行建模，并使用 RNN 在存在新观测值时更新隐藏状态。De Brouwer et al. （2019）提出了 GRU-ODE-Bayes，这是门控循环单元的连续时间版本（Chung et al.， 2014）。GRU-ODE-Bayes 不是将 ODE 与输入处理解耦的编码器 - 解码器架构，而是通过交错 ODE 和输入处理步骤提供更紧密的集成。
使用注意力机制对不规则采样的时间序列进行建模（Song et al.， 2018;Tan et al.， 2020;Zhang 等人，2019 年）以及医学概念（Peng 等人，2019 年；Cai 等人，2018 年）。这些方法中的大多数类似于 Vaswani et al. （2017），它们使用自我注意用时间和模型序列的编码代替位置编码。

数据的稀疏性

随着变量数量增加导致的序列长度爆炸

如果把问诊记录作为整体 — （t, R）, , 表示一次记录中观测特征和对应的特征值。

论文概览

标题	会议	主要方法	面向问题	优势
Multi-time attention networks for irregularly sampled time series. In International Conference on Learning Representations	ICLR 2021	多时间注意力网络学习连续时间值的嵌入，并使用注意力机制（时间注意力机制使用参考时间点作为查询，观测到的时间点作为键）来生成包含可变数量观测值的时间序列的固定长度表示。	1. 可变长度序列 2. 观测时间间隔的不规则性和稀疏注意力机制，设立参考时间点生成固定长度向量，但是开销大 3. 不同变量的观测时间点不对齐（异步性）基于定长向量分析（有限:一个变量的全部时间压缩成一个向量做相关性分析）	创新：一种学习到的连续时间嵌入机制，并结合了一种时间注意力机制，该机制取代了从连续时间输入形成表示时使用的固定相似性核，具有更强的表示灵活性.允许模型在不同的时间尺度上动态聚焦关键信息，无需强制对数据进行均匀重采样。
FourierGNN: Rethinking Multivariate Time Series Forecasting from a Pure Graph Perspective	NeurIPS 2023	定义一种包含时序信息的超元图，使得多元时序预测变成了在超元图上的预测.	3.现有的基于GNN的预测算法通常需要GCN以及LSTM模型来分别捕捉时域和空域信息。这种分离的时空建模方法除了存在兼容的不确定性问题，还限制了现实世界中时空的相互依赖关系。无法很好地解决5	提出了FourierGNN，其在傅里叶空间中堆叠卷积层，同时利用时空信息,不仅具有足够的表达能力，还具有更低的时间复杂度
Warpformer: A multi-scale modeling approach for irregular clinical time series.	KDD 2023	ㅤ	3.	ㅤ
Irregular Multivariate Time Series Forecasting: A Transformable Patching Graph Neural Networks Approach	ICML2024	提出了一种可变换的patch图神经网络（T-PATCH GNN），将每个单变量不规则时间序列转换为一系列包含不同数量观测值且具有统一时间分辨率的可变换patch，并学习自适应图神经网络，模拟动态的时间序列间相关性。	ㅤ	ㅤ

Multi-time attention networks for irregularly sampled time series. In International Conference on Learning Representations

问题定义

表示包含N个数据案例的数据集，单个数据案例由用于分类的单个目标值（离散）以及 D 维、稀疏和不规则采样的多变量时间序列构成。数据案例n的时间序列表示为元组，为n的观测时间列表，为观测值列表。

时序编码

将transformer中的位置编码扩展至时序（空间→时空），周期项捕捉时序数据中的周期规律信息，其中包含了频率参数 ,相位参数，该时间嵌入函数在离散位置计算时包含位置编码，线性项可以捕捉依赖于时间进程的非周期性模式，学习周期性时间嵌入函数相当于使用具有正弦函数非线性的单层全连接网络将时间值映射到更高维的空间。

它将不规则采样的时间点和对应的值作为 key 和 value（这样不规则时序数据也可以作为输入），使用参考时间点作为查询，并在查询时间点生成固定维度的表示。注意力块使用查询和关键时间点的时间嵌入对观测值执行缩放的点积注意力。

利用注意力块（ATT），基于查询时间点（query time points）和键时间点（key time points）的时间嵌入（time embedding），对观测值执行缩放点积注意力（scaled dot product attention）操作。这使得模型可以根据时间点之间的相似性，灵活地关注不同的观测值，而不受时间点采样间隔不规则的限制。也就是说，无论时间点的分布如何稀疏或不规则，模型都能通过注意力机制，在计算某个查询时间点的表示时，有选择地聚合相关的观测值信息

实验

数据集： PhysioNet、 MIMIC-Ⅲ

使用 PhysioNet 数据集中的 8000 个数据案例进行插值实验。将数据集随机划分为包含 80% 实例的训练集和包含其余 20% 实例的测试集。在插值任务中，以可用点的子集为条件，并预测其余时间点的值。对不同百分比的观测点进行插值实验，范围从可用点的 50% 到 90% 不等。在测试时，以观测点的值为条件，每个模型都用于推断测试实例中可用时间点的其余值。我们使用不同的随机种子将每个实验重复五次，以初始化模型参数。我们使用均方误差（MSE）评估性能。

代码阅读

数据处理

record_id：患者ID tt：时间戳序列 (问诊时间点) vals：观测值序列 (每次问诊的多种生理指标) mask：掩码序列 (标记哪些指标在特定时间点有效) labels：患者标签 (如诊断结果)

处理流程：

找出batch中最长的时间序列长度

创建固定大小的张量用于存储数据

将每个患者的记录填充到这些张量中

对数据进行归一化处理

将观测值、掩码和时间戳组合成一个统一的张量

返回值：

特征张量：形状为[max_time_length, feature_dim*2+1]。前feature_dim列：归一化后的观测值（如血压、心率等）中间feature_dim列：掩码（1表示有观测，0表示无观测）最后1列：归一化的时间戳标签张量：患者的诊断结果（例如0或1表示健康或患病）

示例：

原始数据：时间点: [1天, 3天, 7天] 观测值: [[血压1, 心率1], [血压2, 血氧2], [血压3]] 掩码: [[1, 1], [1, 1], [1, 0]] (第二次未测心率)
处理后：特征张量: [ [血压1归一化值, 心率1归一化值, 1, 1, 0.14], [血压2归一化值, 血氧2归一化值, 1, 1, 0.43], [血压3归一化值, 0, 1, 0, 1.0] ] 标签: [1] (表示患病)

特征维度编码机制

mTAN模型使用固定维度位置+掩码机制区分不同指标：

固定特征位置：代码假设每种测量指标在特征向量中有固定位置

例如：血压始终在索引0，心率始终在索引1，血氧始终在索引2

模型内部处理

mTAN模型输入输出格式与注意力机制分析

模型输入格式

基于之前分析的数据处理流程，mTAN模型的输入是经过处理的时间序列数据：

输入形状: [batch_size, time_steps, feature_dim*2+1]

输入张量包含三部分:

前feature_dim列: 归一化后的观测值（如血压、心率等）

中间feature_dim列: 掩码值（1表示有观测，0表示无观测）

最后1列: 归一化的时间戳

模型输出格式

mTAN模型的输出根据任务不同而变化：

分类任务：

# 输出形状: [batch_size, num_classes]

# 例如: [32, 2] 表示32个患者的二分类预测概率

重建/插值任务：

# 输出形状: [batch_size, time_steps, feature_dim]

# 例如: [32, 50, 2] 表示32个患者在所有时间点的特征预测值

注意力机制中的Q、K、V

mTAN(Multivariate Time-series Attention Networks)的注意力机制中：

Q (Query)

# 形状: [batch_size, time_steps, d_model]

Q = self.query_projection(input_sequence)

代表目标时间点的特征表示

在mTAN中，Q通常来自当前需要关注的时间点信息

用于"询问"其他时间点的信息

K (Key)

# 形状: [batch_size, time_steps, d_model]

K = self.key_projection(input_sequence)

代表所有时间点的特征表示

作为被查询的对象，用于计算与Q的相关性/相似度

在mTAN中，包含了各时间点独特的特征信息

V (Value)

# 形状: [batch_size, time_steps, d_model]

V = self.value_projection(input_sequence)

代表所有时间点的实际值

根据Q和K计算的注意力权重进行加权求和

在mTAN中，包含了实际需要被聚合的时间点信息

注意力计算流程

这种机制使mTAN能够处理不规则采样的时间序列数据，自适应地关注相关时间点，实现更准确的预测和分类。

FourierGNN: Rethinking Multivariate Time Series Forecasting from a Pure Graph Perspective

问题定义：

给定多变量时间序列输入窗口(一个图)，预测未来多个时间步的值，常用图网络和时间网络联合学习时空依赖进行预测。

超元图

所有的节点按照时间标记，假如有N个节点、T个时间，则节点数为NT。

划分窗口:将多变量时间序列窗口中每个元素视为节点构建全连接图，把多变量时间序列预测任务转化为超变量图上的预测，统一时空动态建模。

利用卷积定理以及傅里叶变换减少开销

FourierGNN：提出傅里叶图算子（FGO），在傅里叶空间进行矩阵乘法，基于此构建FourierGNN。理论分析表明 FGO 在时域等价于图卷积，且 FourierGNN 复杂度低、表达能力强。构建超变量图，对节点嵌入后进行离散傅里叶变换（DFT），在傅里叶空间经 FourierGNN 处理，再通过逆离散傅里叶变换（IDFT）转换回时域，最后用全连接层输出预测结果。

文章中傅里叶变换是核心技术支撑，主要涉及离散傅里叶变换（DFT）及其逆变换（IDFT），通过将信号在时域和频域间转换，为多变量时间序列预测提供了高效处理手段，具体原理如下：

离散傅里叶变换（DFT）

定义与公式：DFT是将时域离散信号转换为频域表示的数学工具。对于长度为的离散信号x[n]，其DFT定义为，其中，。在文章的多变量时间序列预测场景中，如对超变量图节点特征进行处理时会用到DFT。假设存在一个多变量时间序列窗口，对其进行DFT，就是将窗口内的时间序列数据从时域转换到频域，从而可以在频域中分析数据的频率成分。

作用与意义：通过DFT，能将复杂的时域信号分解为不同频率的正弦和余弦波的叠加，把时间序列中隐藏的频率信息提取出来。在多变量时间序列预测中，不同频率成分可能对应不同的规律，比如季节性变化、周期性波动等。通过分析这些频率成分，模型可以更好地捕捉时间序列的特征，为预测提供更丰富的信息。

逆离散傅里叶变换（IDFT）

定义与公式：IDFT是DFT的逆运算，用于将频域信号还原为时域信号。其公式为，其中。在FourierGNN模型中，经过在频域的一系列计算后，需要使用IDFT将结果转换回时域，以得到可用于实际预测的结果。

作用与意义：IDFT保证了信号在频域处理后能回到时域，使得在频域进行的各种操作（如滤波、特征提取等）最终能应用到原始时域信号上。在多变量时间序列预测中，经过DFT变换到频域，利用傅里叶图算子（FGO）进行处理后，再通过IDFT转换回时域，这样就可以根据处理后的时域数据进行未来时间步的预测。

傅里叶变换相关性质

卷积定理：卷积定理是傅里叶变换的重要性质，其内容为，其中表示卷积运算，表示对N取模，和分别表示x[n]和h[n]的离散傅里叶变换。在文章中，该定理用于推导傅里叶图算子（FGO）的相关性质，通过卷积定理可以将图卷积运算在频域进行等价转换，从而降低计算复杂度。例如，在FGO的定义和计算中，利用卷积定理将图卷积操作转换为频域中的矩阵乘法，大大提高了计算效率。

Warpformer: A multi-scale modeling approach for irregular clinical time series.

问题定义

一个病人的就诊信息表示为：，K表示病人的变量数, 表示第i个变量，有观测值的特征数量。

📎 参考文章

一些引用

引用文章

💡

有关Notion安装或者使用上的问题，欢迎您在底部评论区留言，一起交流~

Author:NotionNext
URL:https://tangly1024.com/article/1a9df6db-5286-80ec-af3e-dca7fa076228
Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!

Relate Posts

论文阅读-Generative Pre-Training

NotionNext

一个熟练使用智能设备的小猫🐱