Skip to content

Latest commit

 

History

History
492 lines (438 loc) · 38.4 KB

README_zh.md

File metadata and controls

492 lines (438 loc) · 38.4 KB

欢迎来到PyPOTS

一个使用机器学习建模部分观测时间序列(POTS)的Python算法工具库

Python version powered by Pytorch the latest release version BSD-3 license Community GitHub contributors GitHub Repo stars GitHub Repo forks Code Climate maintainability Coveralls coverage GitHub Testing Docs building Conda downloads PyPI downloads arXiv DOI README in English README in Chinese PyPOTS Hits

⦿ 开发背景: 由于传感器故障、通信异常以及不可预见的未知原因, 在现实环境中收集的时间序列数据普遍存在缺失值, 这使得部分观测时间序列(partially-observed time series, 简称为POTS)成为现实世界数据的建模中普遍存在的问题. 数据缺失会严重阻碍数据的高级分析、建模、与后续应用, 所以如何直接面向POTS建模成为一个亟需解决的问题. 尽管关于在POTS上进行不同任务的机器学习算法已经有了不少的研究, 但当前没有专门针对POTS建模开发的工具箱. 因此, 旨在填补该领域空白的"PyPOTS"应运而生.

⦿ 应用意义: PyPOTS(发音为"Pie Pots")是一个易上手的工具箱, 工程师和研究人员可以通过PyPOTS轻松地处理POTS数据建模问题, 进而将注意力更多地聚焦在要解决的核心问题上. PyPOTS会持续不断的更新关于部分观测多变量时间序列的经典算法和先进算法. 除此之外, PyPOTS还提供了统一的应用程序接口,详细的算法学习指南和应用示例.

🤗 如果你认为PyPOTS有用, 请星标🌟该项目来帮助更多人注意到PyPOTS的存在. 如果PyPOTS对你的研究有帮助, 请在你的研究中引用PyPOTS. 这是对我们开源研究工作的最大支持, 谢谢!

该说明文档的后续内容如下: ❖ 支持的算法, ❖ PyPOTS生态系统, ❖ 安装教程, ❖ 使用案例, ❖ 引用PyPOTS, ❖ 贡献声明, ❖ 社区组织.

❖ 支持的算法

PyPOTS当前支持多变量POTS数据的插补, 预测, 分类, 聚类以及异常检测五类任务. 下表描述了当前PyPOTS中所集成的算法以及对应不同任务的可用性. 符号表示该算法当前可用于相应的任务(注意, 目前模型尚不支持的任务在未来版本中可能会逐步添加, 敬请关注!). 算法的参考文献以及论文链接在该文档底部可以找到.

🌟 自v0.2版本开始, PyPOTS中所有神经网络模型都支持超参数调优. 该功能基于微软的NNI 框架实现. 你可以通过参考我们的时间序列插补综述项目的代码Awesome_Imputation 来了解如何使用PyPOTS调优模型的超参.

🔥 请注意: 表格中名称带有🧑‍🔧的模型(例如Transformer, iTransformer, Informer等)在它们的原始论文中并非作为可以处理POTS数据的算法提出, 所以这些模型的输入中不能带有缺失值, 无法接受POTS数据作为输入, 更加不是插补算法. 为了使上述模型能够适用于POTS数据, 我们采用了与SAITS论文1 中相同的embedding策略和训练方法(ORT+MIT)对它们进行改进.

类型 算法 插补 预测 分类 聚类 异常检测 年份 - 刊物
LLM Time-Series.AI 2 Later in 2024
Neural Net TEFN🧑‍🔧3 2024 - arXiv
Neural Net FITS🧑‍🔧4 2024 - ICLR
Neural Net TimeMixer5 2024 - ICLR
Neural Net iTransformer🧑‍🔧6 2024 - ICLR
Neural Net ModernTCN7 2024 - ICLR
Neural Net ImputeFormer🧑‍🔧8 2024 - KDD
Neural Net SAITS1 2023 - ESWA
Neural Net FreTS🧑‍🔧9 2023 - NeurIPS
Neural Net Koopa🧑‍🔧10 2023 - NeurIPS
Neural Net Crossformer🧑‍🔧11 2023 - ICLR
Neural Net TimesNet12 2023 - ICLR
Neural Net PatchTST🧑‍🔧13 2023 - ICLR
Neural Net ETSformer🧑‍🔧14 2023 - ICLR
Neural Net MICN🧑‍🔧15 2023 - ICLR
Neural Net DLinear🧑‍🔧16 2023 - AAAI
Neural Net TiDE🧑‍🔧17 2023 - TMLR
Neural Net CSAI18 2023 - arXiv
Neural Net SegRNN🧑‍🔧19 2023 - arXiv
Neural Net SCINet🧑‍🔧20 2022 - NeurIPS
Neural Net Nonstationary Tr.🧑‍🔧21 2022 - NeurIPS
Neural Net FiLM🧑‍🔧22 2022 - NeurIPS
Neural Net RevIN_SCINet🧑‍🔧23 2022 - ICLR
Neural Net Pyraformer🧑‍🔧24 2022 - ICLR
Neural Net Raindrop25 2022 - ICLR
Neural Net FEDformer🧑‍🔧26 2022 - ICML
Neural Net Autoformer🧑‍🔧27 2021 - NeurIPS
Neural Net CSDI28 2021 - NeurIPS
Neural Net Informer🧑‍🔧29 2021 - AAAI
Neural Net US-GAN30 2021 - AAAI
Neural Net CRLI31 2021 - AAAI
Probabilistic BTTF32 2021 - TPAMI
Neural Net StemGNN🧑‍🔧33 2020 - NeurIPS
Neural Net Reformer🧑‍🔧34 2020 - ICLR
Neural Net GP-VAE35 2020 - AISTATS
Neural Net VaDER36 2019 - GigaSci.
Neural Net M-RNN37 2019 - TBME
Neural Net BRITS38 2018 - NeurIPS
Neural Net GRU-D39 2018 - Sci. Rep.
Neural Net TCN🧑‍🔧40 2018 - arXiv
Neural Net Transformer🧑‍🔧41 2017 - NeurIPS
Naive Lerp42
Naive LOCF/NOCB
Naive Mean
Naive Median

💯 现在贡献你的模型来增加你的研究影响力!PyPOTS的下载量正在迅速增长 (目前PyPI上总共超过30万次且每日超1000的下载), 你的工作将被社区广泛使用和引用. 请参阅贡献指南 , 了解如何将模型包含在PyPOTS中.

❖ PyPOTS生态系统

在PyPOTS生态系统中, 一切都与我们熟悉的咖啡息息相关, 甚至可以将其视为一杯咖啡的诞生过程! 如你所见, PyPOTS的标志中有一个咖啡壶. 除此之外还需要什么呢?请接着看下去、

TSDB logo

👈 在PyPOTS中, 数据可以被看作是咖啡豆, 而写的携带缺失值的POTS数据则是不完整的咖啡豆. 为了让用户能够轻松使用各种开源的时间序列数据集, 我们创建了开源时间序列数据集的仓库 Time Series Data Beans (TSDB) (可以将其视为咖啡豆仓库), TSDB让加载开源时序数据集变得超级简单!访问 TSDB, 了解更多关于TSDB的信息, 目前总共支持172个开源数据集!

PyGrinder logo

👉 为了在真实数据中模拟缺失进而获得不完整的咖啡豆, 我们创建了生态系统中的另一个仓库PyGrinder (可以将其视为磨豆机), 帮助你在数据集中模拟缺失数据, 用于评估机器学习算法. 根据Robin的理论43, 缺失模式分为三类: 完全随机缺失(missing completely at random, 简称为MCAR)、随机缺失(missing at random, 简称为MAR)和非随机缺失(missing not at random, 简称为MNAR ). PyGrinder支持以上所有模式并提供与缺失相关的其他功能函数. 通过PyGrinder, 你可以仅仅通过一行代码就将模拟缺失引入你的数据集中.

BenchPOTS logo

👈 为了评估机器学习算法在POTS数据上的性能, 我们创建了生态系统中的另一个仓库BenchPOTS, 其提供了标准且统一的数据预处理管道来帮助你在多种任务上衡量不同POTS算法的性能.

BrewPOTS logo

👉 现在我们有了咖啡豆(beans)、磨豆机(grinder)和咖啡壶(pot), 让我们坐在长凳(bench)上想想如何萃取一杯咖啡呢? 教程必不可少!考虑到未来的工作量, PyPOTS的相关教程将发布在一个独立的仓库BrewPOTS 中. 点击访问查看教程, 学习如何萃取你的POTS数据!


☕️ 欢迎来到 PyPOTS 生态系统 !

❖ 安装教程

你可以参考PyPOTS文档中的 安装说明 以获取更详细的指南. PyPOTS可以在 PyPIAnaconda 上安装. 你可以按照以下方式安装PyPOTS(同样适用于 TSDB, PyGrinder, BenchPOTS, 和AI4TS:):

# 通过pip安装
pip install pypots            # 首次安装
pip install pypots --upgrade  # 更新为最新版本
# 利用最新源代码安装最新版本, 可能带有尚未正式发布的最新功能
pip install https://github.com/WenjieDu/PyPOTS/archive/main.zip

# 通过conda安装
conda install conda-forge::pypots  # 首次安装
conda update  conda-forge::pypots  # 更新为最新版本

❖ 使用案例

除了BrewPOTS之外, 你还可以在Google Colab Colab tutorials 上找到一个简单且快速的入门教程. 如果你有其他问题, 请参考PyPOTS文档. 你也可以在我们的社区中提问, 或直接发起issue.

下面, 我们为你演示使用PyPOTS进行POTS数据插补的示例:

点击此处查看 SAITS 模型应用于 PhysioNet2012 数据集插补任务的简单案例:
# 数据预处理, 使用PyPOTS生态帮助完成繁琐的数据预处理
import numpy as np
from sklearn.preprocessing import StandardScaler
from pygrinder import mcar
from pypots.data import load_specific_dataset
data = load_specific_dataset('physionet_2012')  # PyPOTS将自动下载并加载和处理数据
X = data['X']
num_samples = len(X['RecordID'].unique())
X = X.drop(['RecordID', 'Time'], axis = 1)
X = StandardScaler().fit_transform(X.to_numpy())
X = X.reshape(num_samples, 48, -1)
X_ori = X  # keep X_ori for validation
X = mcar(X, 0.1)  # 随机掩盖观测值的10%, 作为基准数据
dataset = {"X": X}  # X用于模型输入
print(X.shape)  # X的形状为(11988, 48, 37), 即11988个样本, 每个样本有48个步长(time steps)和37个特征(features)

# 模型训练. PyPOTS的好戏上演了!
from pypots.imputation import SAITS
from pypots.utils.metrics import calc_mae
saits = SAITS(n_steps=48, n_features=37, n_layers=2, d_model=256, n_heads=4, d_k=64, d_v=64, d_ffn=128, dropout=0.1, epochs=10)
# 因为基准数据对模型不可知, 将整个数据集作为训练集, 也可以把数据集分为训练/验证/测试集
saits.fit(dataset)  # 基于数据集训练模型
imputation = saits.impute(dataset)  # 插补数据集中原始缺失部分和我们上面人为遮蔽缺失的基准数据部分
indicating_mask = np.isnan(X) ^ np.isnan(X_ori)  # 用于计算插补误差的掩码矩阵
mae = calc_mae(imputation, np.nan_to_num(X_ori), indicating_mask)  # 计算人为遮掩部分数据的平均绝对误差MAE
saits.save("save_it_here/saits_physionet2012.pypots")  # 保存模型
saits.load("save_it_here/saits_physionet2012.pypots")  # 你随时可以重新加载保存的模型文件以进行后续的插补或训练

❖ 引用PyPOTS

Tip

[2024年6月更新] 😎 第一个全面的时间序列插补基准论文TSI-Bench: Benchmarking Time Series Imputation 现在来了. 所有代码开源在Awesome_Imputation 仓库中. 通过近35,000个实验, 我们对28种imputation方法, 3种缺失模式(点, 序列, 块), 各种缺失率, 和8个真实数据集进行了全面的基准研究.

[2024年2月更新] 🎉 我们的综述论文Deep Learning for Multivariate Time Series Imputation: A Survey 已在 arXiv 上发布. 我们全面调研总结了最新基于深度学习的时间序列插补方法文献并对现有的方法进行分类, 此外, 还讨论了该领域当前的挑战和未来发展方向.

PyPOTS的论文可以在arXiv上获取, 其5页的短版论文已被第9届SIGKDD international workshop on Mining and Learning from Time Series (MiLeTS'23)收录, 与此同时, PyPOTS也已被纳入PyTorch Ecosystem. 我们正在努力将其发表在更具影响力的学术刊物上, 如JMLR (track for Machine Learning Open Source Software). 如果你在工作中使用了PyPOTS, 请按照以下格式引用我们的论文并为将项目设为星标🌟, 以便让更多人关注到它, 对此我们深表感谢🤗.

据不完全统计, 该列表 为当前使用PyPOTS并在其论文中引用PyPOTS的科学研究项目

@article{du2023pypots,
    title = {{PyPOTS: a Python toolbox for data mining on Partially-Observed Time Series}},
    author = {Wenjie Du},
    journal = {arXiv preprint arXiv:2305.18811},
    year = {2023},
}

或者

Wenjie Du. (2023). PyPOTS: a Python toolbox for data mining on Partially-Observed Time Series. arXiv, abs/2305.18811. https://arxiv.org/abs/2305.18811

❖ 贡献声明

非常欢迎你为这个激动人心的项目做出贡献!

通过提交你的代码, 你将:

  1. 把你开发完善的模型直接提供给PyPOTS的所有用户使用, 让你的工作更加广为人知. 请查看我们的收录标准. 你也可以利用项目文件中的模板template(如: pypots/imputation/template)快速启动你的开发;
  2. 成为PyPOTS贡献者之一, 并在PyPOTS网站上被列为志愿开发者;
  3. 在PyPOTS发布新版本的更新日志中被提及;

你也可以通过为该项目设置星标🌟, 帮助更多人关注它. 你的星标🌟既是对PyPOTS的认可, 也是对PyPOTS发展所做出的重要贡献!

👏 点击这里可以查看PyPOTS当前的星标者和分支者
我们为拥有越来越多的出色用户以及更多的星标✨而感到自豪:
PyPOTS stargazers
PyPOTS forkers

👀请在PyPOTS网站上查看我们用户所属机构的完整列表!

❖ 社区组织

我们非常关心用户的反馈, 因此我们正在建立PyPOTS社区:

  • Slack: 你可以在这里进行日常讨论、问答以及与我们的开发团队交流;
  • 领英:你可以在这里获取官方公告和新闻;
  • 微信公众号:你可以关注官方公众号并加入微信群聊参与讨论以及获取最新动态;

如果你有任何建议、想法、或打算分享与时间序列相关的论文, 欢迎加入我们! PyPOTS社区是一个开放、透明、友好的社区, 让我们共同努力建设并改进PyPOTS!

Footnotes

  1. Du, W., Cote, D., & Liu, Y. (2023). SAITS: Self-Attention-based Imputation for Time Series. Expert systems with applications. 2

  2. Project Gungnir, the world 1st LLM for time-series multitask modeling, will meet you soon. 🚀 Missing values and variable lengths in your datasets? Hard to perform multitask learning with your time series? Not problems no longer. We'll open application for public beta test recently ;-) Follow us, and stay tuned! Time-Series.AI

  3. Zhan, T., He, Y., Deng, Y., Li, Z., Du, W., & Wen, Q. (2024). Time Evidence Fusion Network: Multi-source View in Long-Term Time Series Forecasting. arXiv 2024.

  4. Xu, Z., Zeng, A., & Xu, Q. (2024). FITS: Modeling Time Series with 10k parameters. ICLR 2024.

  5. Wang, S., Wu, H., Shi, X., Hu, T., Luo, H., Ma, L., ... & ZHOU, J. (2024). TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting. ICLR 2024.

  6. Liu, Y., Hu, T., Zhang, H., Wu, H., Wang, S., Ma, L., & Long, M. (2024). iTransformer: Inverted Transformers Are Effective for Time Series Forecasting. ICLR 2024.

  7. Luo, D., & Wang X. (2024). ModernTCN: A Modern Pure Convolution Structure for General Time Series Analysis. ICLR 2024.

  8. Nie, T., Qin, G., Mei, Y., & Sun, J. (2024). ImputeFormer: Low Rankness-Induced Transformers for Generalizable Spatiotemporal Imputation. KDD 2024.

  9. Yi, K., Zhang, Q., Fan, W., Wang, S., Wang, P., He, H., An, N., Lian, D., Cao, L., & Niu, Z. (2023). Frequency-domain MLPs are More Effective Learners in Time Series Forecasting. NeurIPS 2023.

  10. Liu, Y., Li, C., Wang, J., & Long, M. (2023). Koopa: Learning Non-stationary Time Series Dynamics with Koopman Predictors. NeurIPS 2023.

  11. Zhang, Y., & Yan, J. (2023). Crossformer: Transformer utilizing cross-dimension dependency for multivariate time series forecasting. ICLR 2023.

  12. Wu, H., Hu, T., Liu, Y., Zhou, H., Wang, J., & Long, M. (2023). TimesNet: Temporal 2d-variation modeling for general time series analysis. ICLR 2023

  13. Nie, Y., Nguyen, N. H., Sinthong, P., & Kalagnanam, J. (2023). A time series is worth 64 words: Long-term forecasting with transformers. ICLR 2023

  14. Woo, G., Liu, C., Sahoo, D., Kumar, A., & Hoi, S. (2023). ETSformer: Exponential Smoothing Transformers for Time-series Forecasting. ICLR 2023

  15. Wang, H., Peng, J., Huang, F., Wang, J., Chen, J., & Xiao, Y. (2023). MICN: Multi-scale Local and Global Context Modeling for Long-term Series Forecasting. ICLR 2023.

  16. Zeng, A., Chen, M., Zhang, L., & Xu, Q. (2023). Are transformers effective for time series forecasting?. AAAI 2023

  17. Das, A., Kong, W., Leach, A., Mathur, S., Sen, R., & Yu, R. (2023). Long-term Forecasting with TiDE: Time-series Dense Encoder. TMLR 2023.

  18. Qian, L., Ibrahim, Z., Ellis, H. L., Zhang, A., Zhang, Y., Wang, T., & Dobson, R. (2023). Knowledge Enhanced Conditional Imputation for Healthcare Time-series. arXiv 2023.

  19. Lin, S., Lin, W., Wu, W., Zhao, F., Mo, R., & Zhang, H. (2023). SegRNN: Segment Recurrent Neural Network for Long-Term Time Series Forecasting. arXiv 2023.

  20. Liu, M., Zeng, A., Chen, M., Xu, Z., Lai, Q., Ma, L., & Xu, Q. (2022). SCINet: Time Series Modeling and Forecasting with Sample Convolution and Interaction. NeurIPS 2022.

  21. Liu, Y., Wu, H., Wang, J., & Long, M. (2022). Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting. NeurIPS 2022.

  22. Zhou, T., Ma, Z., Wen, Q., Sun, L., Yao, T., Yin, W., & Jin, R. (2022). FiLM: Frequency improved Legendre Memory Model for Long-term Time Series Forecasting. NeurIPS 2022.

  23. Kim, T., Kim, J., Tae, Y., Park, C., Choi, J. H., & Choo, J. (2022). Reversible Instance Normalization for Accurate Time-Series Forecasting against Distribution Shift. ICLR 2022.

  24. Liu, S., Yu, H., Liao, C., Li, J., Lin, W., Liu, A. X., & Dustdar, S. (2022). Pyraformer: Low-Complexity Pyramidal Attention for Long-Range Time Series Modeling and Forecasting. ICLR 2022.

  25. Zhang, X., Zeman, M., Tsiligkaridis, T., & Zitnik, M. (2022). Graph-Guided Network for Irregularly Sampled Multivariate Time Series. ICLR 2022.

  26. Zhou, T., Ma, Z., Wen, Q., Wang, X., Sun, L., & Jin, R. (2022). FEDformer: Frequency enhanced decomposed transformer for long-term series forecasting. ICML 2022.

  27. Wu, H., Xu, J., Wang, J., & Long, M. (2021). Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting. NeurIPS 2021.

  28. Tashiro, Y., Song, J., Song, Y., & Ermon, S. (2021). CSDI: Conditional Score-based Diffusion Models for Probabilistic Time Series Imputation. NeurIPS 2021.

  29. Zhou, H., Zhang, S., Peng, J., Zhang, S., Li, J., Xiong, H., & Zhang, W. (2021). Informer: Beyond efficient transformer for long sequence time-series forecasting. AAAI 2021.

  30. Miao, X., Wu, Y., Wang, J., Gao, Y., Mao, X., & Yin, J. (2021). Generative Semi-supervised Learning for Multivariate Time Series Imputation. AAAI 2021.

  31. Ma, Q., Chen, C., Li, S., & Cottrell, G. W. (2021). Learning Representations for Incomplete Time Series Clustering. AAAI 2021.

  32. Chen, X., & Sun, L. (2021). Bayesian Temporal Factorization for Multidimensional Time Series Prediction. IEEE transactions on pattern analysis and machine intelligence.

  33. Cao, D., Wang, Y., Duan, J., Zhang, C., Zhu, X., Huang, C., Tong, Y., Xu, B., Bai, J., Tong, J., & Zhang, Q. ( 2020). Spectral Temporal Graph Neural Network for Multivariate Time-series Forecasting. NeurIPS 2020.

  34. Kitaev, N., Kaiser, Ł., & Levskaya, A. (2020). Reformer: The Efficient Transformer. ICLR 2020.

  35. Fortuin, V., Baranchuk, D., Raetsch, G. & Mandt, S. (2020). GP-VAE: Deep Probabilistic Time Series Imputation. AISTATS 2020.

  36. Jong, J.D., Emon, M.A., Wu, P., Karki, R., Sood, M., Godard, P., Ahmad, A., Vrooman, H.A., Hofmann-Apitius, M., & Fröhlich, H. (2019). Deep learning for clustering of multivariate clinical patient trajectories with missing values. GigaScience.

  37. Yoon, J., Zame, W. R., & van der Schaar, M. (2019). Estimating Missing Data in Temporal Data Streams Using Multi-Directional Recurrent Neural Networks. IEEE Transactions on Biomedical Engineering.

  38. Cao, W., Wang, D., Li, J., Zhou, H., Li, L., & Li, Y. (2018). BRITS: Bidirectional Recurrent Imputation for Time Series. NeurIPS 2018.

  39. Che, Z., Purushotham, S., Cho, K., Sontag, D.A., & Liu, Y. (2018). Recurrent Neural Networks for Multivariate Time Series with Missing Values. Scientific Reports.

  40. Bai, S., Kolter, J. Z., & Koltun, V. (2018). An empirical evaluation of generic convolutional and recurrent networks for sequence modeling. arXiv 2018.

  41. Vaswani, A., Shazeer, N.M., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., & Polosukhin, I. ( 2017). Attention is All you Need. NeurIPS 2017.

  42. Wikipedia: Linear interpolation

  43. Rubin, D. B. (1976). Inference and missing data. Biometrika.