数据集¶
一些流行的时序数据集
- class darts.datasets.AirPassengersDataset[source]¶
Bases:
DatasetLoaderCSV
每月航空乘客数据集,1949 年至 1960 年。
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.AusBeerDataset[source]¶
Bases:
DatasetLoaderCSV
澳大利亚啤酒总产量(兆升),从 1956 年第一季度到 2008 年第三季度 [1]。
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.AustralianTourismDataset[source]¶
Bases:
DatasetLoaderCSV
一个多元 TimeSeries,包含澳大利亚 36 个月的月度旅游人数。人数按地区(“NSW”、“VIC”、“QLD”、“SA”、“WA”、“TAS”、“NT”)、原因(“Hol”、“VFR”、“Bus”、“Oth”)、(地区、原因)对以及(地区、原因、<城市>)元组细分,其中 <城市> 可以是“city”或“noncity”。
这是 [1] 中澳大利亚旅游数据集的增强版本,我们预先计算了按地区的划分(原始数据集中未提供)。
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.ETTh1Dataset[source]¶
Bases:
DatasetLoaderCSV
来自 1 个站点的 1 个电力变压器数据,包括负荷和油温。数据集范围从 2016/07 到 2018/07,按小时采集。来源:[1] [2]
字段描述
date: 记录日期
HUFL: 高有用负荷
HULL: 高无用负荷
MUFL: 中等有用负荷
MULL: 中等无用负荷
LUFL: 低有用负荷
LULL: 低无用负荷
OT: 油温 (目标)
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.ETTh2Dataset[source]¶
Bases:
DatasetLoaderCSV
来自 1 个站点的 1 个电力变压器数据,包括负荷和油温。数据集范围从 2016/07 到 2018/07,按小时采集。来源:[1] [2]
字段描述
date: 记录日期
HUFL: 高有用负荷
HULL: 高无用负荷
MUFL: 中等有用负荷
MULL: 中等无用负荷
LUFL: 低有用负荷
LULL: 低无用负荷
OT: 油温 (目标)
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.ETTm1Dataset[source]¶
Bases:
DatasetLoaderCSV
来自 1 个站点的 1 个电力变压器数据,包括负荷和油温。数据集范围从 2016/07 到 2018/07,每 15 分钟记录一次。来源:[1] [2]
字段描述
date: 记录日期
HUFL: 高有用负荷
HULL: 高无用负荷
MUFL: 中等有用负荷
MULL: 中等无用负荷
LUFL: 低有用负荷
LULL: 低无用负荷
OT: 油温 (目标)
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.ETTm2Dataset[source]¶
Bases:
DatasetLoaderCSV
来自 1 个站点的 1 个电力变压器数据,包括负荷和油温。数据集范围从 2016/07 到 2018/07,每 15 分钟记录一次。来源:[1] [2]
字段描述
date: 记录日期
HUFL: 高有用负荷
HULL: 高无用负荷
MUFL: 中等有用负荷
MULL: 中等无用负荷
LUFL: 低有用负荷
LULL: 低无用负荷
OT: 油温 (目标)
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.ElectricityConsumptionZurichDataset[source]¶
Bases:
DatasetLoaderCSV
苏黎世市住户和中小企业(低压)以及商业和服务(中压)的用电量 [1],每 15 分钟记录一次值。
用电量结合了苏黎世市三个不同气象站记录的小时频率气象测量数据 [2]。缺失的时间戳用 NaN 填充。原始气象数据每小时记录一次。在将特征添加到用电量之前,数据被重新采样到 15 分钟频率,并对缺失值进行插值。
为了简化数据集,舍弃了 Zch_Schimmelstrasse 和 Zch_Rosengartenstrasse 气象站的测量数据,仅保留 Zch_Stampfenbachstrasse 站记录的数据。
两个数据集源都在持续更新,但本数据集仅保留 2015-01-01 至 2022-08-31 之间的值。时间索引已从 CET 时区转换为 UTC。
分量描述
Value_NE5 : 住户和中小企业用电量(低压,电网级别 7),单位千瓦时
Value_NE7 : 商业和服务用电量(中压,电网级别 5),单位千瓦时
Hr [%Hr] : 相对湿度
RainDur [min] : 降水持续时间(除以 4 用于从小时间隔转换为 15 分钟间隔记录)
T [°C] : 温度
WD [°] : 风向
WVv [m/s] : 风向量速度
p [hPa] : 气压
WVs [m/s] : 风标量速度
StrGlo [W/m2] : 全球太阳辐射
注意:2018 年之前,标量速度是根据 30 分钟矢量数据计算得出的。
参考资料
- 1
https://data.stadt-zuerich.ch/dataset/ewz_stromabgabe_netzebenen_stadt_zuerich
- 2
https://data.stadt-zuerich.ch/dataset/ugz_meteodaten_stundenmittelwerte
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.ElectricityDataset(multivariate=True)[source]¶
Bases:
DatasetLoaderCSV
一个住户的电量消耗测量数据,采样频率为 15 分钟。记录了 370 个客户端的消耗量,单位千瓦。来源:[1]
加载此数据集将提供一个多元时序,其中包含每个住户的 370 列。可以使用以下代码将数据集转换为单变量时序列表,每个住户一个。
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- 参数
multivariate (bool) – 是否返回单个多元时序 - 如果为 False,则返回单变量 TimeSeries 列表。默认为 True。
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.EnergyDataset[source]¶
Bases:
DatasetLoaderCSV
每小时能源数据集,来自 [1]。
包含一个时序,在 2014-12-31 23:00:00 至 2018-12-31 22:00:00 之间有 28 个每小时分量
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.ExchangeRateDataset(multivariate=True)[source]¶
Bases:
DatasetLoaderCSV
收集了八个外国的每日汇率,包括澳大利亚、英国、加拿大、瑞士、中国、日本、新西兰和新加坡,范围从 1990 年到 2016 年。不幸的是,日期存在一些不一致之处,因此结果 TimeSeries 是整数索引的。来源:[1]
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- 参数
multivariate (bool) – 是否返回单个多元时序 - 如果为 False,则返回单变量 TimeSeries 列表。默认为 True。
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.GasRateCO2Dataset[source]¶
Bases:
DatasetLoaderCSV
燃气流量二氧化碳数据集,两个分量,长度 296(整数时间索引)
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.HeartRateDataset[source]¶
Bases:
DatasetLoaderCSV
该序列包含来自单个受试者的 1800 个等间隔瞬时心率测量值。测量值(单位为每分钟心跳次数)间隔 0.5 秒,因此每个序列的长度恰好为 15 分钟。
这是 [1] 中的 series1。它使用整数时间索引。
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.ILINetDataset(multivariate=True)[source]¶
Bases:
DatasetLoaderCSV
ILI 描述了因流感样疾病就诊的患者数量和患者总数。它包含美国疾病控制与预防中心 1997 年至 2022 年的每周数据。来源:[1] [2] [3] [4]
分量描述
- % 加权 ILI: 各州每周报告的因 ILI 就诊于医疗机构的患者数据的加权组合
按州人口加权
- % 未加权 ILI: 各州每周报告的因 ILI 就诊于医疗机构的患者数据的未加权组合
周数据,未按州人口加权
年龄 0-4: 0 至 4 岁之间的患者数量
年龄 25-49: 25 至 49 岁之间的患者数量
年龄 25-64: 25 至 64 岁之间的患者数量
年龄 5-24: 5 至 24 岁之间的患者数量
年龄 50-64: 50 至 64 岁之间的患者数量
年龄 65+: 65 岁及以上患者数量
- ILITOTAL: ILI 患者总数。对于此系统,ILI 定义为发热(体温 100°F [37.8°C]
或更高)以及咳嗽和/或咽喉痛
NUM. OF PROVIDERS: 门诊医疗机构数量
TOTAL PATIENTS: 患者总数
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.IceCreamHeaterDataset[source]¶
Bases:
DatasetLoaderCSV
2004 年 1 月至 2020 年 6 月的每月取暖器和冰淇淋销量。
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.MonthlyMilkDataset[source]¶
Bases:
DatasetLoaderCSV
1962 年 1 月至 1975 年 12 月的每月牛奶产量(磅/头奶牛)
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.MonthlyMilkIncompleteDataset[source]¶
Bases:
DatasetLoaderCSV
1962 年 1 月至 1975 年 12 月的每月牛奶产量(磅/头奶牛)。包含一些缺失值。
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.SunspotsDataset[source]¶
Bases:
DatasetLoaderCSV
每月太阳黑子数,1749 - 1983
1749 年至 1983 年的每月平均相对太阳黑子数。1960 年之前在苏黎世瑞士联邦天文台收集,之后在东京天文台收集。
来源:[1]
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.TaxiNewYorkDataset[source]¶
Bases:
DatasetLoaderCSV
纽约出租车乘客数据,2014 年 7 月至 2015 年 1 月。数据按 30 分钟间隔汇总了出租车乘客总数。单变量序列。来源:[1]
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.TaylorDataset[source]¶
Bases:
DatasetLoaderCSV
英格兰和威尔士从 2000 年 6 月 5 日星期一到 2000 年 8 月 27 日星期日的半小时电力需求数据。在 Taylor (2003) [1] 中讨论,并由 James W Taylor [2] 友好提供。单位:兆瓦(使用整数时间索引)。
参考资料
- 1
Taylor, J.W. (2003) 使用双季节指数平滑的短期电力需求预测。Journal of the Operational Research Society, 54, 799-805.
- 2
https://www.rdocumentation.org/packages/forecast/versions/8.13/topics/taylor
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.TemperatureDataset[source]¶
Bases:
DatasetLoaderCSV
1981 年至 1990 年墨尔本每日气温
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.TrafficDataset(multivariate=True)[source]¶
Bases:
DatasetLoaderCSV
此 repo 中的数据是加州交通局提供的 48 个月(2015-2016 年)小时数据的集合。数据描述了旧金山湾区高速公路上 862 个不同传感器测量的道路占用率(介于 0 和 1 之间)。原始数据位于 http://pems.dot.ca.gov。来源:[1]
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- 参数
multivariate (bool) – 是否返回单个多元时序 - 如果为 False,则返回单变量 TimeSeries 列表。默认为 True。
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.USGasolineDataset[source]¶
Bases:
DatasetLoaderCSV
美国每周成品汽油供应量,从 1991-02-08 至 2021-04-30
从 [1] 获得。
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.UberTLCDataset(sample_freq='hourly', multivariate=True)[source]¶
Bases:
DatasetLoaderCSV
2015 年 1 月至 6 月的 1430 万次 Uber 乘车数据。数据根据 sample_freq 参数(以 locationID 为目标)重新采样为每小时或每日频率。来源:[1]
加载此数据集将提供一个多元时序,其中包含每个 locationID 的 262 列。可以使用以下代码将数据集转换为单变量时序列表,每个 locationID 一个。
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- 参数
sample_freq (str) – 数据采样频率。可以是“hourly”或“daily”。默认为“hourly”。
multivariate (bool) – 是否返回单个多元时序 - 如果为 False,则返回单变量 TimeSeries 列表。默认为 True。
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.WeatherDataset(multivariate=True)[source]¶
Bases:
DatasetLoaderCSV
气象数据包含 21 个气象指标,如气温和湿度。数据于 2020 年在德国每 10 分钟记录一次。来源:[1] [2]
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- 参数
multivariate (bool) – 是否返回单个多元时序 - 如果为 False,则返回单变量 TimeSeries 列表。默认为 True。
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.WineDataset[source]¶
Bases:
DatasetLoaderCSV
澳大利亚酿酒商瓶装(<= 1 升)葡萄酒总销量。1980 年 1 月至 1994 年 8 月期间的月度数据。来源:[1]
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型
- class darts.datasets.WoolyDataset[source]¶
Bases:
DatasetLoaderCSV
澳大利亚毛纱季度产量:吨。1965 年 3 月 – 1994 年 9 月。来源:[1]
参考资料
方法
load
()将数据集加载到内存中,作为 TimeSeries 对象。
- load()¶
将数据集加载到内存中,作为 TimeSeries 对象。如果数据集不存在,则下载。
- 抛出异常
DatasetLoadingException – 如果加载失败(MD5 校验和无效,下载失败,从磁盘读取失败)
- 返回
time_series – 包含数据集的 TimeSeries 对象
- 返回类型