- 最大
- 较大
- 默认
- 较小
- 最小
ARIMAX与XGBoost的比较与应用
摘 要:随着国际航运业对船燃市场需求的不断提高,低硫船用燃料油逐渐成为市场需求焦点。舟山作为我国主要的船燃供应中心,其低硫船燃价格波动对航运经济、能源市场及决策具有重要影响。因此,准确预测舟山低硫船燃的短期价格具有显著的实际意义。传统时间序列模型如ARIMAX在长周期、平稳数据预测中表现良好,但在短期时间序列中,尤其面对复杂的非线性价格波动,其预测效果存在局限性。而近年来,机器学习模型如XGBoost凭借对非线性关系建模的优势,为短期时间序列预测提供了新的解决方案。本研究对比了ARIMAX与XGBoost两种模型在舟山低硫船燃价格预测中的应用,并基于对舟山低硫船燃价格数据的理论分析和实证研究,比较ARIMAX和XGBoost两种模型的预测效果,及优缺点和适用性。结果表明,XGBoost在捕捉非线性关系和应对复杂数据方面具有优势,而ARIMAX在解释性和处理平稳时间序列方面更具优势。本文为低硫船燃市场的价格预测及其商业应用提供了重要的参考。
关键词:低硫船燃价格;短期预测;ARIMAX;XGBoost;模型比较
1 引言
1.1 研究背景与引入
国际海事组织(IMO)《国际防止船舶造成污染公约》规定自2020年1月1日起,全球船舶必须使用硫含量不高于0.5%m/m的船用燃料油,低硫船用燃料油成为燃油市场聚焦点。[1]在此背景下,舟山低硫船燃价格逐渐成为市场决策与航运经济重要的影响因素。为此,本文旨在以舟山低硫船燃价格为研究对象,通过构建预测模型,探讨其价格变化趋势;此外,本文还比较了传统时间序列模型ARIMAX与机器学习模型XGBoost在舟山低硫船燃价格预测任务中的表现差异与适用性,以期为不同情境下的模型选择提供参考依据。
1.2 研究方法介绍
在短期时间序列预测时,且变量繁复数值波动性较大的情况下,一个重要难点是变量之间的互相关性测试。为了比较ARIMAX与XGBoost两种模型在这难点下的适用性,基于此,本文采取理论与实证相结合的方法,对比其在舟山低硫船燃价预测中的表现,并总结出最优预测。
自回归差分移动平均模型ARIMA,是用于时间序列预测的常见经典线性模型。[2]其主要应用在经济、能源、流量、环境等季节性波动有关方面的指标预测,适用于多种拥有时间序列数据的特定领域。[3]ARIMA由三部分组成:自回归项(AR)、差分项(I)和移动平均项(MA)。自回归项,解释了当前时间点的数据与前K个时间点上的数据之间的线性相关关系。差分项确保了时间序列平稳,以顺利建模。而ARIMAX是在ARIMA模型的基础上,引入了一个外生变量Xt使得在移动平均基础之上,对目标变量进行更优解释。其模型表达如下:
XGBoost是一种基于梯度提升决策树的机器学习算法。其核心思想是在每一步训练中,新增的决策树专注于修正前序模型的残差,从而逐步降低整体偏差。该算法通过迭代构建多棵决策树并加权组合它们的预测结果来优化模型性能,因此预测结果极大优化,模型稳定性显著提升,具有灵活、高效与高精度的特点。[4]XGBoost的目标函数包含两部分:衡量预测误差的损失函数以及控制模型复杂度的正则化项,其模型表达如下:
1.3 模型特征比较
为系统评估两类模型在时间序列预测中的适用性与表现差异,本文分别对ARIMAX与XGBoost的优势与局限进行了对比分析,为后续模型选择与优化提供理论依据和实证支持。
ARIMAX的主要优势如下:一,ARIMAX只需要较少变量作为载体,即能够依据历史数据建模,较少依赖其他变量。二,其适用于趋势分析,无论线性还是非线性,ARIMAX能够有效差分数据后建模,对于分析及预测变化特征具有良好优势。三,其拥有良好的模型检测能力,能够识别残差自相关性,有利于识别和检测异常结果。尽管ARIMAX在时间序列分析领域有广泛的应用,但其也存在明显的局限性。首先,面临高度复杂的时间序列或非线性序列,ARIMAX难以捕捉时间序列中的隐含特征。第二,ARIMAX在操作层面,需要手动调整如自回归阶数、差分阶数及移动平均阶数等参数,并通过统计检验,从而使实际使用门槛较高,并引入人为误差。其次,ARIMAX依赖高质量的历史数据,当数据白噪声过大时,其建模有效性将减弱,使得模型在数据量不足或数据波动大的情况下,预测效果受限。最后,ARIMAX在长期预测表现优良,但随着预测范围延长,其误差会大幅积累,可能导致偏离实际情况。[5]
XGBoost的主要优势如下:一,XGBoost非线性建模能力强,能够捕捉时间序列中的非线性信息及特征,提高了模型的精准度和使用范围。二,XGBoost能够识别处理数据中的缺失值,使得在数据不完整时,也能够选择最优拟合。三,XGBoost能自动识别与评估各变量的重要性并高效筛选出有用的特征,减少了人工处理,使得预测工程更精准与自动化。四,XGBoost采用并行化计算技术,能够即时接受最新的数据,并快速更新到模型中,无需从头训练模型,极大地提高了模型训练效率。[6]五,XGBoost的正则化机制能够自动处理并适应噪声大的数据,控制拟合程度,鲁棒性强,抗噪性高。六,XGBoost对于非平稳时间序列预测具有更高强适用性。[7]尽管在短期预测中表现优异,但XGBoost也具有以下不足:首先,使用模型的成本更高,XGBoost较ARIMAX复杂,该模型需要调多个参数,例如树的深度等,需要依赖大量的实际经验和实验。其次,模型训练过程中需要更优的条件,例如计算机性能等硬件要求较高,前期数据需求大。最后,尽管在短期预测中表现优异,但其预测结果不能直接解释变量间的关系,在需要更高透明度的预测场景中可能受影响。
总之,在短期时间序列预测中,XGBoost凭借其非线性建模能力、对数据缺失与噪声的适应性、特征选择的自动化及快速高效的模型训练过程,相较于ARIMAX表现出显著优势,并成为广泛使用的理想预测模型。
2 实证分析
2.1 研究设计
研究采用对比匹配的实验设计,系统评估ARIMAX和XGBoost对舟山低硫船用燃料油价格的预测效果,研究设计思路如下。
在自变量选取上,研究基于船燃市场的价格形成机制,从国际原油价格、进出口量、船运指数、高低硫价差等维度选取关键影响因素作为外生变量。在样本选取上,为避免2020年政策变化以及疫情环境带来的特殊因素对舟山低硫船燃价格的影响,研究选取2021年1月至2024年6月这一政策环境相对稳定、市场波动平缓的时段作为样本区间。在模型构建上,确保ARIMAX和XGBoost在一致的环境下进行预测。以ARIMAX作为线性预测基准,以XGBoost算法探索非线性场景的适用性。最后,通过交叉验证和误差分析对两个模型的预测性能进行评估,以反映两者在舟山低硫船燃价格预测场景中的预测效果和适用条件。
2.2 数据来源及整理
本研究数据来源于舟山低硫船燃价格的实际数据,原始数据来源于Wind,包括从2021年1月至2023年12月的月度舟山低硫船燃价格。在对该时间序列数据进行整合、预处理并代入模型训练后,得出了完整的时间序列模型以正式预测。
为全面探究舟山低硫船燃价格的影响因素,在前期文献梳理与实际市场机制分析的基础上,研究选取包括能源价格、宏观经济、航运供需、区域市场结构以及季节性因素等多个维度的自变量,并对所选变量与舟山低硫船燃价格之间的关系进行了统计显著性检验,检验结果如表1所示,所有自变量均通过显著性检验,表明其对舟山低硫船燃价格存在显著影响,具备纳入后续建模分析的合理性与必要性。[8]
2.3 研究过程及结果
本文通过构建ARIMAX和XGBoost两种模型,探究其在舟山低硫船燃价格的短期预测中的表现和特性。研究采用了特征选择、样本匹配和模型训练等步骤进行建模,并对比两种模型的预测精度与误差。
为评估ARIMAX与XGBoost模型的预测能力,研究以2021年1月至2023年12月的数据作为训练集,构建包含外生变量的预测模型,并预测2024年1月至2024年6月的舟山低硫船燃价格。将预测价格与实际舟山低硫船燃价格进行对比,计算各期的绝对误差(AE)和绝对百分比误差(PE),如表2所示。
根据表格结果,ARIMAX在部分月份预测误差较小,如第38期预测结果的百分比误差仅为1.00%,表现出一定的趋势跟踪能力。但在部分月份,如第37期与第42期,模型出现明显高估情况,百分比误差分别达到了8.75%和16.20%,表明对局部波动的响应相对滞后。XGBoost模型预测表现相对稳定,除第41期外,绝对百分比误差均低于5%,说明XGBoost作为一个非线性模型,对常规波动趋势具有良好的拟合能力。
从整体模型表现来看,XGBoost的平均绝对百分比误差(MAPE)为2.78%,低于ARIMAX的平均绝对百分比误差6.74%,且XGBoost的均方根误差(RMSE)为22.21,低于ARIMAX均方根误差49.75,说明XGBoost整体预测误差更小,拟合效果更好,在控制大幅偏离值方面具有显著优势。从平均百分比误差(MPE)结果来看,两个模型均存在一定程度的高估现象。
综上所述,两种模型对于舟山低硫船燃价格均展现出一定的预测能力,XGBoost模型凭借其非线性拟合优势,在整体误差控制和趋势跟踪方面表现更为优越,更适用于舟山低硫船燃价格的短期预测。
3 结论
本研究分别采用ARIMAX模型与XGBoost模型对舟山低硫船燃价格进行短期预测并对比分析。研究通过交叉验证,综合评估ARIMAX模型和XGBoost模型在舟山低硫船燃短期价格的预测中的表现,结论如下。
首先,ARIMAX模型在拟合突发波动或趋势转折的非线性结构数据时具有局限性。ARIMAX模型的理论框架适用于长期趋势预测和线性关系较强的数据,在处理平稳或差分平稳的时间序列时具有较强的优势。在舟山低硫船燃价格的预测情景中,ARIMAX可以对波动较小的时期做出有效预测,但无法有效捕捉舟山低硫船燃价格中存在的非线性波动。因此,ARIMAX受外部影响较大时,往往精度较低,预测效果不佳。
第二,XGBoost模型对短期的复杂趋势数据预测性能更优。在短期时间序列预测中,面临处理非线性或波动复杂的数据时,XGBoost的表现优于ARIMAX。XGBoost能够自动识别和评估季节变化、市场波动因素等外部因素对舟山低硫船燃价格的影响。通过自动特征选择机制,XGBoost能有效筛选出对预测结果有较大贡献的特征,从而提高模型的预测精度。同时,XGBoost的非线性建模能力,使得模型能够在复杂预测中,精准捕捉短期波动,较好地反映突发性价格变动对价格整体趋势的影响。此外,XGBoost模型通过并行化计算和正则化机制,减少了对人工干预的依赖,大幅提升了预测的自动化程度和准确性。因此,在处理短期内复杂且多变的数据时,XGBoost的适应性更强。
最后,从模型适应性与效率来看,XGBoost模型具有灵活性和高效性,使其在短期预测中表现尤为出色。通过自动化特征筛选和调参,XGBoost能够减少人为干预,提高预测的精度和效率。而ARIMAX则更多依赖人工调节,操作难度较高,出错概率增加,一定程度影响了模型的预测表现。
综合来看,在短期预测中,ARIMAX的预测精度受各种因素制约,表现较为局限。相比之下,XGBoost在处理复杂的非线性数据和波动时,能够更好地追踪舟山低硫船燃价格的变化,捕捉复杂关系,得出精确度更高的预测结果,具有显著的优势。
参考文献:
[1] 田明.国际海事组织船舶燃油硫排放控制政策影响浅析[J].国际石油经济,2017,25(05):77-82.
[2] Chen T, Guestrin C. Xgboost: A scalable tree boosting system[C]//Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. 2016: 785-794.
[3] 杨海民,潘志松,白玮.时间序列预测方法综述[J].计算机科学,2019,46(01):21-28.
[4] 胡郁葱,张筑杰,王晓晴.基于Xgboost算法的共享自行车短时需求预测研究[J].武汉理工大学学报(交通科学与工程版), 2019,43(2):231-235+241.
[5] 邢艳春,高腾飞.ARIMAX多元时间序列和BP神经网络组合模型在居民消费结构预测中的应用[J].吉林师范大学学报(自然科学版),2021,42(03):56-67.
[6] Ramraj S, Uzir N, Sunil R, et al. Experimenting XGBoost algorithm for prediction and classification of different datasets[J]. International Journal of Control Theory and Applications, 2016, 9(40): 651-662.
[7] Zhang P, Jia Y, Shang Y. Research and application of XGBoost in imbalanced data[J]. International Journal of Distributed Sensor Networks, 2022, 18(6): 15501329221106935.
[8] 李占山,刘兆赓.基于XGBoost的特征选择算法[J].通信学报,2019,40(10):101-108.