diaugeia logodiaugeia.ai
全部新闻
Diaugeia.AI 团队

TS-Eval 榜单上线

面向时序预测的开放、可复现榜单正式上线。首批结果:135 个模型同台跑沪深300,榜首挤成一团、谁都没拉开差距——图模型与逐序列模型在 0.748 附近打成平手,远高于朴素基线。

发布

今天,TS-Eval 正式上线——一个面向时间序列预测的开放、可复现榜单。每一条记录都是一次社区提交:一段智能体实验轨迹,加一份经校验的结果,在不同赛道、数据集与预测步长上透明排名。它建立在 ModernTSF 之上,是其评测与排行的一层。

首批结果来自第一轮评测:135 个模型在沪深300成分股上同台竞技——108 个时序模型 + 27 个时空/图模型,共 151 次提交(时序模式 124 次、图/时空模式 27 次),输入 20 个交易日、预测未来 5 个交易日,按 MSE 排名(越低越好)。其中 27 个图/时空模型把约 300 只股票当作图的节点,建模个股之间的横截面结构;其余 108 个时序模型则基本各自独立地预测每条序列。

前十名如下:

排名模型MSE类型
1NBeats0.7483时序
2MTGNN0.7484
3DFDGCN0.7485
4STPGNN0.7487
5HimNet0.7488
6GWNet0.7489
7STNorm0.7490
8STGCN0.7497

最值得讲的,是榜首谁都没拉开差距:第 1 名 NBeats(0.7483)和第 2 名 MTGNN(0.7484)只差 0.0002,再往下也只是以千分位的零头相隔——基本是平局。平局里有两条规律站得住:能够利用股票之间横截面图结构的图/时空模型(MTGNN、DFDGCN、GWNet、STPGNN……)占据了榜单上沿,前 20 名里有 15 个是图/时空模型;但单个最好的成绩反而来自纯单序列模型 NBeats,所以图模型只是扎堆在前面,并没有甩开其他人。而且没有哪个模型抓到了多少信号:领跑者与真实值的相关性都在 0.04 上下,基本是噪声。学到东西的模型确实跨过了一道真实的门槛——朴素的「照搬上一日」基线(HL)落在榜单尾部(MSE ≈ 1.50),而这一团模型都在 ~0.748。分数分布:最好 0.7483,中位 0.7856,最差 1.7141。

需要诚实地补一句:越过最顶端之后,模型彼此挤作一团,长尾却很宽;多数模型与真实值的相关性接近于零,绝对可预测性很低,沪深300的预测依然是真正的难题。所以这张快照要说的不是「深度模型一举攻克了股票」,也不是「某种架构胜出」,而是:在这份数据上,学到东西的模型大幅领先朴素基线,图模型扎堆在前列,但没有任何单个模型能明显从众模型中脱颖而出。

需要说清楚的是,这只是发布时的一张快照,而非最终定论——多为单一随机种子(seed 2024)、首轮、单一预测步长;更多数据集、更多步长,以及实时数据的定期刷新,都在路上。

完整的方法、结果与解读见研究文章 TS-Eval:开放可复现的时序预测榜单。在线榜单见 diaugeia.ai/tseval,前端 Space 托管在 Hugging Face;数据集与证据材料分布在四个公开仓库:静态数据集实时数据集提交记录权重

榜单为社区而建。clone ModernTSF,跑你的实验,用 tsf submit --push 提交——欢迎把你的结果摆上来。