TS-Eval 榜单上线
面向时序预测的开放、可复现榜单正式上线。首批结果:135 个模型同台跑沪深300,榜首挤成一团、谁都没拉开差距——图模型与逐序列模型在 0.748 附近打成平手,远高于朴素基线。
今天,TS-Eval 正式上线——一个面向时间序列预测的开放、可复现榜单。每一条记录都是一次社区提交:一段智能体实验轨迹,加一份经校验的结果,在不同赛道、数据集与预测步长上透明排名。它建立在 ModernTSF 之上,是其评测与排行的一层。
首批结果来自第一轮评测:135 个模型在沪深300成分股上同台竞技——108 个时序模型 + 27 个时空/图模型,共 151 次提交(时序模式 124 次、图/时空模式 27 次),输入 20 个交易日、预测未来 5 个交易日,按 MSE 排名(越低越好)。其中 27 个图/时空模型把约 300 只股票当作图的节点,建模个股之间的横截面结构;其余 108 个时序模型则基本各自独立地预测每条序列。
前十名如下:
| 排名 | 模型 | MSE | 类型 |
|---|---|---|---|
| 1 | NBeats | 0.7483 | 时序 |
| 2 | MTGNN | 0.7484 | 图 |
| 3 | DFDGCN | 0.7485 | 图 |
| 4 | STPGNN | 0.7487 | 图 |
| 5 | HimNet | 0.7488 | 图 |
| 6 | GWNet | 0.7489 | 图 |
| 7 | STNorm | 0.7490 | 图 |
| 8 | STGCN | 0.7497 | 图 |
最值得讲的,是榜首谁都没拉开差距:第 1 名 NBeats(0.7483)和第 2 名 MTGNN(0.7484)只差 0.0002,再往下也只是以千分位的零头相隔——基本是平局。平局里有两条规律站得住:能够利用股票之间横截面图结构的图/时空模型(MTGNN、DFDGCN、GWNet、STPGNN……)占据了榜单上沿,前 20 名里有 15 个是图/时空模型;但单个最好的成绩反而来自纯单序列模型 NBeats,所以图模型只是扎堆在前面,并没有甩开其他人。而且没有哪个模型抓到了多少信号:领跑者与真实值的相关性都在 0.04 上下,基本是噪声。学到东西的模型确实跨过了一道真实的门槛——朴素的「照搬上一日」基线(HL)落在榜单尾部(MSE ≈ 1.50),而这一团模型都在 ~0.748。分数分布:最好 0.7483,中位 0.7856,最差 1.7141。
需要诚实地补一句:越过最顶端之后,模型彼此挤作一团,长尾却很宽;多数模型与真实值的相关性接近于零,绝对可预测性很低,沪深300的预测依然是真正的难题。所以这张快照要说的不是「深度模型一举攻克了股票」,也不是「某种架构胜出」,而是:在这份数据上,学到东西的模型大幅领先朴素基线,图模型扎堆在前列,但没有任何单个模型能明显从众模型中脱颖而出。
需要说清楚的是,这只是发布时的一张快照,而非最终定论——多为单一随机种子(seed 2024)、首轮、单一预测步长;更多数据集、更多步长,以及实时数据的定期刷新,都在路上。
完整的方法、结果与解读见研究文章 TS-Eval:开放可复现的时序预测榜单。在线榜单见 diaugeia.ai/tseval,前端 Space 托管在 Hugging Face;数据集与证据材料分布在四个公开仓库:静态数据集、实时数据集、提交记录 与权重。
榜单为社区而建。clone ModernTSF,跑你的实验,用 tsf submit --push 提交——欢迎把你的结果摆上来。
