TS-Eval 榜单上线 · Diaugeia.AI

今天，TS-Eval 正式上线——一个面向时间序列预测的开放、可复现榜单。每一条记录都是一次社区提交：一段智能体实验轨迹，加一份经校验的结果，在不同赛道、数据集与预测步长上透明排名。它建立在 ModernTSF 之上，是其评测与排行的一层。

首批结果来自第一轮评测：135 个模型在沪深300成分股上同台竞技——108 个时序模型 + 27 个时空/图模型，共 151 次提交（时序模式 124 次、图/时空模式 27 次），输入 20 个交易日、预测未来 5 个交易日，按 MSE 排名（越低越好）。其中 27 个图/时空模型把约 300 只股票当作图的节点，建模个股之间的横截面结构；其余 108 个时序模型则基本各自独立地预测每条序列。

前十名如下：

排名	模型	MSE	类型
1	NBeats	0.7483	时序
2	MTGNN	0.7484	图
3	DFDGCN	0.7485	图
4	STPGNN	0.7487	图
5	HimNet	0.7488	图
6	GWNet	0.7489	图
7	STNorm	0.7490	图
8	STGCN	0.7497	图

最值得讲的，是榜首谁都没拉开差距：第 1 名 NBeats（0.7483）和第 2 名 MTGNN（0.7484）只差 0.0002，再往下也只是以千分位的零头相隔——基本是平局。平局里有两条规律站得住：能够利用股票之间横截面图结构的图/时空模型（MTGNN、DFDGCN、GWNet、STPGNN……）占据了榜单上沿，前 20 名里有 15 个是图/时空模型；但单个最好的成绩反而来自纯单序列模型 NBeats，所以图模型只是扎堆在前面，并没有甩开其他人。而且没有哪个模型抓到了多少信号：领跑者与真实值的相关性都在 0.04 上下，基本是噪声。学到东西的模型确实跨过了一道真实的门槛——朴素的「照搬上一日」基线（HL）落在榜单尾部（MSE ≈ 1.50），而这一团模型都在 ~0.748。分数分布：最好 0.7483，中位 0.7856，最差 1.7141。

需要诚实地补一句：越过最顶端之后，模型彼此挤作一团，长尾却很宽；多数模型与真实值的相关性接近于零，绝对可预测性很低，沪深300的预测依然是真正的难题。所以这张快照要说的不是「深度模型一举攻克了股票」，也不是「某种架构胜出」，而是：在这份数据上，学到东西的模型大幅领先朴素基线，图模型扎堆在前列，但没有任何单个模型能明显从众模型中脱颖而出。

需要说清楚的是，这只是发布时的一张快照，而非最终定论——多为单一随机种子（seed 2024）、首轮、单一预测步长；更多数据集、更多步长，以及实时数据的定期刷新，都在路上。

完整的方法、结果与解读见研究文章 TS-Eval：开放可复现的时序预测榜单。在线榜单见 diaugeia.ai/tseval，前端 Space 托管在 Hugging Face；数据集与证据材料分布在四个公开仓库：静态数据集、实时数据集、提交记录与权重。

榜单为社区而建。clone ModernTSF，跑你的实验，用 tsf submit --push 提交——欢迎把你的结果摆上来。