量化机器学习里“模型走捷径”的典型现象与应对方法

这个现象在量化里特别典型：模型会优先学“最容易降低 loss 的信号”，而这些信号往往是：

想让训练“无偏”（更准确说：对齐你最终能落地的 alpha key driver），常用办法可以按“从简单到高级”分四类：

1) 先把“不可实现的部分”从数据层面关掉

这是性价比最高的一步（很多时候比改 loss 更有效）：

这一步的目的：别让模型把“你根本做不到的收益”当成最省力的捷径。

如果 label 本身就是“毛收益”，模型天然会偏向那些 毛收益很大但成本也很大 / 不可交易 的点。

常见更贴近落地的 label 设计：

净收益 label：用
未来收益 - 预估交易成本(冲击 + 手续费)
做 label（哪怕是粗糙成本模型也比没有强）。
排序型 label（Rank / LTR）：你最终是选股+组合，很多时候“排序正确”比“点值预测准”重要。
残差 / 去暴露后的 label：比如先把未来收益对行业 / 风格 / beta 回归，拿 residual 当 label（对应“特质 alpha”）。

重点：怎么让模型别学到不该学的 driver。

在 loss 里加一项：让模型输出分数与行业/风格暴露“不要太相关”：

直觉：模型想靠行业赚钱 → loss 会痛 → 它就会去找更“特质”的解释。

如果你们最终受换手/冲击成本约束，训练里就把“频繁变动”变贵：

比如在行业内做 pairwise 排序 loss：
让模型学“同一行业里谁更好”，而不是“行业 A > 行业 B”。

Huber / Quantile 之类，让极端点不会主导梯度（避免模型为了少数极端样本扭曲常态）。

“label 考虑风险约束”等，这条路能走，但通常不直接把“优化器输出收益”当 label，而是：

优点：目标对齐
缺点：工程复杂、容易不稳定，需要强验证

要让模型不走捷径，最稳的顺序是：

先 mask 不可交易 → 再把 label 变成“净的 / 残差的” → 再加暴露与换手惩罚 → 最后再考虑端到端。