防泄漏研究设计
50家公司公开结果包被设计为可审计的实证金融工作流:年报有时间戳, 特征只在训练窗口拟合,模型只用验证窗口调参,组合输出仅作为诊断。
方法流程
从年报发布时间到结论边界
控制机制
研究审计控制
事件时间对齐
先根据年报发布时间确定预测时间,再构造未来标签,避免未来价格窗口进入特征。
滚动切分
实验使用滚动训练、验证、测试窗口,并记录 forward-label overlap 的 purge 结果。
训练窗口词表
TF-IDF/SVD 词表只在每个训练窗口拟合,并通过 vocabulary manifest 与 hash 记录。
验证窗口调参
Ridge 与 XGBoost 超参数只用 validation Rank IC 选择,测试集指标不参与调参。
预注册规则
主预测和主组合规格与稳健性、探索性比较分开记录,避免事后挑结果。
多重检验披露
本次运行披露 568 个测试规格,并报告 Bonferroni、Holm 和 BH-FDR 校正。
审计图表
覆盖率瀑布图
raw label coverage 会包含不属于配置样本外窗口的标签;真正衡量模型完整性的是 eligible OOS prediction coverage。
预测结论边界
预注册主预测支持探索性的波动率预测证据:Ridge 预测
realized_volatility_1_20 的 Rank IC 为
0.2606,原始 p 值为 0.00017。
交易结论边界
组合结果仅作为诊断。本公开结果包不证明正式可交易 alpha, 不构成投资建议,也不等同于 CRSP/WRDS 级别的资产定价证据。