方法 / 审计

防泄漏研究设计

50家公司公开结果包被设计为可审计的实证金融工作流:年报有时间戳, 特征只在训练窗口拟合,模型只用验证窗口调参,组合输出仅作为诊断。

方法流程

从年报发布时间到结论边界

SEC 10-K发布时间与章节文本
事件标签未来波动率与 CAR
滚动样本外训练 / 验证 / 测试
文本特征LM 词典 + TF-IDF/SVD
审计报告覆盖率与边界披露

控制机制

研究审计控制

事件时间对齐

先根据年报发布时间确定预测时间,再构造未来标签,避免未来价格窗口进入特征。

滚动切分

实验使用滚动训练、验证、测试窗口,并记录 forward-label overlap 的 purge 结果。

训练窗口词表

TF-IDF/SVD 词表只在每个训练窗口拟合,并通过 vocabulary manifest 与 hash 记录。

验证窗口调参

Ridge 与 XGBoost 超参数只用 validation Rank IC 选择,测试集指标不参与调参。

预注册规则

主预测和主组合规格与稳健性、探索性比较分开记录,避免事后挑结果。

多重检验披露

本次运行披露 568 个测试规格,并报告 Bonferroni、Holm 和 BH-FDR 校正。

审计图表

覆盖率瀑布图

raw label coverage 会包含不属于配置样本外窗口的标签;真正衡量模型完整性的是 eligible OOS prediction coverage。

原始标签 48.7%
合格样本外 100%
模型应预测 100%
主规格覆盖 2 / 2
审计失败:0 审计警告:2

预测结论边界

预注册主预测支持探索性的波动率预测证据:Ridge 预测 realized_volatility_1_20 的 Rank IC 为 0.2606,原始 p 值为 0.00017

交易结论边界

组合结果仅作为诊断。本公开结果包不证明正式可交易 alpha, 不构成投资建议,也不等同于 CRSP/WRDS 级别的资产定价证据。