方法 / 审计 · v4

方法与审计

每个结论都必须连接到带时间戳、可检验的证据文件。

年报、标签、切分、特征、模型、预测、推断、组合诊断和审计检查共同构成证据链。

50_company_public_fmp_alpha_2016_2025_v4

防泄漏研究设计

只有过去可得信息进入预测

每个文本特征和模型决策都必须在预测时间点之前可得。

1Filing 时间戳SEC acceptance time 定义信息可得时间。

2Section 解析抽取 Business、Risk Factors、Legal Proceedings 和 MD&A。

3前瞻标签波动率和 CAR 目标只在 filing 可得后开始计算。

4滚动切分训练、验证和测试窗口随时间滚动，并执行 embargo purge。

5训练窗口特征TF-IDF/SVD 词表只在训练窗口内拟合。

6仅验证集调参超参数只用 validation Rank IC 选择。

7考虑并列值的测试 Rank IC测试排序使用平均秩；常数预测返回零 Rank IC。

8证据层级主规格、稳健性规格和探索性规格保持分离。

9审计边界披露覆盖率、parser 质量、数据限制和结论强度。

关键控制项

研究控制概览

控制项	实现方式
事件时间对齐	Filing 时间戳定义信息可得性。
滚动样本外设计	训练 / 验证 / 测试窗口随时间滚动。
防泄漏控制	Embargo purge 和 split-leakage logs。
模型选择	仅使用 validation Rank IC。
TF-IDF 控制	训练窗口内词表拟合。
文本增量诊断	行业中性 Rank IC 和特征消融。
统计不确定性	Newey-West 和聚类 bootstrap 置信区间。
数据挖掘风险	规格注册表和多重检验报告。
Parser 质量	对较短或异常 section 建立人工复核附录。

特征构造

金融文本表示

Loughran-McDonald 词典语调和 TF-IDF/SVD 覆盖全文、Business、Risk Factors、Legal Proceedings 和 MD&A 范围。

特征集	含义
`industry_only`	训练窗口行业均值基准。
`dictionary_only`	词典语调文本特征。
`tfidf_svd_only`	TF-IDF/SVD 文本表示。
`combined_text`	词典与文本表示的组合。
`industry_plus_text`	行业特征加文本特征。

行业中性诊断移除 split-行业均值后，文本是否仍保留信息？

行业中性 Rank IC 是描述性诊断，不是因果分解。

Bootstrap inference

如何报告不确定性

Split bootstrap

v4 只有四个 OOS split 簇，因此结论不充分。

事件日 bootstrap

支持正向原始主 Rank IC 区间。

Ticker 聚类 bootstrap

支持正向原始主 Rank IC 区间。

行业中性 bootstrap

点估计为正，但 bootstrap 稳健性不足。

Parser 质量复核

Section 抽取经过审计，而不是默认可信

2,000

解析 section 记录

144

人工复核记录

144

被排除 section 记录

494

较短但保留记录

Item 1A 和 Item 7 少于 100 词时从 section 级特征中排除；100 到 499 词的核心 section 保留但带 warning。

证据边界

预测证据与交易证据分别判断

预注册主预测

Ridge · `realized_volatility_1_20`

Rank IC0.2395

原始 p 值为 0.00067，支持探索性波动率排序证据。

预注册主组合

月度行业中性等权组合

Sharpe-0.8539

原始 p 值为 0.1147；未建立可交易 alpha。

正式结论边界

正式实证金融结论受数据边界限制，而不是 pipeline 失败：FMP/Yahoo 混合数据、应用级市值估计、固定 50 公司样本、parser 质量限制，以及少量诊断模型-标签对缺失。

该项目应理解为用于探索性波动率排序的应用级、可审计金融 NLP 工作流。