可审计金融 NLP 研究 · v4 证据

Financial 10-K Text Agent

10-K 文本能够排序未来波动率，但并不证明可交易 alpha。

我设计并实现了端到端研究流水线，用于检验 SEC 10-K 披露是否包含对未来 20 日实现波动率的样本外信息。

60 秒读懂项目查看结果阅读方法

500SEC 10-K 年报

0.2395预注册主结果 Rank IC

0关键审计失败

2已披露范围警告

8,133 个样本外预测。最佳探索性 Rank IC：0.3668，与预注册主结果分开报告。

给招生评审

60 秒读懂这个项目

五个答案直接连接金融问题、我的贡献、研究证据和结论边界。

查看我的贡献 ↓

01 · 研究问题 10-K 语言是否包含前瞻性风险信息？

检验年报文本能否在样本外排序公司未来 20 日实现波动率。

02 · 我完成的工作 一套端到端、防泄漏的研究流程

SEC 年报获取、section 审核、前瞻标签、滚动切分、训练期文本特征、模型、诊断和审计报告。

03 · 最有支持的发现 预注册 Ridge Rank IC = 0.2395

固定 50 家公司面板中存在正向的样本外波动率排序信息。

04 · 没有证明什么 没有建立可部署的交易 alpha

预注册组合 Sharpe 为 -0.8539；组合结果仅作为诊断。

05 · 证据边界 应用级公开数据试验，不等同于 CRSP/WRDS 研究

样本是固定活跃公司面板，市场数据采用混合公开来源；这些限制被主动披露，而不是隐藏。

如何阅读证据

先看预注册主结论，再看模型探索

规格注册表将两项预注册检验与稳健性检查、探索性比较明确分开。

预注册

1 个主预测 + 1 个主组合检验

主预测 Rank IC 0.2395；主组合 Sharpe -0.8539。

诊断与探索

26 个检验族中的 594 个规格

消融、基准、行业中性化、收益率目标和模型比较均与主结论分开报告。

审计边界

0 个关键失败 · 2 个范围警告

警告披露公开数据与样本范围限制，不会把探索性证据包装成正式结论。

当前版本：50_company_public_fmp_alpha_2016_2025_v4 · 阅读审计边界

结果快照

波动率排序证据

最强观察结果属于探索性比较；预注册 Ridge 主结果仍为正。

仅 TF-IDF/SVD探索性最佳

0.3668

行业 + 文本增量诊断

0.3296

行业均值经济基准

0.2924

综合文本 Ridge预注册主结果

0.2395

主预测Rank IC 0.2395

原始 p 值 0.00067. 支持探索性波动率排序证据。

主组合Sharpe -0.8539

原始 p 值 0.1147. 尚未建立可交易 alpha。

我的贡献

我设计和实现了什么

我从 SEC 年报抓取到样本外证据审计，搭建了完整研究流程。

研究设计

滚动训练 / 验证 / 测试切分、前瞻标签、预注册规格和 embargo 防泄漏控制。

查看配置 ↗规格注册表 ↗

金融 NLP 流水线

年报 section 解析、Loughran-McDonald 词典特征、训练期内 TF-IDF/SVD 和模型清单。

查看实现 ↗

评估与审计

Rank IC、特征消融、行业中性诊断、cluster bootstrap、覆盖率检查和自动报告。

v4 结果包 ↗测试 ↗

Python · scikit-learn · XGBoost · SEC EDGAR · pytest · Ruff · GitHub Actions

为什么重要

不只是情绪分数或文档检索

前瞻标签

把年报文本连接到未来波动率和异常收益目标。

滚动样本外设计

按时间区分训练、验证和测试窗口。

训练期特征

每个 split 的 TF-IDF/SVD 词表只在训练窗口拟合。

证据层级

把预注册主结论和探索性模型比较分开报告。

研究审计

披露 parser 问题、bootstrap 不确定性、覆盖率和多重检验。

流程

从 SEC 年报到可审计证据

SEC 年报acceptance 时间戳

Parser 复核section 质量标记

标签未来目标

滚动切分embargo + OOS

文本特征仅训练窗口

诊断消融 + bootstrap

审计结论与边界

查看证据

沿着公开审计链检查

精简、合规的公开文件把每个核心数字连接到可复核证据。

阅读 Working PaperSSRN 稳定公开页面 v4 结果包所有公开文件因子卡片最快结果摘要特征消融文本与行业对比 Bootstrap 报告聚类置信区间 Parser 复核人工质量附录

使用边界

这是应用级探索性运行，不是 CRSP/WRDS 等价的正式资产定价证据，不是无幸存者偏差复现，不是生产交易系统，也不是投资建议。