应用型金融 NLP 研究

Financial 10-K Text Agent

一个可审计的金融 NLP 研究流水线,用于检验 SEC 10-K 披露文本是否包含对未来波动率和异常收益目标的样本外预测信息。

本项目位于金融 NLP、实证资产定价、滚动样本外验证和研究审计的交叉点。它不是 RAG 演示、通用情绪分类器,也不是 AI 交易机器人。

规模

当前版本核心指标

50
公司
500
SEC 10-K 年报
FY2016-FY2025
样本区间
1,500
预测标签
4,716
样本外预测
520k+
特征记录
568
测试规格
100%
合格样本外覆盖率

主发现

预注册主预测结果

预注册主预测规格使用 Ridge 预测未来 20 个交易日实现波动率,并以 ALL_SPLITS Rank IC 作为评价指标。

Ridge -> realized_volatility_1_20
Rank IC 0.2606
原始 p 值 0.00017

这支持一种探索性样本外证据:10-K 文本特征包含关于未来 20 日实现波动率排序的信息。该结论是预测证据,不是可交易 alpha 结论。

模型比较

最佳观察到的探索性预测结果

最强的模型比较结果与预注册主结论分开报告,避免事后挑选结果。

探索性模型比较结果
模型 目标 Rank IC NW t 统计量 RMSE
XGBoost realized_volatility_1_20 0.3133 6.8479 0.00834

这是探索性模型比较证据,不是预注册主结论。

流水线

从 SEC 年报到审计结果

1SEC 年报

官方 10-K 文件和提交时间戳。

2文本解析

Business、Risk Factors、Legal Proceedings、MD&A。

3标签构建

未来波动率和异常收益目标。

4样本切分

滚动训练 / 验证 / 测试窗口。

5文本特征

LM 词典语调和训练窗口内拟合的 TF-IDF/SVD。

6模型

基准模型、Ridge 和 XGBoost。

7诊断

Rank IC、Newey-West 和组合诊断。

8审计

覆盖率、manifest、规格注册表和校验和。

研究控制

带审计轨迹的研究工作流

防泄漏控制

滚动切分、提交时间对齐、标签窗口检查和训练窗口内词表拟合,用于降低前视偏差。

模型横向比较

历史均值、行业均值、Ridge 和 XGBoost 在滚动样本外评价下进行比较。

多重检验

披露 568 个测试规格,并使用 Bonferroni、Holm 和 Benjamini-Hochberg FDR 调整。

审计轨迹

结果包包含审计报告、覆盖率瀑布图、模型和特征 manifest、词表哈希、预测尺度检查和校验和。

使用边界

这是一个应用级探索性研究运行。它不声称拥有等同 CRSP/WRDS 的正式资产定价证据、无幸存者偏差的研究级股票池、生产级交易系统、已被证明的可交易 alpha,或任何投资建议。

组合输出仅作为诊断。预注册主组合规格没有建立正式可交易 alpha。

个人贡献

我的贡献

研究设计

定义实证问题、主预测目标和预注册结果结构。

数据工程

构建覆盖 50 家公司 10-K 面板的文档、价格、标签和切分 artifact。

NLP 特征

实现词典语调特征和训练窗口内拟合的 TF-IDF/SVD 特征。

建模

在滚动样本外评价下比较基准模型、Ridge 和 XGBoost。

研究审计

加入覆盖率、泄漏检查、多重检验和 artifact 完整性报告。

结果解释

报告波动率预测证据,同时将组合结果保守处理为诊断信息。