50家公司公开结果包

结果与证据文件

这是最新应用级 SEC 10-K 文本因子运行的精简公开摘要:50_company_public_fmp_alpha_2016_2025_v1

运行摘要

50家公司应用级试验

Run ID50_company_public_fmp_alpha_2016_2025_v1
股票池50 家美国大盘公司
样本区间FY2016-FY2025
SEC 10-K 年报500
标签1,500
样本外预测4,716
特征记录520,465
测试规格568
预注册主结果

主结果

Ridge 预测 realized_volatility_1_20,并使用 ALL_SPLITS Rank IC 评价。

Rank IC 0.2606
原始 p 值 0.00017
探索性比较

最佳观察到的预测结果

XGBoost 对 realized_volatility_1_20 的结果作为模型比较证据报告,不作为预注册主结论。

Rank IC0.3133
Newey-West t 统计量6.8479
RMSE0.00834

模型对比

不同模型的 Rank IC

这里展示 realized_volatility_1_20 在 ALL_SPLITS test 上的 Rank IC。Ridge 是预注册主模型;XGBoost 是探索性模型对比。

XGBoost 探索性文本模型
0.3133
Industry mean 行业均值基准
0.2952
Ridge 预注册主模型
0.2606
Historical mean 历史均值基准
-0.0206

条形长度按图中最大 Rank IC 缩放。负值表示当前分数方向与未来波动率排序方向相反。

审计

覆盖率与控制

100%
合格样本外覆盖率
0
审计失败
2
审计警告
568
测试规格

审计轨迹区分 raw label coverage 与 eligible OOS prediction coverage,披露多重检验,并记录应用级数据边界。

原始标签 48.7%
合格样本外 100%
主规格覆盖 2 / 2

数据边界

SEC EDGAR 提供官方 10-K 文件和提交时间戳。市场数据使用 FMP/Yahoo 混合公开数据源,selection 时点市值为应用级估计。

这不是等同 CRSP/WRDS 的无幸存者偏差研究级复现。

解释规则

该结果包可作为可审计金融 NLP 研究工作流和探索性波动率预测证据。

组合输出仅作为诊断;该结果包不建立正式可交易 alpha,也不提供投资建议。

可复现性

在本地运行公开代码

公开仓库可以在不使用私有数据的情况下完成 clone、安装、lint 和测试。完整真实数据运行需要 API key 和本地私有数据目录。

本地运行命令
git clone https://github.com/uiclxh/financial-10k-text-agent.git
cd financial-10k-text-agent
python -m pip install -e ".[dev]"
python -m ruff check .
python -m pytest

项目代码以 MIT License 开源。