结果与证据文件
这是最新应用级 SEC 10-K 文本因子运行的精简公开摘要:50_company_public_fmp_alpha_2016_2025_v1。
运行摘要
50家公司应用级试验
| Run ID | 50_company_public_fmp_alpha_2016_2025_v1 |
|---|---|
| 股票池 | 50 家美国大盘公司 |
| 样本区间 | FY2016-FY2025 |
| SEC 10-K 年报 | 500 |
| 标签 | 1,500 |
| 样本外预测 | 4,716 |
| 特征记录 | 520,465 |
| 测试规格 | 568 |
主结果
Ridge 预测 realized_volatility_1_20,并使用 ALL_SPLITS Rank IC 评价。
最佳观察到的预测结果
XGBoost 对 realized_volatility_1_20 的结果作为模型比较证据报告,不作为预注册主结论。
| Rank IC | 0.3133 |
|---|---|
| Newey-West t 统计量 | 6.8479 |
| RMSE | 0.00834 |
模型对比
不同模型的 Rank IC
这里展示 realized_volatility_1_20 在 ALL_SPLITS test
上的 Rank IC。Ridge 是预注册主模型;XGBoost 是探索性模型对比。
0.3133
0.2952
0.2606
-0.0206
条形长度按图中最大 Rank IC 缩放。负值表示当前分数方向与未来波动率排序方向相反。
审计
覆盖率与控制
审计轨迹区分 raw label coverage 与 eligible OOS prediction coverage,披露多重检验,并记录应用级数据边界。
证据文件
代表性公开 artifact
数据边界
SEC EDGAR 提供官方 10-K 文件和提交时间戳。市场数据使用 FMP/Yahoo 混合公开数据源,selection 时点市值为应用级估计。
这不是等同 CRSP/WRDS 的无幸存者偏差研究级复现。
解释规则
该结果包可作为可审计金融 NLP 研究工作流和探索性波动率预测证据。
组合输出仅作为诊断;该结果包不建立正式可交易 alpha,也不提供投资建议。
可复现性
在本地运行公开代码
公开仓库可以在不使用私有数据的情况下完成 clone、安装、lint 和测试。完整真实数据运行需要 API key 和本地私有数据目录。
git clone https://github.com/uiclxh/financial-10k-text-agent.git
cd financial-10k-text-agent
python -m pip install -e ".[dev]"
python -m ruff check .
python -m pytest
项目代码以 MIT License 开源。