# PDF Key Extraction Rules

本页定义如何从讲义 PDF 中提取知识库内容。

目标不是复制讲义，而是提取考试可用的结构化信息。

## 优先提取内容

| 类型 | 放入哪里 | 示例 |
|---|---|---|
| Formula | [Formula Dictionary](Formula_Dictionary.md) | required return, duration, EPS |
| Advantages / Disadvantages | [Key Points Index](Key_Points_Index.md) | 优点、缺点、适用场景 |
| Characteristics | [Key Points Index](Key_Points_Index.md) | 特征、限制、典型信号 |
| Definition | [Vocabulary Dictionary](Vocabulary_Dictionary.md) 或 Key Points | 专有名词定义 |
| Classification | [Key Points Index](Key_Points_Index.md) | 分类、对比表 |
| Process / Steps | [Key Points Index](Key_Points_Index.md) | 步骤、顺序、判断流程 |
| Common Traps | [Wrong Question Book](../04_Practice/Wrong_Question_Book.md) 或 Key Points | 容易混淆点 |

## 提取粒度

每条内容要短、可复习、可做题。

不要做：

- 不复制整页讲义。
- 不把所有段落变成笔记。
- 不追求讲义完整复刻。

要做：

- 提取公式和变量解释。
- 提取优缺点对比。
- 提取特征和关键词。
- 标注科目、module、星级。
- 能关联错题或 mock 时写上 ID。

## PDF 资料

| 科目 | PDF |
|---|---|
| Quant | D:/BaiduNetdiskDownload/【数量】知识精讲讲义（带计算器）.pdf |
| Corporate Issuers | D:/BaiduNetdiskDownload/【讲义】知识精讲：公金（Zion）.pdf |
| Equity | D:/BaiduNetdiskDownload/【讲义】知识精讲：权益（Wen）.pdf |
| FSA | D:/BaiduNetdiskDownload/【讲义】知识精讲：财报（Chen）.pdf |
| Economics | D:/BaiduNetdiskDownload/L1知识精讲：经济（Chen）.pdf |
| Portfolio | D:/BaiduNetdiskDownload/知识精讲：组合（Luke）.pdf |
| Derivatives | D:/BaiduNetdiskDownload/知识精讲衍生（Luke）.pdf |
| Alternative Investments | D:/BaiduNetdiskDownload/【另类讲义】知识精讲阶段.pdf |

## 当前读取状态

已检查这些 PDF：大多数讲义能打开，但前几页没有可抽取文本层，说明很可能是图片型/扫描型 PDF。普通文本抽取无法直接提取公式、优缺点和特征。

| 状态 | 含义 | 处理 |
|---|---|---|
| Text layer empty | PDF 能打开，但文字不可复制式抽取 | 需要 OCR、截图识别，或提供可复制文字版 |
| Encrypted / dependency issue | 个别 PDF 需要额外解密依赖 | 后续单独处理 |

这不影响系统设计，但会影响自动化程度：如果没有 OCR，重点提取需要改成“你给截图/页码，我提取结构化知识点”。

## 下一步

先从 Quant PDF 中提取当前相关内容：

1. M6 Simulation Methods。
2. 如果 M1-M5 你没有系统学完，再回补 M1-M5 的公式和核心特征。