codebook-pass
Installation
SKILL.md
codebook-pass — 调查数据清洗Skill
本 Skill 是处理中国综合社会调查(CGSS)、中国家庭收入调查(CHIP)、中国社会科学调查(CSS)等大型调查数据的标准化清洗流程。确保从 codebook 到可用面板数据的每一步都可审计、可复现。
适用场景
- 从 CGSS/CHIP/CSS 等数据库下载原始数据后
- 合并多个年份的调查数据时
- 构建面板数据时
- 论文数据准备阶段
核心理念
调查数据清洗的核心原则:原始数据只读不修改,所有转换操作记录在 processed/ 文件夹中,且必须更新 provenance.json。
三个关键规则:
- 原始数据不可直接修改——所有操作在
processed/文件夹中进行 - 每一步转换必须有记录——包括变量名、编码、处理方式
- 缺失值必须明确标注——不得将缺失值默认为 0 或其他有意义的数值