名称: data-reconciliation-exceptions
描述: 使用稳定标识符(薪资编号、驾驶证、驾驶员卡和驾驶员资格证编号)对数据源进行核对,生成异常报告和“无静默失败”检查。适用于需要每周进行匹配,并明确记录无法关联和不匹配原因的场景。
数据质量核对与异常报告(无静默失败)
目的
使用稳定标识符(薪资编号、驾驶证、驾驶员卡和驾驶员资格证编号)对数据源进行核对,生成异常报告和“无静默失败”检查。
使用场景
- 触发条件:
- 需要核对两个数据源并生成附带原因的异常报告。
- 跨文件匹配姓名和薪资编号,并标记所有无法关联的记录。
- 构建“无静默失败”检查,在计数不匹配时停止数据处理流程。
- 创建关于缺失记录、重复记录和日期差异的每周差异报告。
- 设计包含阈值和警示标志的数据质量评分卡。
- 不适用场景:
- 需要进行开放式模糊匹配且没有明确的验收标准。
- 任何数据源中都不存在稳定标识符。
输入
- 必需项:
- 至少两个数据集(CSV/XLSX格式),包含薪资编号和/或驾驶员证件编号。
- 指定必须匹配的字段(例如:姓名、到期日期)。
- 可选项:
- 数据标准化规则(大小写、空格、标点符号处理)。
- 检查点/评分卡的阈值(例如:最大缺失百分比等)。
- 示例:
- 薪资导出文件 + 合规登记表
- 来自不同系统的两份每周导出文件
输出
- 核对计划(匹配规则、标准化规则、关联策略)。
- 异常报告规范(CSV列定义 + 原因代码)和差异检查逻辑。
- 可选交付物:
assets/exceptions-report-template.csv 和 references/matching-rules.md。
成功标准:每条记录都被明确分类(匹配/缺失/重复/不匹配/无效)并附有原因说明;数据处理流程在发现异常时会停止。
工作流程
- 确认数据源和关键标识符的优先级(薪资编号 → 驾驶员卡 → 驾驶证 → 驾驶员资格证)。
- 标准化列数据:
- 去除空格;统一大小写;清除证件编号中的常见标点符号。
- 验证关键标识符:
- 标记空白/格式无效的记录;识别每个数据源中的重复项。
- 进行关联:
- 首先基于薪资编号进行精确关联;然后仅对剩余未匹配的记录尝试使用次要标识符关联。
- 生成带原因的异常类别:
- 在A/B中缺失、重复键、字段不匹配、无效键。
- “无静默失败”检查点:
- 计数在容忍范围内;未匹配率低于阈值;标记重复项激增情况。
- 遇到以下情况时,请暂停并询问用户:
- 列未映射,
- 存在多个竞争性标识符且未定义优先级,
- 未指定预期的容忍度。
输出格式
exception_type,reason,source_a_id,source_b_id,pay_number,name,field,source_a_value,source_b_value
原因代码:MISSING_IN_A, MISSING_IN_B, MISMATCH, DUPLICATE_KEY, INVALID_KEY。
安全性与边界情况
- 默认情况下为只读操作;不自动编辑源数据。将异常记录路由至人工审核。
- 优先使用确定性匹配规则;除非明确要求,否则避免使用模糊匹配。
- 始终生成异常报告;绝不丢弃未匹配的行。
示例