DataQuality
Contents
💠
-
- 1.1. 数据清洗
💠 2024-11-13 17:32:20
Data Quality
数据清洗
whyhow-ai/knowledge-table
非结构化提取结构化的工具
数据清洗概念,方法及流程等等要点初探
Topic
大宽表周期滚动更新时 不同版本间的数据质量分析
背景: A1表 A2表 表结构一致,内容数据有区别,例如A1包含1月的销售数据 A2包含1-2月销售数据。
诉求: 由于A1 A2表都是经过ETL过程产生的数据表,需要检查确认A2表中1月的数据是否存在较大程度的偏离,以及SKU变化情况(新增,删除,变更,一致)需要生成A1A2所有列加差异状态列拼接的结果大宽表。
注意前提:业务主键所标识的数据不能重复 实现方案:
A:
- 依据业务主键做两个表之间的集合差运算先找出 新增和删除
- 选择A1表作为驱动表, 分批找出 not in 新增和删除的主键, 即变更或一致的主键数据, 依据A1表数据拎出A2表数据,Java应用层计算得到差异细节,写入到结果表
B:
A1 LEFT JOIN A2
一步得到结果大宽表, 强依赖底层数据引擎的大宽表JOIN能力,像CK就不适合。- 扫描结果大宽表,应用层计算差异,更新到差异状态列
Author Kuangcp
LastMod 2024-05-07