数据质量成熟度模型 分析数据准备的几个等级
发布时间:2022-06-15 03:17:15 所属栏目:安全 来源:互联网
导读:生成可供分析的数据的一个关键要求是数据必须是好的。各组织对良好数据质量的定义存在差异,这些定义符合其在分析和数据科学方面的成熟度。 第1级:数据来源 了解数据来自哪里、如何收集、如何转换、为什么以及由谁转换,是任何可用数据集的最基本要求。例如
生成可供分析的数据的一个关键要求是数据必须是“好”的。各组织对良好数据质量的定义存在差异,这些定义符合其在分析和数据科学方面的成熟度。 第1级:数据来源 了解数据来自哪里、如何收集、如何转换、为什么以及由谁转换,是任何可用数据集的最基本要求。例如,在临床环境中——如果我们不知道哪个实验室进行了测试,谁资助了这项研究,血压是站立还是坐下,或者在我们得到试验结果之前是否将某些患者从试验结果中剔除——数据实际上是无用的。 拥有关于每个数据集的明确出处、沿袭、所有者和其他元数据——甚至在查看数据本身之前——是任何数据分析之前的基本要求。在医疗保健领域,披露利益冲突、资金来源、隐私和其他道德考虑也是关键。 俗话说——“如果你足够折磨数据,它会告诉你任何事情”。 第2级: 异常值、混乱和不太可能的组合 下一个级别超越单个数据元素,进入描述性统计数据和可能的错误。例如,一名患者服用 12,345 种不同类型的药物很可能是数据输入错误,或者至少是在计算对异常值敏感的描述性统计数据(如均值和标准差)时应排除的异常值。 有时问题不是个别异常值,而是一连串几乎是例外的情况。例如,在一个网站每秒网络流量的数据集中,10 分钟内从历史标准增加 100 倍的可能性要大得多,这很可能是机器人的结果,而不是真实用户活动的结果。Flurries 经常出现在时间序列数据中,必须根据具体情况决定保留或删除。 领域专家还应该深入挖掘以发现由于不太可能的组合而导致的错误。特别是在医疗保健领域,通常可以识别出临床上不太可能的组合。例如,在一个案例中,一个 25 岁的女性体重 535 磅本身是合理的,但查看同一患者的其他测量和实验室结果,很明显这是一个打字错误53.5磅的女人。这种“临床上不太可能的组合”通常是数据输入错误,应该在下游数据分析之前消除。 第 3 级需要更深入的统计知识以及 DataOps 团队更深入的领域专业知识。如示例所示,在此级别“固定”数据质量不再能够完全自动化。 (编辑:上饶站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |