数据质量成熟度模型分析数据准备的几个等级

发布时间：2022-06-15 03:17:15 所属栏目：安全来源：互联网

导读：生成可供分析的数据的一个关键要求是数据必须是好的。各组织对良好数据质量的定义存在差异，这些定义符合其在分析和数据科学方面的成熟度。第1级：数据来源了解数据来自哪里、如何收集、如何转换、为什么以及由谁转换，是任何可用数据集的最基本要求。例如

　　生成可供分析的数据的一个关键要求是数据必须是“好”的。各组织对良好数据质量的定义存在差异，这些定义符合其在分析和数据科学方面的成熟度。

　　第1级：数据来源
　　了解数据来自哪里、如何收集、如何转换、为什么以及由谁转换，是任何可用数据集的最基本要求。例如，在临床环境中——如果我们不知道哪个实验室进行了测试，谁资助了这项研究，血压是站立还是坐下，或者在我们得到试验结果之前是否将某些患者从试验结果中剔除——数据实际上是无用的。

　　拥有关于每个数据集的明确出处、沿袭、所有者和其他元数据——甚至在查看数据本身之前——是任何数据分析之前的基本要求。在医疗保健领域，披露利益冲突、资金来源、隐私和其他道德考虑也是关键。

　　俗话说——“如果你足够折磨数据，它会告诉你任何事情”。

　　第2级：异常值、混乱和不太可能的组合
　　下一个级别超越单个数据元素，进入描述性统计数据和可能的错误。例如，一名患者服用 12,345 种不同类型的药物很可能是数据输入错误，或者至少是在计算对异常值敏感的描述性统计数据（如均值和标准差）时应排除的异常值。

　　有时问题不是个别异常值，而是一连串几乎是例外的情况。例如，在一个网站每秒网络流量的数据集中，10 分钟内从历史标准增加 100 倍的可能性要大得多，这很可能是机器人的结果，而不是真实用户活动的结果。Flurries 经常出现在时间序列数据中，必须根据具体情况决定保留或删除。

　　领域专家还应该深入挖掘以发现由于不太可能的组合而导致的错误。特别是在医疗保健领域，通常可以识别出临床上不太可能的组合。例如，在一个案例中，一个 25 岁的女性体重 535 磅本身是合理的，但查看同一患者的其他测量和实验室结果，很明显这是一个打字错误53.5磅的女人。这种“临床上不太可能的组合”通常是数据输入错误，应该在下游数据分析之前消除。

　　第 3 级需要更深入的统计知识以及 DataOps 团队更深入的领域专业知识。如示例所示，在此级别“固定”数据质量不再能够完全自动化。

（编辑：上饶站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

首席信息安全官依然会	#8203;揭露 NIST 网络
大数据时代下的隐私维	Facebook泄漏5000万用

数据质量成熟度模型 分析数据准备的几个等级

数据质量成熟度模型分析数据准备的几个等级