Качество данных


Качество данных относится к состоянию качественных или количественных частей информации. Существует много определений качества данных, но данные обычно считаются качественными, если они «пригодны для [своего] предполагаемого использования в операциях , принятии решений и планировании ». [1] [2] [3] Кроме того, данные считаются высококачественными, если они правильно представляют реальную конструкцию, к которой они относятся. Кроме того, помимо этих определений, по мере увеличения количества источников данных вопрос внутренней непротиворечивости данныхстановится значительным, независимо от пригодности к использованию для какой-либо конкретной внешней цели. Мнения людей о качестве данных часто могут расходиться, даже при обсуждении одного и того же набора данных, используемого для одной и той же цели. В этом случае управление данными используется для формирования согласованных определений и стандартов качества данных. В таких случаях может потребоваться очистка данных , включая стандартизацию, для обеспечения качества данных. [4]

Определить качество данных в предложении сложно из-за множества контекстов, в которых используются данные, а также из-за различных точек зрения конечных пользователей, производителей и хранителей данных. [5]

Можно утверждать, что во всех этих случаях «качество данных» представляет собой сравнение фактического состояния конкретного набора данных с желаемым состоянием, при этом желаемое состояние обычно называют «пригодным для использования», «соответствует спецификации», « соответствие ожиданиям потребителей», «без дефектов» или «соответствие требованиям». Эти ожидания, спецификации и требования обычно определяются одним или несколькими лицами или группами, организациями по стандартизации, законами и правилами, бизнес-политиками или политиками разработки программного обеспечения. [5] При дальнейшем углублении эти ожидания, спецификации и требования формулируются в терминах характеристик или измерений данных, например: [5] [6] [7] [8] [11]

Систематический предварительный обзор литературы показывает, что параметры и методы качества данных с реальными данными не согласуются в литературе, и в результате оценка качества затруднена из-за сложного и разнородного характера этих данных. [11]

В 2021 году рабочая группа Data Quality DAMA Netherlands провела исследование определений параметров качества данных. Он собрал определения из различных источников и сравнил их друг с другом. Рабочая группа также проверила определения на соответствие критериям, полученным из стандарта для понятий и определений: ISO 704 . Результатом является список из 60 измерений качества данных и их определений. [12]

До появления недорогих компьютерных хранилищ данных массивные мэйнфреймы использовались для хранения имен и адресных данных для служб доставки. Это было сделано для того, чтобы почта могла правильно направляться к месту назначения. Мейнфреймы использовали бизнес-правила для исправления распространенных орфографических ошибок и опечаток в именах и адресных данных, а также для отслеживания клиентов, которые переехали, умерли, попали в тюрьму, женились, развелись или пережили другие события, изменившие жизнь. Государственные учреждения начали предоставлять почтовые данные нескольким обслуживающим компаниям для сопоставления данных клиентов с Национальным реестром смены адреса (NCOA).. Эта технология сэкономила крупным компаниям миллионы долларов по сравнению с ручным исправлением данных клиентов. Крупные компании экономили на почтовых расходах, поскольку счета и материалы прямого маркетинга более точно доходили до предполагаемого клиента. Первоначально продаваемое как услуга, качество данных переместилось в стены корпораций, когда стали доступны недорогие и мощные серверные технологии. [ нужна ссылка ]