Подготовка данных

Эта статья требует внимания эксперта в области вычислительной техники . Конкретная проблема заключается в следующем: замените оставшиеся некачественные (спам?) Веб-ссылки на известные книги. WikiProject Computing может помочь нанять эксперта. ( Февраль 2019 г. )

Подготовка данных - это процесс обработки (или предварительной обработки) необработанных данных (которые могут поступать из разрозненных источников данных) в форму, которая может быть легко и точно проанализирована, например, для деловых целей. ^[1]

Подготовка данных является первым шагом в данных аналитических проектах и может включать в себя множество отдельных задач , такие как загрузка данные или прием данных, слияние данных , очистка данных , увеличение данных , и доставки данных. ^[2]

Проблемы, которые необходимо решить, делятся на две основные категории:

систематические ошибки, связанные с большим количеством записей данных, вероятно, потому, что они поступили из разных источников;
отдельные ошибки, влияющие на небольшое количество записей данных, вероятно, из-за ошибок в исходной записи данных.

Спецификация данных [ править ]

Первый шаг - изложить полную и подробную спецификацию формата каждого поля данных и значения этих записей. При этом следует тщательно учитывать:

самое главное, консультации с пользователями данных
любая доступная спецификация системы, которая будет использовать данные для выполнения анализа
полное понимание имеющейся информации и любых пробелов в исходных данных.

См. Также спецификацию определения данных .

Пример [ править ]

Предположим, есть двухсимвольное буквенное поле, обозначающее географическое положение. Возможно, что в одном источнике данных код «EE» означает «Европа», а в другом источнике данных тот же код означает «Эстония». Потребуется разработать однозначный набор кодов и соответственно изменить код в одном наборе записей.

Кроме того, «географическая зона» может относиться к любому из, например, адреса доставки, адреса выставления счетов, адреса, с которого поставляются товары, валюты выставления счетов или применимых национальных правил. Все эти вопросы должны быть отражены в спецификации.

В этом поле могут быть записи с «X» или «555». Ясно, что это неверные данные, поскольку они не соответствуют спецификации. Если таких записей мало, их можно исправить вручную или, если точность не важна, просто удалить эти записи из файла. Другой вариант - создать категорию «неизвестно».

Другие примеры неверных данных, требующих исправления [ править ]

Телефонные номера имеют правильный формат и правильные значения для территории, указанной в поле географического местоположения. Код страны может присутствовать в одних записях, но не в других: его следует либо удалить, либо вставить (в зависимости от географического положения) в зависимости от спецификации данных. Точно так же форматы дат и единиц измерения (веса, длины) могут быть несовместимыми.
В некоторых случаях недостающие данные должны быть предоставлены из внешних источников (например, поиск почтового индекса адреса через внешний источник данных).
Данные должны быть согласованными между разными, но связанными записями данных (например, один и тот же человек может иметь разные даты рождения в разных записях или наборах данных).

Там, где это возможно и экономично, данные следует проверять по авторитетному источнику (например, деловая информация сопоставляется с базой данных D&B ^{[ требуется разъяснение ]} для обеспечения точности)

^[3]^[4]

Учитывая разнообразие источников данных (например, базы данных , бизнес-приложения ), которые предоставляют данные и форматы , в которых могут поступать данные, подготовка данных может быть довольно сложной и сложной. Существует множество инструментов и технологий ^[5] , которые используются для подготовки данных. Стоимость очистки данных всегда должна соотноситься с ценностью повышения точности.

Самостоятельная подготовка данных [ править ]

Традиционные инструменты и технологии, такие как языки сценариев или инструменты ETL и качества данных, не предназначены для бизнес-пользователей. Обычно они требуют навыков программирования или ИТ, которых нет у большинства бизнес-пользователей. ^{[ необходима цитата ]}

Некоторые компании, такие как Paxata, Trifacta, Alteryx, Talend и Ataccama, предоставляют визуальные интерфейсы, которые отображают данные и позволяют пользователю напрямую исследовать, структурировать, очищать, дополнять и обновлять образцы данных, предоставленные пользователем.

После завершения подготовительных работ основные шаги можно выполнить с другими наборами данных для выполнения тех же операций. Такое повторное использование обеспечивает значительное повышение производительности по сравнению с более традиционными ручными методами и методами ручного кодирования для подготовки данных.

См. Также [ править ]

Редактирование данных , исправление ошибок в массиве данных
Предварительная обработка данных , этап очистки данных при интеллектуальном анализе данных для целей анализа
Интеллектуальный анализ данных , поиск закономерностей и понимания в наборах данных
Передача информации

Ссылки [ править ]

^ IRI, Компания CoSort
^ Подготовка данных для интеллектуального анализа данных, Том 1 Морган Кауфманн, 1999
^ Пятиэтапный процесс очистки данных
^ Статья о подготовке данных
^ Опрос инструментов KDNuggets

[1] IRI, Компания CoSort

[2] Подготовка данных для интеллектуального анализа данных, Том 1 Морган Кауфманн, 1999

[3] Пятиэтапный процесс очистки данных

[4] Статья о подготовке данных

[5] Опрос инструментов KDNuggets

[1]