Обработка данных

Преодоление данных , иногда называемое изменением данных , - это процесс преобразования и отображения данных из одной « необработанной » формы данных в другой формат с целью сделать их более подходящими и ценными для различных последующих целей, таких как аналитика. Целью обработки данных является получение качественных и полезных данных. Аналитики данных обычно проводят большую часть своего времени в процессе обработки данных по сравнению с фактическим анализом данных.

Процесс обработки данных может включать дальнейшее изменение , визуализацию данных, агрегирование данных, обучение статистической модели , а также многие другие потенциальные применения. Обработка данных обычно следует за набором общих шагов, которые начинаются с извлечения данных в необработанной форме из источника данных, «перестановки» необработанных данных (например, сортировки) или анализа данных в заранее определенные структуры данных и, наконец, помещения результирующего содержимого в приемник данных для хранения и использования в будущем. ^[1]

Фон [ править ]

«Спорщик» не технический термин , часто говорят, вытекают из работы , проделанной государствами Библиотека Конгресса Соединенных «s Национальный цифровой информационной инфраструктуры и сохранения программы (NDIIPP) и их программы партнером Эмори университета Библиотеки MetaArchive партнерства на основе. Термин «маш» имеют корни в munging , как описано в файле Jargon . ^[2] Термин «Data Wrangler» также был предложен как лучшая аналогия кодировщику для тех, кто работает с данными. ^[3]

Одно из первых упоминаний о споре с данными в научном контексте было сделано Дональдом Клайном во время эксперимента NASA / NOAA «Холодные земли». ^[4] Клайн заявил, что обработчики данных «координируют сбор всей коллекции экспериментальных данных». Клайн также определяет обязанности, которые обычно выполняет администратор хранилища при работе с большими объемами данных . Это может происходить в таких областях, как крупные исследовательские проекты и создание фильмов с большим количеством сложных компьютерных изображений . В исследованиях это подразумевает как передачу данных,от исследовательского инструмента до сети хранения или хранилища, а также от обработки данных для повторного анализа с помощью высокопроизводительных вычислительных инструментов или доступа через цифровые библиотеки на основе киберинфраструктуры .

С появлением искусственного интеллекта в науке о данных для автоматизации обработки данных становится все более важным иметь очень строгие системы сдержек и противовесов, поэтому процесс обработки данных не был автоматизирован с помощью машинного обучения . Сбор данных требует большего, чем просто автоматизированное решение, он требует знания того, какая информация должна быть удалена, а искусственный интеллект не в состоянии понять такие вещи. ^[5]

Подключение к интеллектуальному анализу данных [ править ]

Обработка данных - это надмножество интеллектуального анализа данных, для которого требуются процессы, которые используются в некоторых случаях интеллектуального анализа данных , но не всегда. Процесс интеллектуального анализа данных заключается в поиске закономерностей в больших наборах данных, где обработка данных преобразует данные, чтобы получить представление об этих данных. Несмотря на то, что обработка данных является надмножеством интеллектуального анализа данных, это не означает, что интеллектуальный анализ данных не использует ее, существует множество вариантов использования обработки данных при интеллектуальном анализе данных. Обработка данных может принести пользу интеллектуальному анализу данных за счет удаления данных, которые не приносят пользы для всего набора или неправильно отформатированы, что даст лучшие результаты для всего процесса интеллектуального анализа данных.

Примером интеллектуального анализа данных, который тесно связан с обработкой данных, является игнорирование данных из набора, не связанного с целью: скажем, есть набор данных, относящийся к штату Техас, и цель состоит в том, чтобы получить статистику по жителям Хьюстона. , данные в наборе, относящиеся к жителям Далласа, бесполезны для общего набора и могут быть удалены перед обработкой, чтобы повысить эффективность процесса интеллектуального анализа данных.

Преимущества [ править ]

С увеличением количества необработанных данных увеличивается количество данных, которые по своей сути бесполезны, это увеличивает время, затрачиваемое на очистку и организацию данных, прежде чем они могут быть проанализированы, и именно здесь вступает в игру борьба с данными. Результат обработки данных может предоставить важную статистику метаданных для дальнейшего понимания данных, важно обеспечить согласованность метаданных, иначе это может вызвать препятствия. Обработка данных позволяет аналитикам быстрее анализировать более сложные данные, получать более точные результаты и благодаря этому принимать более обоснованные решения. Многие компании перешли к обработке данных из-за достигнутого успеха.

Основные идеи [ править ]

Превращение беспорядочных данных в полезную статистику

Основные этапы обработки данных следующие: ^[6]

Открытие
Первый шаг борьбы с данными - лучше понять данные: разные данные обрабатываются и организовываются по-разному.
Структурирование
Следующим шагом является систематизация данных. Исходные данные обычно неорганизованы, и большая их часть может оказаться бесполезной для конечного продукта. Этот шаг важен для упрощения вычислений и анализа на последующих этапах.
Уборка
Существует множество различных форм очистки данных, например, одна форма очистки данных - это захват дат, отформатированных другим способом, а другая форма - удаление выбросов, которые будут искажать результаты, а также форматирование нулевых значений. Этот шаг важен для обеспечения общего качества данных.
Обогащение
На этом этапе определите, пригодятся ли дополнительные данные для набора данных, который можно было бы легко добавить.
Проверка
Этот шаг аналогичен структурированию и очистке. Используйте повторяющиеся последовательности правил проверки, чтобы гарантировать согласованность данных, а также качество и безопасность. Пример правила проверки - подтверждение точности полей с помощью перекрестной проверки данных.
Издательский
Подготовьте набор данных для последующего использования, который может включать использование пользователями или программным обеспечением. Обязательно задокументируйте все шаги и логику во время споров.

Эти шаги представляют собой итеративный процесс, который должен дать чистый и пригодный для использования набор данных, который затем можно будет использовать для анализа. Этот процесс утомительный, но полезный, поскольку он позволяет аналитикам получать необходимую информацию из большого набора данных, которые в противном случае были бы нечитаемыми.

Начальные данные
Имя	Телефон	Дата рождения	Состояние
Джон Смит	445-881-4478	12 августа 1989 г.	Мэн
Дженнифер Тал	+ 1-189-456-4513	12.11.1965	Tx
Гейтс, Билл	(876)546-8165	15, 72 июня	Канзас
Алан Фитч	5493156648	2-6-1985	ой
Джейкоб Алан	156-4896	3 января	Алабама

Результат
Имя	Телефон	Дата рождения	Состояние
Джон Смит	445-881-4478	08-12-1989	Мэн
Дженнифер Тал	189-456-4513	11-12-1965	Техас
Билл Гейтс	876-546-8165	06-15-1972	Канзас
Алан Фитч	549-315-6648	02-06-1985	Огайо

Результат использования процесса обработки данных для этого небольшого набора данных показывает, что набор данных значительно легче читать. Все имена теперь отформатированы одинаково, {имя фамилия}, номера телефонов также отформатированы таким же образом {код области-XXX-XXXX}, даты имеют числовой формат {мм-дд-ГГГГ}, а состояния больше не отображаются. сокращенно. Запись о Джейкобе Алане считалась удаленной из набора данных, поскольку в ней не было полностью сформированных данных, код зоны в номере телефона отсутствует, а в дате рождения не было года, поэтому она была удалена из набора данных. Теперь, когда результирующий набор данных очищен и доступен для чтения, он готов к развертыванию или оценке.

Типичное использование [ править ]

Преобразования данных обычно применяются к отдельным объектам (например, полям, строкам, столбцам, значениям данных и т. Д.) В наборе данных и могут включать такие действия, как извлечение, синтаксический анализ, объединение, стандартизация, расширение, очистка, консолидация и фильтрация для создания желаемые результаты переговоров, которые могут быть использованы ниже по потоку.

Получателями могут быть отдельные лица, такие как архитекторы данных или специалисты по данным, которые будут исследовать данные дальше, бизнес-пользователи, которые будут использовать данные непосредственно в отчетах, или системы, которые будут дополнительно обрабатывать данные и записывать их в целевые объекты, такие как хранилища данных , данные озера или низовья.

Порядок работы [ править ]

В зависимости от объема и формата входящих данных обработка данных традиционно выполнялась вручную (например, с помощью электронных таблиц, таких как Excel), таких инструментов, как KNIME, или сценариев на таких языках, как Python или SQL . R , язык, часто используемый для интеллектуального анализа данных и статистического анализа данных, теперь также часто ^[7] используется для обработки данных. У обработчиков данных обычно есть наборы навыков в: R или Python, SQL, PHP, Scala и других языках, обычно используемых для анализа данных.

Системы обработки визуальных данных были разработаны, чтобы сделать обработку данных доступной для непрограммистов и более простой для программистов. Некоторые из них также включают встроенные рекомендательные средства ИИ и средства программирования на примерах для оказания помощи пользователю, а также методы синтеза программ для автоматического создания кода масштабируемого потока данных. Ранние прототипы инструментов обработки визуальных данных включают OpenRefine и исследовательскую систему Stanford / Berkeley Wrangler ; ^[8] последняя превратилась в Trifacta .

Другие термины для этих процессов включают франчайзинг данных, ^[9] подготовку данных и сбор данных.

Пример [ править ]

Имея набор данных, содержащих информацию о медицинских пациентах, ваша цель - найти корреляцию для заболевания. Прежде чем приступить к перебору данных, убедитесь, что вы понимаете результат. Ищете ли вы пациентов, у которых есть заболевание? Могут ли быть причиной другие заболевания? Как только будет достигнуто понимание результата, можно начинать процесс обработки данных.

Начните с определения структуры результата, что важно для понимания диагноза заболевания.

Как только окончательная структура определена, очистите данные, удалив все точки данных, которые бесполезны или имеют неправильную форму, включая пациентов, у которых не было диагностировано какое-либо заболевание.

После очистки снова посмотрите на данные, есть ли что-нибудь, что можно добавить к уже известному набору данных, что принесет ему пользу? Примером могут служить самые распространенные болезни в этом районе. Америка и Индия очень разные, когда дело доходит до наиболее распространенных болезней.

Теперь наступает этап проверки, определяющий правила проверки, для которых точки данных должны быть проверены на достоверность, это может включать дату рождения или проверку на наличие конкретных заболеваний.

После этапа проверки данные должны быть организованы и подготовлены для развертывания или оценки. Этот процесс может быть полезен для определения корреляций для диагностики заболеваний, поскольку он сократит огромный объем данных до того, что можно легко проанализировать для получения точного результата.

См. Также [ править ]

Подготовка данных
OpenRefine
Trifacta
Альтерикс

Ссылки [ править ]

^ Что такое искажение данных?
^ Запись файла жаргона для Mung
^ Сообщение в блоге Open Knowledge Foundation
^ Парсонс, Массачусетс; Бродзик, MJ; Раттер, штат Нью-Джерси (2004). «Управление данными для эксперимента с процессами холодной земли: совершенствование гидрологической науки». Гидрологические процессы . 18 (18): 3637–3653. DOI : 10.1002 / hyp.5801 .
^ «Что такое обработка данных? Автоматизация обработки данных происходит недостаточно быстро» . Экспресс-аналитика . 2020-04-22 . Проверено 6 декабря 2020 .
^ "Что такое Data Wrangling?" . Trifacta . Проверено 6 декабря 2020 .
^ O'Reilly, Исследование Data Science, 2016 г.
^ Кандел, Шон; Паепке, Андреас (май 2011 г.). «Wrangler: интерактивная визуальная спецификация сценариев преобразования данных». СИГЧИ . DOI : 10.1145 / 1978942.1979444 . S2CID 11133756 .
^ Что такое франчайзинг данных? (2003 и 2017 IRI )

[eduunix-1] Что такое искажение данных?

[jargon-2] Запись файла жаргона для Mung

[3] Сообщение в блоге Open Knowledge Foundation

[4] Парсонс, Массачусетс; Бродзик, MJ; Раттер, штат Нью-Джерси (2004). «Управление данными для эксперимента с процессами холодной земли: совершенствование гидрологической науки». Гидрологические процессы . 18 (18): 3637–3653. DOI : 10.1002 / hyp.5801 .

[5] «Что такое обработка данных? Автоматизация обработки данных происходит недостаточно быстро» . Экспресс-аналитика . 2020-04-22 . Проверено 6 декабря 2020 .

[6] "Что такое Data Wrangling?" . Trifacta . Проверено 6 декабря 2020 .

[7] O'Reilly, Исследование Data Science, 2016 г.

[wrangler-paper-8] Кандел, Шон; Паепке, Андреас (май 2011 г.). «Wrangler: интерактивная визуальная спецификация сценариев преобразования данных». СИГЧИ . DOI : 10.1145 / 1978942.1979444 . S2CID 11133756 .

[9] Что такое франчайзинг данных? (2003 и 2017 IRI )

[1]