Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Обработка данных - это преобразование цифровой или буквенной цифровой информации, полученной эмпирическим или экспериментальным путем, в исправленную, упорядоченную и упрощенную форму. Сокращение данных может преследовать две цели: уменьшить количество записей данных за счет исключения недопустимых данных или создать сводные данные и статистику на разных уровнях агрегации для различных приложений. [1]

Когда информация получена из показаний прибора, также может происходить преобразование из аналоговой формы в цифровую . Когда данные уже представлены в цифровой форме, «сокращение» данных обычно включает в себя некоторое редактирование, масштабирование , кодирование , сортировку , сопоставление и создание сводных таблиц. Когда наблюдения дискретны, но лежащее в основе явление является непрерывным , часто требуется сглаживание и интерполяция . Обработка данных часто выполняется при наличии ошибок чтения или измерения . Чтобы определить наиболее вероятное значение, необходимо некоторое представление о природе этих ошибок.

Примером в астрономии является обработка данных на спутнике Кеплер . Этот спутник записывает 95-мегапиксельные изображения каждые шесть секунд, генерируя десятки мегабайт данных в секунду, что на порядки больше, чем пропускная способность нисходящего канала в 550 Кбит / с. Сокращение данных на борту включает совместное добавление необработанных кадров в течение 30 минут, уменьшая полосу пропускания в 300 раз. Кроме того, предварительно выбираются интересные цели и обрабатываются только соответствующие пиксели, что составляет 6% от общего количества. Эти сокращенные данные затем отправляются на Землю, где они обрабатываются дальше.

Также были проведены исследования по использованию сокращения объема данных в носимых (беспроводных) устройствах для приложений мониторинга и диагностики состояния здоровья. Например, в контексте диагностики эпилепсии сокращение данных использовалось для увеличения срока службы батареи носимого устройства ЭЭГ путем выбора и передачи только данных ЭЭГ, которые актуальны для диагностики, и исключения фоновой активности. [2]

Типы сокращения данных [ править ]

Уменьшение размерности [ править ]

Когда размерность увеличивается, данные становятся все более разреженными, а плотность и расстояние между точками, которые имеют решающее значение для кластеризации и анализа выбросов, становятся менее значимыми. Снижение размерности помогает уменьшить шум в данных и упрощает визуализацию, как, например, в приведенном ниже примере, где трехмерные данные преобразуются в 2 измерения для отображения скрытых частей. Одним из методов уменьшения размерности является вейвлет-преобразование , при котором данные преобразуются в сохраняющее относительное расстояние между объектами на различных уровнях разрешения и часто используется для сжатия изображений . [3]

Пример уменьшения размерности.

Уменьшение численности [ править ]

Этот метод сокращения данных уменьшает объем данных за счет выбора альтернативных, меньших форм представления данных. Снижение численности можно разделить на 2 группы: параметрические и непараметрические методы. Параметрические методы (например, регрессия) предполагают, что данные соответствуют некоторой модели, оценивают параметры модели, сохраняют только параметры и отбрасывают данные. Один из примеров этого - на изображении ниже, где объем обрабатываемых данных сокращен на основе более конкретных критериев. Другим примером может быть лог-линейная модель , получающая значение в точке в mD-пространстве как произведение на соответствующих маргинальных подпространствах. Непараметрические методы не предполагают моделей, некоторыми примерами являются гистограммы, кластеризация, выборка и т. Д. [4]

Пример сокращения данных за счет уменьшения количества

Лучшие практики [ править ]

Это общие методы, используемые при сокращении данных.

  • Заказ по размеру.
  • Диагонализация таблиц , при которой строки и столбцы таблиц переупорядочиваются, чтобы их было легче увидеть (см. Диаграмму).
  • Резкое округление до одной или максимум двух эффективных цифр (эффективные цифры - это те, которые различаются в этой части данных).
  • Используйте средние значения для визуального фокуса, а также для обобщения.
  • Используйте макет и маркировку, чтобы направлять взгляд.
  • Удалите ненужные диаграммы , например изображения и линии.
  • Сделайте краткое словесное резюме. [5]

См. Также [ править ]

Ссылки [ править ]

  1. ^ "Справочник по сбору данных о времени в пути" (PDF) . Дата обращения 6 декабря 2020 .
  2. ^ Иранманеш, S .; Родригес-Вильегас, Э. (2017). «Аналоговый чип уменьшения данных мощностью 950 нВт для носимых систем ЭЭГ при эпилепсии». Журнал IEEE по твердотельным схемам . 52 (9): 2362–2373. DOI : 10.1109 / JSSC.2017.2720636 . ЛВП : 10044/1/48764 .
  3. ^ Хан, J .; Kamber, M .; Пей, Дж. (2011). «Интеллектуальный анализ данных: концепции и методы (3-е изд.)» (PDF) . Дата обращения 6 декабря 2020 .
  4. ^ Хан, J .; Kamber, M .; Пей, Дж. (2011). «Интеллектуальный анализ данных: концепции и методы (3-е изд.)» (PDF) . Дата обращения 6 декабря 2020 .
  5. ^ http://business.nmsu.edu/~mhyman/M610_Articles/Ehrenberg_Marketing_Research_2001.pdf Данные, но нет информации: презентация действительно все - или близко к этому. Эндрю Эренберг

Библиография [ править ]

  • Эренберг, Эндрю SC (1975,1981), Data Reduction, John Wiley, Chichester. Перепечатано в Journal of Empirical Generalizations in Marketing Science, 2000, 5, 1-391.
  • Эренберг, Эндрю С.К. (1982) Введение в обработку данных: вводная статистика Эренберг