Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Группирование данных (также называемое дискретным группированием или группированием ) - это метод предварительной обработки данных , используемый для уменьшения влияния незначительных ошибок наблюдения. Исходные значения данных, которые попадают в заданный небольшой интервал, ячейку , заменяются значением, представляющим этот интервал, часто центральным значением. Это форма квантования .

Группирование статистических данных - это способ сгруппировать числа более или менее непрерывных значений в меньшее количество «ячеек». Например, если у вас есть данные о группе людей, вы можете разделить их возраст на меньшее количество возрастных интервалов (например, группируя каждые пять лет вместе). Его также можно использовать в многомерной статистике , объединяя сразу несколько измерений.

Обработка данных изображения [ править ]

В контексте обработки изображений биннинг - это процедура объединения кластера пикселей в один пиксель. Таким образом, в биннинге 2x2 массив из 4 пикселей становится на один пиксель большего размера [1], уменьшая общее количество пикселей.

Такое агрегирование, хотя и связано с потерей информации, уменьшает объем данных, которые необходимо обработать, облегчая анализ. Например, группирование данных может также уменьшить влияние шума чтения на обработанное изображение (за счет более низкого разрешения).

Пример использования [ править ]

Гистограммы - это пример объединения данных, используемого для наблюдения за лежащими в основе распределениями . Обычно они встречаются в одномерном пространстве и через равные промежутки времени для простоты визуализации.

Объединение данных может использоваться, когда небольшие инструментальные сдвиги в спектральном измерении из экспериментов масс-спектрометрии (МС) или ядерного магнитного резонанса (ЯМР) будут ошибочно интерпретированы как представляющие различные компоненты, когда набор профилей данных подвергается анализу распознавания образов . Простой способ справиться с этой проблемой - использовать методы биннинга, при которых разрешение спектра уменьшается до достаточной степени, чтобы гарантировать, что данный пик остается в своем бине, несмотря на небольшие спектральные сдвиги между анализами. Например, в ЯМР химический сдвиг по оси может быть дискретизируется и грубо Binned, а в MSспектральные точности могут быть округлены до целых значений атомных единиц массы . Кроме того, некоторые системы цифровых камер включают функцию автоматического объединения пикселей для улучшения контрастности изображения. [2]

Binning также используется в машинном обучении , чтобы ускорить [3] решение дерево повышения метод контролируемой классификации и регрессии алгоритмов , таких как Microsoft «s LightGBM и scikit учиться » s Гистограмма на основе градиента Boosting дерева классификации .

См. Также [ править ]

Ссылки [ править ]

  1. ^ «Небольшое объяснение биннинга при обработке изображений» . Стив Каннистра . Проверено 18 января 2011 . CS1 maint: обескураженный параметр ( ссылка )
  2. ^ «Использование биннинга в фотографии» . Никон, СНГ . Проверено 18 января 2011 . CS1 maint: обескураженный параметр ( ссылка )
  3. ^ "„LightGBM: высокоэффективный градиент повышения дерева решений“ нейронные системы обработки информации (НПВ). Возвращаемые. 2019-12-18 . CS1 maint: обескураженный параметр ( ссылка )