Статистика сканирования


В статистике статистика сканирования или статистика окна — это проблема, связанная с кластеризацией случайно расположенных точек. Примером типичной проблемы является максимальный размер кластера точек на линии или самая длинная серия успехов, зафиксированная скользящим окном фиксированной длины. [1]

Джозеф Наус впервые опубликовал работу по этой проблеме в 1960-х годах [2] и был назван «отцом статистики сканирования» в честь его раннего вклада. [3] Результаты могут быть применены в эпидемиологии , здравоохранении и астрономии для обнаружения необычных кластеров событий. [4]

Он был расширен Мартином Куллдорфом на многомерные настройки и различные размеры окон в статье 1997 года [5] , которая (по состоянию на 11 октября 2015 года ) является наиболее цитируемой статьей в его журнале « Коммуникации в статистике – теория и методы» . [6] Эта работа привела к созданию программного обеспечения SaTScan , программы, зарегистрированной под торговой маркой Мартина Куллдорфа, которая применяет его методы к данным.

Недавние результаты показали, что использование зависящих от масштаба критических значений для статистики сканирования позволяет достичь асимптотически оптимального обнаружения одновременно для всех длин сигналов, тем самым улучшая традиционное сканирование, но эту процедуру критиковали за слишком большую потерю мощности для коротких сигналов. Уолтер и Перри (2022) рассмотрели проблему обнаружения повышенного среднего значения на интервале с неизвестным местоположением и длиной в модели одномерной гауссовой последовательности. [7] Они объясняют это несоответствие, показывая, что эти результаты асимптотической оптимальности обязательно будут слишком неточными, чтобы можно было оценить эффективность статистики сканирования практически значимым образом, даже в контексте большой выборки. Вместо этого они предлагают оценивать производительность с помощью нового критерия конечной выборки. Они представили три новых метода калибровки статистики сканирования, которые хорошо работают в диапазоне соответствующих длин сигналов и позволяют оптимально повысить производительность коротких сигналов.

Методы на основе статистики сканирования были специально разработаны для обнаружения редких вариантов ассоциаций в некодирующем геноме, особенно в межгенной области . По сравнению с анализом скользящего окна фиксированного размера, методы, основанные на статистике сканирования, используют динамическое окно размера, адаптируемого к данным, для непрерывного сканирования генома и увеличивают мощность анализа за счет гибкого выбора местоположения и размеров сигнальных областей. [8] Некоторые примеры этих методов: Q-SCAN, [9] SCANG, [10]WGScan. [11]