Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , цензурирование этого состояние , при котором значение из измерений или наблюдений лишь частично известно.

Например, предположим, что проводится исследование, чтобы измерить влияние лекарства на уровень смертности . В таком исследовании может быть известно, что возраст человека на момент смерти составляет не менее 75 лет (но может быть больше). Такая ситуация может возникнуть, если человек выбыл из исследования в возрасте 75 лет или если человек в настоящее время жив в возрасте 75 лет.

Цензура также происходит, когда значение выходит за пределы диапазона измерительного прибора . Например, весы для ванной могут весить не более 140 кг (310 фунтов). Если человек весом 160 кг (350 фунтов) взвешивается с помощью весов, наблюдатель будет знать только то, что вес человека составляет не менее 140 кг (310 фунтов).

Проблема цензурированных данных, в которых наблюдаемое значение некоторой переменной частично известно, связана с проблемой пропущенных данных , когда наблюдаемое значение некоторой переменной неизвестно.

Цензуру не следует путать с соответствующим усечением идеи . При цензуре наблюдения приводят либо к знанию точного применимого значения, либо к знанию того, что значение находится в пределах интервала . При усечении наблюдения никогда не приводят к значениям за пределами заданного диапазона: значения в генеральной совокупности за пределами диапазона никогда не видны или никогда не записываются, если они видны. Обратите внимание, что в статистике усечение - это не то же самое, что округление .

Типы [ править ]

  • Цензура слева - точка данных ниже определенного значения, но неизвестно на сколько.
  • Интервальная цензура - точка данных находится где-то в интервале между двумя значениями.
  • Правильная цензура - точка данных выше определенного значения, но неизвестно на сколько.
  • Цензура типа I происходит, если в эксперименте есть заданное количество субъектов или элементов, и эксперимент останавливается в заданное время, после чего все оставшиеся субъекты подвергаются цензуре справа.
  • Цензура типа II происходит, если в эксперименте есть заданное количество субъектов или элементов, и останавливает эксперимент, когда обнаруживается, что заданное количество не удалось; остальные предметы затем подвергаются цензуре справа.
  • Случайная (или неинформативная ) цензура - это когда каждый субъект имеет время цензуры, которое статистически не зависит от времени отказа. Наблюдаемое значение - это минимум времени цензуры и времени отказа; субъекты, у которых время отказа больше, чем время их цензуры, подвергаются цензуре справа.

Интервальная цензура может иметь место, когда для наблюдения за значением требуются последующие действия или проверки. Левая и правая цензура являются частными случаями интервальной цензуры, с началом интервала в нуле или концом на бесконечности соответственно.

Методы оценки для использования данных, подвергнутых цензуре слева, различаются, и не все методы оценки могут быть применимы или наиболее надежны для всех наборов данных. [1]

Распространенное заблуждение относительно данных временного интервала состоит в том, чтобы классифицировать его как прошедшие цензуру слева интервалы, время начала которых неизвестно. В этих случаях у нас есть нижняя граница временного интервала , поэтому данные подвергаются цензуре справа (несмотря на то, что отсутствующая начальная точка находится слева от известного интервала, если смотреть как на временную шкалу!).

Анализ [ править ]

Для обработки цензурированных данных могут использоваться специальные методы. Тесты с определенным временем отказа кодируются как фактические отказы; Цензурированные данные кодируются в соответствии с типом цензуры и известным интервалом или пределом. Специальные программы (часто ориентированные на надежность ) могут проводить оценку максимального правдоподобия для сводных статистических данных, доверительных интервалов и т. Д.

Эпидемиология [ править ]

Одной из первых попыток анализа статистической проблемы, связанной с данными, подвергнутыми цензуре, был проведенный Даниэлем Бернулли анализ заболеваемости и смертности от оспы 1766 года, чтобы продемонстрировать эффективность вакцинации . [2] Ранней статьей, в которой использовалась оценка Каплана – Мейера для оценки цензурированных затрат, была работа Quesenberry et al. (1989), [3], однако этот подход был признан неверным Lin et al. [4], если все пациенты не накапливают затраты с помощью общей детерминированной функции ставки с течением времени, они предложили альтернативный метод оценки, известный как оценка Линя. [5]

Эксплуатационные испытания [ править ]

Пример пяти повторных тестов, в результате которых было четыре сбоя и одно время ожидания.

Тестирование надежности часто состоит из тестирования элемента (при определенных условиях) для определения времени, которое требуется для возникновения сбоя.

  • Иногда отказ запланирован и ожидается, но не происходит: ошибка оператора, неисправность оборудования, аномалия теста и т. Д. Результатом теста было не желаемое время до отказа, но его можно (и нужно) использовать как время до отказа. прекращение. Использование цензурированных данных непреднамеренно, но необходимо.
  • Иногда инженеры планируют программу тестирования таким образом, чтобы по истечении определенного времени или количества отказов все остальные тесты прекращались. Это время ожидания обрабатывается как данные, подвергнутые цензуре справа. Использование цензурированных данных является преднамеренным.

Анализ данных повторных тестов включает в себя как время до отказа для элементов, которые не прошли проверку, так и время завершения теста для тех, которые не прошли проверку.

Цензурированная регрессия [ править ]

Более ранняя модель цензурированной регрессии , модель Тобита , была предложена Джеймсом Тобином в 1958 г. [6]

Вероятность [ править ]

Вероятность того, есть вероятность того или плотность вероятности того , что наблюдалось, рассматривать как функцию параметров в принятой модели. Предположим, нас интересует время выживания , но мы не наблюдаем за всеми . Вместо этого мы наблюдаем

, с и если действительно наблюдается, и
, и если все, что мы знаем, длиннее, чем .

Когда называется время цензуры . [7]

Если все времена цензуры - известные константы, то вероятность равна

где = функция плотности вероятности, оцененная при ,

и = вероятность, которая больше чем , называемая функцией выживания .

Это можно упростить, определив функцию риска , мгновенную силу смертности, как

так

.

потом

.

Для экспоненциального распределения это становится еще проще, потому что степень риска постоянна, и . Потом:

,

где .

Отсюда легко вычислить , на оценку максимального правдоподобия (ОМП) из , следующим образом :

.

потом

.

Мы устанавливаем это значение на 0 и решаем, чтобы получить:

.

Аналогичным образом, средняя наработка на отказ составляет:

.

Это отличается от стандартного MLE для экспоненциального распределения тем, что любые цензурированные наблюдения учитываются только в числителе.

См. Также [ править ]

  • Анализ данных
  • Вменение (статистика)
  • Взвешивание обратной вероятности
  • Смещение выборки
  • Арифметика насыщенности
  • Анализ выживаемости
  • Winsorising

Ссылки [ править ]

  1. ^ Helsel, D. (2010). «Много шума из ничего: включение необнаружителей в науку» . Анналы гигиены труда . 54 (3): 257–262. DOI : 10,1093 / annhyg / mep092 . PMID  20032004 .
  2. ^ Бернулли, Д. (1766). "Essai d'une nouvelle analysis de la mortalité causée par la petite vérole". Mem. Математика. Phy. Акад. Рой. Sci. Париж , перепечатано в Bradley (1971) 21 и Blower (2004)
  3. ^ Quesenberry, CP, Jr; и другие. (1989). «Анализ выживаемости госпитализированных пациентов с синдромом приобретенного иммунодефицита» . Американский журнал общественного здравоохранения . 79 (12): 1643–1647. DOI : 10,2105 / AJPH.79.12.1643 . PMC 1349769 . PMID 2817192 .  
  4. ^ Lin, DY; и другие. (1997). «Оценка медицинских затрат по неполным данным наблюдения». Биометрия . 53 (2): 419–434. DOI : 10.2307 / 2533947 . JSTOR 2533947 . PMID 9192444 .  
  5. ^ Виджейсундера, ХК; и другие. (2012). «Методы оценки затрат на здравоохранение с использованием цензурированных данных: обзор для исследователя медицинских услуг» . Клинико-экономика и исследования результатов . 4 : 145–155. DOI : 10,2147 / CEOR.S31552 . PMC 3377439 . PMID 22719214 .  
  6. ^ Тобин, Джеймс (1958). «Оценка отношений для ограниченно зависимых переменных» (PDF) . Econometrica . 26 (1): 24–36. DOI : 10.2307 / 1907382 . JSTOR 1907382 .  
  7. ^ Лу Тянь, Построение вероятности , вывод для параметрических распределений выживаемости (PDF) , Wikidata Q98961801  .

Дальнейшее чтение [ править ]

  • Блоуер, С. (2004), Д. Бернулли « Попытка нового анализа смертности от оспы и преимуществ вакцинации для ее предотвращения» (PDF) . Архивировано из оригинала (PDF) на 2017-08 гг. -08 . Проверено 25 июня 2019 .  (146  KiB ) », Обзоры по медицинской вирусолологии , 14 : 275–288
  • Брэдли, Л. (1971). Прививка от оспы: Математический спор восемнадцатого века . Ноттингем. ISBN 0-902031-23-6.
  • Mann, NR ; и другие. (1975). Методы статистического анализа данных надежности и ресурса . Нью-Йорк: Вили. ISBN 047156737X.
  • Багдонавичус В., Круопис Дж., Никулин М.С. (2011), «Непараметрические тесты для цензурированных данных», Лондон, ISTE / WILEY, ISBN 9781848212893 . 

Внешние ссылки [ править ]

  • «Справочник по инженерной статистике», NIST / SEMATEK, [1]