Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Анализ выживаемости - это раздел статистики для анализа ожидаемой продолжительности времени до того, как произойдет одно или несколько событий, таких как смерть биологических организмов и отказ механических систем. Эта тема называется теорией надежности или анализом надежности в инженерии , анализом продолжительности или моделированием продолжительности в экономике и анализом истории событий в социологии.. Анализ выживаемости пытается ответить на определенные вопросы, например, какова доля населения, которая выживет после определенного времени? Из тех, кто выжил, с какой скоростью они умрут или проиграют? Можно ли учесть несколько причин смерти или отказа? Как определенные обстоятельства или характеристики увеличивают или уменьшают вероятность выживания ?

Чтобы ответить на такие вопросы, необходимо определить «время жизни». В случае биологического выживания смерть однозначна, но с точки зрения механической надежности отказ не может быть четко определен, поскольку вполне могут быть механические системы, в которых отказ является частичным, зависит от степени или иным образом не локализован во времени . Даже в биологических проблемах некоторые события (например, сердечный приступ или отказ другого органа) могут иметь такую ​​же двусмысленность. Теория изложены ниже , предполагает вполне определенные события в определенное время; другие случаи лучше рассматривать с помощью моделей, которые явно учитывают неоднозначные события.

В более общем смысле, анализ выживаемости включает моделирование времени до события; В этом контексте смерть или неудача считаются «событием» в литературе по анализу выживания - традиционно для каждого субъекта происходит только одно событие, после которого организм или механизм умирают или ломаются. Модели повторяющихся событий или повторяющихся событий ослабляют это предположение. Изучение повторяющихся событий актуально для надежности систем , а также во многих областях социальных и медицинских исследований.

Введение в анализ выживаемости [ править ]

Анализ выживаемости используется несколькими способами:

  • Чтобы описать время выживания членов группы
  • Чтобы сравнить время выживания двух или более групп
    • Лог-ранговый тест
  • Чтобы описать влияние категориальных или количественных переменных на выживаемость
    • Регрессия пропорциональных рисков Кокса
    • Параметрические модели выживания
    • Деревья выживания
    • Выживание в случайных лесах

Определения общих терминов в анализе выживаемости [ править ]

В анализе выживаемости обычно используются следующие термины:

  • Событие: смерть, возникновение болезни, рецидив болезни, выздоровление или другой интересный опыт.
  • Время: время от начала периода наблюдения (например, операции или начала лечения) до (i) события, или (ii) окончания исследования, или (iii) потери контакта или выхода из исследования.
  • Цензура / цензурированное наблюдение: если у объекта нет события в течение времени наблюдения, он описывается как цензурированный. Объект подвергается цензуре в том смысле, что ничего не наблюдается или не известно о нем после времени цензуры. Цензурированный объект может иметь или не иметь событие по истечении времени наблюдения.
  • Функция выживания S (t): вероятность того, что субъект выживет дольше времени t.

Пример: данные о выживаемости при остром миелогенном лейкозе [ править ]

В этом примере используется набор данных о выживаемости при остром миелогенном лейкозе «aml» из пакета «выживаемость» в R. Набор данных взят из Miller (1997) [1], и вопрос заключается в том, следует ли продлить стандартный курс химиотерапии ('поддерживается ') для дополнительных циклов.

Набор данных AML, отсортированный по времени выживания, показан в поле.

набор данных aml, отсортированный по времени выживания
  • Время обозначается переменной "время", которая является временем выживания или цензурирования.
  • Событие (рецидив рака AML) обозначается переменной «статус». 0  = нет события (цензура), 1  = событие (повторение)
  • Группа лечения: переменная «x» указывает, проводилась ли поддерживающая химиотерапия.

Последнее наблюдение (11) на 161 неделе подвергается цензуре. Цензура показывает, что у пациента не было события (нет рецидива рака амл). Другой субъект, наблюдение 3, был подвергнут цензуре на 13 неделе (обозначен статусом = 0). Этот субъект участвовал в исследовании всего 13 недель, и в течение этих 13 недель рак амл не рецидивировал. Возможно, этот пациент был включен ближе к концу исследования, так что его можно было наблюдать только в течение 13 недель. Также возможно, что пациент был включен в исследование на раннем этапе, но был потерян для последующего наблюдения или выбыл из исследования. Таблица показывает, что другие предметы подвергались цензуре на 16, 28 и 45 неделях (наблюдения 17, 6 и 9 со статусом = 0). Все остальные субъекты пережили события (рецидив рака амл) во время исследования. Интересный вопрос заключается в том, происходит ли рецидив у поддерживаемых пациентов позже, чем у не поддерживаемых пациентов.

График Каплана – Мейера для данных AML [ править ]

Функция выживания S ( t ) - это вероятность того, что субъект выживет дольше времени t . S ( t ) теоретически является гладкой кривой, но обычно ее оценивают с помощью кривой Каплана – Мейера (КМ). На графике показан график КМ для данных AML, который можно интерпретировать следующим образом:

  • По оси x отложено время от нуля (когда началось наблюдение) до последней наблюдаемой временной точки.
  • У оси доля субъектов уцелевших. В нулевой момент времени 100% субъектов живы без каких-либо событий.
  • Сплошной линией (похожей на лестницу) показано развитие событий.
  • Вертикальная капля указывает на событие. В приведенной выше таблице aml у двух субъектов были события на пяти неделях, у двух - на восьми неделях, у одного - на девяти неделях и так далее. Эти события в пять недель, восемь недель и так далее обозначены вертикальными перепадами на графике КМ в эти моменты времени.
  • В дальнем правом конце графика КМ есть отметка на отметке 161 неделя. Вертикальная галочка указывает на то, что в это время пациент подвергался цензуре. В таблице данных AML были подвергнуты цензуре пять субъектов на сроках 13, 16, 28, 45 и 161 недель. На графике КМ есть пять отметок, соответствующих этим цензурированным наблюдениям.

Таблица продолжительности жизни для данных AML [ править ]

Таблица жизни суммированы данные выживаемости с точки зрения числа событий , и доля выживших в каждый момент времени событие точки. Показана таблица продолжительности жизни для данных AML, созданная с помощью  программного обеспечения R.

Таблица продолжительности жизни для данных aml

Таблица дожития суммирует события и процент выживших в каждый момент времени. Столбцы в таблице смертности имеют следующую интерпретацию:

  • time дает временные точки, в которые происходят события.
  • n. риск - это количество субъектов, находящихся в группе риска непосредственно перед моментом времени, t. «Находиться в группе риска» означает, что у субъекта не было события до момента t, и он не подвергался цензуре до или во время t.
  • n.event - количество субъектов, у которых есть события в момент времени t.
  • выживаемость - это доля выживших, определяемая с использованием оценки предела произведения Каплана – Мейера.
  • std.err - стандартная ошибка оценки выживаемости. Стандартная ошибка оценки предела произведения Каплана-Мейера рассчитывается с использованием формулы Гринвуда и зависит от числа подверженных риску (n.risk в таблице), количества смертей (n.event в таблице) и доли выживание (выживаемость в таблице).
  • нижний 95% доверительный интервал и верхний 95% доверительный интервал являются нижним и верхним 95% доверительными границами доли выживших.

Лог-ранговый тест: проверка различий в выживаемости в данных AML [ править ]

Лог-ранговый сравнивает времена выживания двух или более групп. В этом примере используется лог-ранговый тест для разницы в выживаемости в поддерживаемых и не поддерживаемых группах лечения в данных AML. На графике показаны графики КМ для данных AML с разбивкой по группам лечения, что обозначено переменной «x» в данных.

График Каплана – Мейера по группам лечения в амл.

Нулевая гипотеза для лог-рангового теста состоит в том, что группы имеют одинаковую выживаемость. Ожидаемое количество субъектов, выживших в каждый момент времени в каждой, корректируют с учетом количества субъектов, подверженных риску в группах в каждый момент времени. Лог-ранговый тест определяет, значительно ли отличается наблюдаемое количество событий в каждой группе от ожидаемого. Формальный тест основан на статистике хи-квадрат. Когда статистика логарифмического ранга велика, это свидетельствует о разнице во времени выживания между группами. Статистика логарифмического ранга приблизительно имеет распределение хи-квадрат с одной степенью свободы, а значение p вычисляется с использованием распределения хи-квадрат.

Для данных примера лог-ранговый тест на разницу в выживаемости дает p-значение p = 0,0653, что указывает на то, что группы лечения не различаются значительно по выживаемости, предполагая, что альфа-уровень равен 0,05. Размер выборки из 23 субъектов невелик, поэтому нет достаточных возможностей для выявления различий между группами лечения. Критерий хи-квадрат основан на асимптотическом приближении, поэтому значение p следует рассматривать с осторожностью для небольших размеров выборки.

Регрессионный анализ пропорциональных рисков Кокса (PH) [ править ]

Кривые Каплана-Мейера и тесты логарифмического ранга наиболее полезны, когда предикторная переменная является категориальной (например, препарат против плацебо) или принимает небольшое количество значений (например, дозы препарата 0, 20, 50 и 100 мг / день. ), которые можно рассматривать как категоричные. Лог-ранговый тест и кривые KM нелегко работают с количественными предикторами, такими как экспрессия генов, количество лейкоцитов или возраст. Для количественных переменных-предикторов альтернативным методом является регрессионный анализ пропорциональных рисков Кокса . Модели Cox PH работают также с категориальными переменными-предикторами, которые кодируются как индикаторные или фиктивные переменные {0,1}. Лог-ранговый тест является частным случаем анализа Кокса PH, и его можно выполнить с помощью программного обеспечения Cox PH.

Пример: регрессионный анализ пропорциональных рисков Кокса для меланомы [ править ]

В этом примере используется набор данных о меланоме из главы 14 Далгаарда [2].

Данные находятся в пакете R ISwR. Регрессия пропорциональных рисков Кокса с использованием  R дает результаты, показанные в рамке.

Выходные данные регрессии пропорциональных рисков Кокса для данных по меланоме. Переменная-предиктор: пол 1: женский, 2: мужской.

Результаты регрессии Кокса интерпретируются следующим образом.

  • Пол кодируется как числовой вектор (1: женский, 2: мужской).  Резюме R для модели Кокса дает отношение рисков (HR) для второй группы по отношению к первой группе, то есть мужчин и женщин.
  • coef = 0,662 - это расчетный логарифм отношения рисков для мужчин и женщин.
  • exp (coef) = 1,94 = exp (0,662) - логарифм отношения рисков (coef = 0,662) преобразуется в отношение рисков с помощью exp (coef). Резюме для модели Кокса дает соотношение рисков для второй группы по отношению к первой группе, то есть мужчин и женщин. Расчетное отношение рисков 1,94 указывает на то, что в этих данных мужчины имеют более высокий риск смерти (более низкие показатели выживаемости), чем женщины.
  • se (coef) = 0,265 - стандартная ошибка логарифмического отношения рисков.
  • z = 2,5 = coef / se (coef) = 0,662 / 0,265. Разделение коэффициента на стандартную ошибку дает z-оценку.
  • р = 0,013. Значение p, соответствующее z = 2,5 для пола, равно p = 0,013, что указывает на то, что существует значительная разница в выживаемости в зависимости от пола.

Итоговые выходные данные также дают верхний и нижний 95% доверительные интервалы для отношения рисков: нижняя граница 95% = 1,15; верхняя граница 95% = 3,26.

Наконец, выходные данные дают p-значения для трех альтернативных тестов на общую значимость модели:

  • Тест отношения правдоподобия = 6,15 на 1 df, p = 0,0131
  • Тест Вальда = 6,24 на 1 df, p = 0,0125
  • Оценка (лог-ранг) теста = 6,47 на 1 df, p = 0,0110

Эти три теста асимптотически эквивалентны. Для достаточно большого N они дадут аналогичные результаты. Для малых N они могут несколько отличаться. Последняя строка, «Тест оценки (логранг)» представляет собой результат для теста лог-ранга, с p = 0,011, тот же результат, что и тест лог-ранга, потому что тест лог-ранга является частным случаем Кокса PH. регресс. Тест отношения правдоподобия лучше работает для небольших размеров выборки, поэтому обычно он предпочтительнее.

Модель Кокса с использованием ковариаты в данных меланомы [ править ]

Модель Кокса расширяет лог-ранговый тест, позволяя включать дополнительные ковариаты. В этом примере используется набор данных по меланоме, где переменные-предикторы включают непрерывную ковариату, толщину опухоли (имя переменной = "толстая").

Гистограммы толщины опухоли меланомы

На гистограммах значения толщины не выглядят нормально распределенными. Модели регрессии, включая модель Кокса, обычно дают более надежные результаты с нормально распределенными переменными. В этом примере используйте преобразование журнала. Логарифм толщины опухоли выглядит более нормально распределенным, поэтому в моделях Кокса будет использоваться логарифм толщины. Результаты анализа Cox PH отображаются в рамке.

Выходные данные Cox PH для набора данных по меланоме с ковариатной логарифмической толщиной опухоли

Значение p для всех трех общих тестов (вероятность, Вальд и оценка) значимы, указывая на то, что модель значима. Значение p для log (толстый) составляет 6,9e-07, с отношением рисков HR = exp (coef) = 2,18, что указывает на сильную взаимосвязь между толщиной опухоли и повышенным риском смерти.

Напротив, p-значение для пола теперь p = 0,088. Отношение рисков HR = exp (coef) = 1,58 с 95% доверительным интервалом от 0,934 до 2,68. Поскольку доверительный интервал для ЧСС включает 1, эти результаты показывают, что пол вносит меньший вклад в разницу ЧСС после контроля толщины опухоли и имеет только тенденцию к значимости. Изучение графиков log (толщины) по полу и t-критерия log (толщины) по полу показывает, что существует значительная разница между мужчинами и женщинами в толщине опухоли, когда они впервые обращаются к врачу.

Модель Кокса предполагает, что опасности пропорциональны. Предположение о пропорциональной опасности может быть проверено с помощью R-  функции cox.zph (). Значение p менее 0,05 означает, что опасности не пропорциональны. Для данных по меланоме p = 0,222, что указывает на то, что опасности, по крайней мере приблизительно, пропорциональны. Дополнительные тесты и графики для изучения модели Кокса описаны в цитируемых учебниках.

Дополнения к моделям Кокса [ править ]

Модели Кокса могут быть расширены, чтобы иметь дело с вариациями простого анализа.

  • Стратификация. Субъекты могут быть разделены на слои, где ожидается, что субъекты внутри слоя будут относительно более похожими друг на друга, чем на случайно выбранных субъектов из других слоев. Предполагается, что параметры регрессии одинаковы для всех слоев, но для каждого слоя могут существовать разные базовые риски. Стратификация полезна для анализа с использованием сопоставленных субъектов, для работы с подгруппами пациентов, такими как разные клиники, и для работы с нарушениями предположения о пропорциональном риске.
  • Ковариаты, зависящие от времени. Некоторые переменные, такие как пол и группа лечения, в клиническом исследовании обычно не меняются. Другие клинические переменные, такие как уровень сывороточного белка или доза сопутствующих лекарств, могут изменяться в течение исследования. Модели Кокса могут быть расширены для таких изменяющихся во времени ковариат.

Древовидные модели выживания [ править ]

Модель регрессии Кокса PH представляет собой линейную модель. Это похоже на линейную регрессию и логистическую регрессию. В частности, эти методы предполагают, что одной линии, кривой, плоскости или поверхности достаточно для разделения групп (живые, мертвые) или для оценки количественной реакции (время выживания).

В некоторых случаях альтернативные разделы дают более точную классификацию или количественные оценки. Один набор альтернативных методов - это модели выживания с древовидной структурой, включая выживание случайных лесов. Древовидные модели выживания могут давать более точные прогнозы, чем модели Кокса. Разумной стратегией является изучение обоих типов моделей для данного набора данных.

Пример анализа дерева выживаемости [ править ]

В этом примере анализа дерева выживания используется  пакет R «rpart». Пример основан на 146  пациентах с раком простаты стадии C в наборе данных stagec в rpart. Rpart и пример stagec описаны в документе PDF «Введение в рекурсивное разбиение с использованием подпрограмм RPART». Терри М. Терно, Элизабет Дж. Аткинсон, Фонд Мэйо. 3 сентября 1997 г.

Поэтапные переменные:

  • pgtime : время до прогрессирования или последнее наблюдение без прогрессирования
  • pgstat : статус при последнем наблюдении (1 = прогресс, 0 = цензура)
  • возраст : возраст на момент постановки диагноза
  • eet : ранняя эндокринная терапия (1 = нет, 0 = да)
  • плоидность : диплоидный / тетраплоидный / анеуплоидный паттерн ДНК
  • g2 :% клеток в фазе G2
  • степень : степень опухоли (1-4)
  • gleason : оценка по Глисону (3-10)

Дерево выживания, полученное в результате анализа, показано на рисунке.

Дерево выживания для набора данных по раку простаты

Каждая ветвь в дереве обозначает разделение значения переменной. Например, корень дерева разделяет предметы с оценкой <2,5 и предметы с оценкой 2,5 или выше. Терминальные узлы указывают количество субъектов в узле, количество субъектов, у которых есть события, и относительную частоту событий по сравнению с корнем. В крайнем левом узле значения 1/33 указывают, что у одного из 33 субъектов в узле произошло событие, и что относительная частота событий составляет 0,122. В узле в правом нижнем углу значения 11/15 указывают, что 11 из 15 субъектов в узле имели событие, а относительная частота событий составляет 2,7.

Выживание в случайных лесах [ править ]

Альтернативой построению одного дерева выживания является построение множества деревьев выживания, где каждое дерево строится с использованием выборки данных и усреднения деревьев для прогнозирования выживаемости. Это метод, лежащий в основе моделей случайного выживания леса. Анализ выживания случайного леса доступен в  пакете R "randomForestSRC".

Пакет randomForestSRC включает пример анализа выживания случайного леса с использованием набора данных pbc. Эти данные взяты из исследования печени по изучению первичного билиарного цирроза (ПБЦ) в клинике Майо, проведенного в период с 1974 по 1984 год. В этом примере случайная модель выживания в лесу дает более точные прогнозы выживаемости, чем модель Кокса ЛГ. Ошибки предсказания оцениваются с помощью повторной выборки бутстрапа .

Общая формулировка [ править ]

Функция выживания [ править ]

В первую очередь интерес представляет функция выживания , условно обозначаемая S , которая определяется как

где t - некоторое время, T - случайная величина, обозначающая время смерти, а «Pr» обозначает вероятность . То есть функция выживания - это вероятность того, что время смерти наступит позже некоторого заданного времени t . Функцию выживания также называют функцией выживания или функцией выживания в задачах биологического выживания и функцией надежности в задачах механического выживания. В последнем случае функция надежности обозначается R ( t ).

Обычно принимают S (0) = 1, хотя оно может быть меньше 1,  если есть вероятность немедленной смерти или неудачи.

Функция выживания должна быть невозрастающей: S ( u ) ≤ S ( t ), если ut . Это свойство следует непосредственно, потому что T > u влечет T > t . Это отражает представление о том, что дожить до более позднего возраста возможно только в том случае, если будут достигнуты все более молодые возрасты. Учитывая это свойство, функция распределения времени жизни и плотность событий ( F и f ниже) четко определены.

Обычно предполагается, что функция выживания приближается к нулю по мере неограниченного увеличения возраста (т. Е. S ( t ) → 0 при t → ∞), хотя предел может быть больше нуля, если возможна вечная жизнь. Например, мы могли бы применить анализ выживаемости к смеси стабильных и нестабильных изотопов углерода ; нестабильные изотопы рано или поздно распадутся, но стабильные изотопы будут существовать бесконечно.

Функция распределения времени жизни и плотность событий [ править ]

Связанные количества определены в терминах функции выживаемости.

Функция распределения продолжительности жизни , обычно обозначаемая F , определяется как дополнение к функции выживания,

Если F является дифференцируемым то производным, которая является функцией плотности распределения времени жизни, условно обозначаемыми е ,

Функцию f иногда называют плотностью событий ; это частота смертей или отказов в единицу времени.

Функция выживания может быть выражена через распределение вероятностей и функции плотности вероятности.

Точно так же функция плотности событий выживания может быть определена как

В других областях, таких как статистическая физика, функция плотности событий выживания известна как плотность времени первого прохождения .

Функция опасности и функция совокупной опасности [ править ]

Функция риска , условно обозначаемая или , определяется как частота событий в момент времени t при условии дожития до момента t или позже (то есть Tt ). Предположим, что предмет выжил в течение времени t, и нам нужна вероятность того, что он не выживет в течение дополнительного времени dt :

Сила смертности - это синоним функции риска, который используется, в частности, в демографии и актуарной науке , где обозначается значком . Термин « степень опасности» - еще один синоним.

Сила смертности функции выживания определяется как

Силу смертности также называют силой отказа. Это функция плотности вероятности распределения смертности.

В актуарной науке уровень риска - это уровень смертности жизней в возрасте x. Для жизни в возрасте x сила смертности через t лет - это сила смертности в возрасте a (x + t) –лет. Степень опасности также называется частотой отказов. Интенсивность опасности и интенсивность отказов - это названия, используемые в теории надежности.

Любая функция h является функцией риска тогда и только тогда, когда она удовлетворяет следующим свойствам:

  1. ,
  2. .

Фактически, степень риска обычно более информативна о механизме отказа, чем другие представители распределения продолжительности жизни.

Функция риска должна быть неотрицательной, λ ( t ) ≥ 0, а ее интеграл по должен быть бесконечным, но никакие другие ограничения не накладываются; он может быть возрастающим или убывающим, немонотонным или прерывистым. Примером является функция риска кривой ванны , которая велика для малых значений t , уменьшается до некоторого минимума, а затем снова увеличивается; это может моделировать свойство некоторых механических систем выходить из строя вскоре после работы или намного позже, когда система стареет.

В качестве альтернативы функция риска может быть представлена ​​в виде кумулятивной функции риска , условно обозначенной или :

так перенос знаков и возведение в степень

или дифференцирующий (с цепным правилом)

Название «кумулятивная функция риска» происходит от того факта, что

что представляет собой «накопление» опасности с течением времени.

Из определения мы видим, что она неограниченно возрастает, когда t стремится к бесконечности (при условии, что S ( t ) стремится к нулю). Это означает, что он не должен уменьшаться слишком быстро, поскольку, по определению, совокупный риск должен расходиться. Например, это не функция риска какого-либо распределения выживаемости, потому что его интеграл сходится к 1.

Функция выживания S ( t ), кумулятивная функция риска Λ ( t ), плотность f ( t ), функция риска λ ( t ) и функция распределения продолжительности жизни F ( t ) связаны через

Величины, полученные из распределения выживаемости [ править ]

Будущая жизнь в данный момент - это время, оставшееся до смерти при условии дожития до возраста . Таким образом, это в настоящих обозначениях. Ожидаемый срок службы будущего является ожидаемое значение времени жизни в будущем. Вероятность смерти в возрасте или раньше , учитывая дожитие до возраста , просто

Следовательно, плотность вероятности будущей жизни равна

и ожидаемый срок жизни в будущем

где второе выражение получено интегрированием по частям .

Ведь при рождении это сокращается до ожидаемой продолжительности жизни.

В задачах надежности ожидаемый срок службы называется средней наработкой на отказ , а ожидаемый будущий срок службы - средним остаточным сроком службы .

Поскольку вероятность того, что индивид доживет до возраста t или позже, равна S ( t ), по определению ожидаемое количество выживших в возрасте t из начальной популяции из n новорожденных равно n × S ( t ), предполагая ту же функцию выживания. для всех людей. Таким образом, ожидаемая доля выживших равна S ( t ). Если выживаемость разных особей независима, количество выживших в возрасте t имеет биномиальное распределение с параметрами n и S ( t), а дисперсия доли выживших равна S ( t ) × (1- S ( t )) / n .

Возраст, в котором остается указанная доля выживших, можно определить, решив уравнение S ( t ) = q для t , где q - рассматриваемый квантиль . Обычно интересует средний срок службы , для которого q = 1/2, или другие квантили, такие как q = 0,90 или q = 0,99.

Можно также сделать более сложные выводы из распределения выживаемости. При решении проблем механической надежности можно учитывать стоимость (или, в более общем плане, полезность ) и, таким образом, решать проблемы, связанные с ремонтом или заменой. Это приводит к изучению теории восстановления и теория надежности старения и долголетия .

Цензура [ править ]

Цензура - это форма проблемы с отсутствием данных, при которой время до события не соблюдается по таким причинам, как прекращение исследования до того, как все набранные субъекты продемонстрируют интересующее событие или субъект покинул исследование до того, как испытал событие. Цензура - обычное дело при анализе выживаемости.

Если известен только нижний предел l для истинного времени события T, такой что T > l , это называется правым цензурированием . Правильная цензура будет иметь место, например, для тех субъектов, дата рождения которых известна, но которые все еще живы, когда они потеряны для последующего наблюдения или когда исследование заканчивается. Обычно мы сталкиваемся с данными, подвергнутыми цензуре справа.

Если интересующее событие уже произошло до того, как объект был включен в исследование, но неизвестно, когда оно произошло, данные считаются подвергнутыми цензуре слева . [3] Когда можно сказать, что событие произошло только между двумя наблюдениями или исследованиями, это интервальная цензура .

Левая цензура имеет место, например, когда постоянный зуб уже прорезался до начала стоматологического исследования, которое направлено на оценку распределения его появления. В том же исследовании время прорезывания подвергается интервальной цензуре, когда постоянный зуб присутствует во рту при текущем осмотре, но не при предыдущем осмотре. Интервальная цензура часто применяется в исследованиях по ВИЧ / СПИДу. Действительно, время до сероконверсии ВИЧ можно определить только с помощью лабораторной оценки, которая обычно начинается после посещения врача. Тогда можно только сделать вывод, что сероконверсия ВИЧ произошла между двумя обследованиями. То же самое можно сказать и о диагнозе СПИД, который основан на клинических симптомах и должен быть подтвержден медицинским обследованием.

Также может случиться так, что субъекты с продолжительностью жизни меньше некоторого порога могут вообще не наблюдаться: это называется усечением . Обратите внимание, что усечение отличается от цензуры слева, поскольку для цензурированного слева элемента данных мы знаем, что субъект существует, но для усеченных данных мы можем полностью не осознавать этот объект. Усечение также распространено. В так называемом исследовании с отложенным входом за участниками вообще не наблюдают, пока они не достигнут определенного возраста. Например, за людьми нельзя наблюдать, пока они не достигнут возраста для поступления в школу. Кто-либо из умерших субъектов в дошкольной возрастной группе будет неизвестен. Данные, усеченные слева, обычны в актуарной работе по страхованию жизни и пенсиям. [4]

Данные, подвергнутые левой цензуре, могут появиться, когда время выживания человека становится неполным в левой части периода наблюдения за человеком. Например, в эпидемиологическом примере мы можем контролировать пациента на наличие инфекционного расстройства, начиная с того момента, когда он или она получает положительный результат теста на инфекцию. Хотя мы можем знать правую часть интересующей нас продолжительности, мы можем никогда не узнать точное время контакта с инфекционным агентом. [5]

Подгонка параметров к данным [ править ]

Модели выживания можно рассматривать как обычные регрессионные модели, в которых переменной отклика является время. Однако вычисление функции правдоподобия (необходимой для подгонки параметров или выполнения других выводов) затруднено цензурированием. Функция правдоподобия для модели выживания при наличии цензурированных данных формулируется следующим образом. По определению функция правдоподобия - это условная вероятностьданных с учетом параметров модели. Принято считать, что данные независимы от параметров. Тогда функция правдоподобия - это произведение правдоподобия каждого элемента данных. Данные удобно разделить на четыре категории: без цензуры, с цензурой слева, с цензурой справа и с интервальной цензурой. В приведенном ниже уравнении они обозначены как «unc.», «Lc», «rc» и «ic».

Для данных без цензуры, равных возрасту смерти, мы имеем

Для данных, подвергнутых левой цензуре, например, когда известно, что возраст смерти меньше чем , мы имеем

Для данных, подвергнутых цензуре справа, когда известно, что возраст смерти больше, чем , мы имеем

Для интервала цензурированных данных, когда известно, что возраст смерти меньше или больше , мы имеем

Важным приложением, в котором возникают данные с интервальной цензурой, являются данные текущего состояния, когда известно, что событие не произошло до времени наблюдения и произошло до следующего времени наблюдения.

Непараметрическая оценка [ править ]

Оценки Каплана-Мейера могут быть использованы для оценки функции выживания. Оценки Нельсон-Аалено могут быть использованы , чтобы обеспечить непараметрическую оценку функции совокупной скорости опасности.

Компьютерное программное обеспечение для анализа выживаемости [ править ]

На веб-сайте UCLA http://www.ats.ucla.edu/stat/ есть многочисленные примеры статистического анализа с использованием SAS, R, SPSS и STATA, включая анализ выживаемости.

В учебнике Клейнбаума есть примеры анализа выживаемости с использованием пакетов SAS, R и других. [6] В учебниках Брострома, [7] Далгаарда [2] и Таблмана и Кима [8] приводятся примеры анализа выживаемости с использованием R (или с использованием S, и которые выполняются в R).

Распределения, используемые в анализе выживаемости [ править ]

  • Экспоненциальное распределение
  • Распределение Вейбулла
  • Логистическая дистрибуция
  • Гамма-распределение
  • Экспоненциально-логарифмическое распределение

Приложения [ править ]

  • Кредитный риск [9] [10]
  • Уровень ложных обвинений заключенных, приговоренных к смертной казни [11]
  • Сроки изготовления металлических компонентов в аэрокосмической промышленности [12]
  • Предикторы преступного рецидива [13]
  • Распределение выживаемости радиоактивно меченных животных [14]
  • Время до насильственной смерти римских императоров [15]

См. Также [ править ]

  • Модель ускоренного отказа
  • Байесовский анализ выживаемости
  • Кривая выживаемости клеток
  • Цензура (статистика)
  • Интенсивность отказов
  • Частота превышения
  • Оценка Каплана – Мейера
  • Логранк тест
  • Максимальная вероятность
  • Смертность
  • MTBF
  • Модели пропорциональных опасностей
  • Теория надежности
  • Время пребывания (статистика)
  • Функция выживания
  • Процент выживаемости

Ссылки [ править ]

  1. ^ Миллер, Руперт Г. (1997), анализ выживания , John Wiley & Sons, ISBN 0-471-25218-2
  2. ^ a b Далгаард, Питер (2008), Вводная статистика с R (второе издание), Springer, ISBN 978-0387790534
  3. ^ Дарти, Уильям А. младший, изд. (2008). «Цензура слева и справа» . Международная энциклопедия социальных наук . 1 (2-е изд.). Макмиллан. С. 473–474 . Проверено 6 ноября +2016 .
  4. Перейти ↑ Richards, SJ (2012). «Справочник параметрических моделей выживания для актуарного использования». Скандинавский актуарный журнал . 2012 (4): 233–257. DOI : 10.1080 / 03461238.2010.506688 . S2CID 119577304 . 
  5. ^ Singh, R .; Мухопадхьяй, К. (2011). «Анализ выживаемости в клинических испытаниях: основы и области, которые необходимо знать» . Perspect Clin Res . 2 (4): 145–148. DOI : 10.4103 / 2229-3485.86872 . PMC 3227332 . PMID 22145125 .  
  6. ^ Клейнбаум, Дэвид G .; Кляйн, Митчел (2012), Анализ выживаемости: самообучающийся текст (третье изд.), Springer, ISBN 978-1441966452
  7. ^ Брострые, Горан (2012), История события Анализ с помощью R (первый ред.), Chapman & Hall / CRC, ISBN 978-1439831649
  8. ^ Табельщик, Мара; Ким, Чен Сон (2003), Анализ выживаемости с использованием S (первое издание), Чепмен и Холл / CRC, ISBN 978-1584884088
  9. ^ Степанова, Мария; Томас, Лин (2002-04-01). «Методы анализа выживаемости для персональных данных ссуды». Исследование операций . 50 (2): 277–289. DOI : 10.1287 / opre.50.2.277.426 . ISSN 0030-364X . 
  10. ^ Гленнон, Деннис; Нигро, Питер (2005). «Измерение риска невозврата кредитов для малого бизнеса: подход анализа выживаемости». Журнал денег, кредита и банковского дела . 37 (5): 923–947. DOI : 10.1353 / mcb.2005.0051 . ISSN 0022-2879 . JSTOR 3839153 . S2CID 154615623 .   
  11. ^ Кеннеди, Эдвард Х .; Ху, Чен; О'Брайен, Барбара; Гросс, Сэмюэл Р. (20 мая 2014 г.). «Уровень ложных обвинений подсудимых по уголовным делам, приговоренных к смертной казни» . Труды Национальной академии наук . 111 (20): 7230–7235. Bibcode : 2014PNAS..111.7230G . DOI : 10.1073 / pnas.1306417111 . ISSN 0027-8424 . PMC 4034186 . PMID 24778209 .   
  12. ^ де Cos Juez, FJ; Гарсиа Ньето, П.Дж.; Мартинес Торрес, Дж .; Табоада Кастро, Дж. (01.10.2010). «Анализ сроков изготовления металлических компонентов в аэрокосмической промышленности с помощью поддерживаемой векторной модели машин». Математическое и компьютерное моделирование . Математические модели в медицине, бизнесе и инженерии 2009. 52 (7): 1177–1184. DOI : 10.1016 / j.mcm.2010.03.017 . ISSN 0895-7177 . 
  13. ^ Спивак, Эндрю Л .; Дамфусс, Келли Р. (2006). «Кто возвращается в тюрьму? Анализ выживания при рецидиве среди взрослых преступников, освобожденных в Оклахоме, 1985–2004 годы». Исследования и политика в области правосудия . 8 (2): 57–88. DOI : 10,3818 / jrp.8.2.2006.57 . ISSN 1525-1071 . S2CID 144566819 .  
  14. ^ Поллок, Кеннет H .; Winterstein, Scott R .; Bunck, Christine M .; Кертис, Пол Д. (1989). «Анализ выживаемости в исследованиях телеметрии: ступенчатый дизайн входа» . Журнал управления дикой природой . 53 (1): 7–15. DOI : 10.2307 / 3801296 . ISSN 0022-541X . JSTOR 3801296 .  
  15. ^ Салех, Джозеф Гомер (2019-12-23). «Статистический анализ достоверности наиболее опасного занятия: римский император» . Palgrave Communications . 5 (1): 1–7. DOI : 10.1057 / s41599-019-0366-у . ISSN 2055-1045 . 

Дальнейшее чтение [ править ]

  • Коллетт, Дэвид (2003). Моделирование данных о выживании в медицинских исследованиях (второе изд.). Бока-Ратон: Чепмен и Холл / CRC. ISBN 1584883251.
  • Эландт-Джонсон, Регина; Джонсон, Норман (1999). Модели выживания и анализ данных . Нью-Йорк: Джон Вили и сыновья. ISBN 0471349925.
  • Kalbfleisch, JD; Прентис, Росс Л. (2002). Статистический анализ данных о времени отказа . Нью-Йорк: Джон Вили и сыновья. ISBN 047136357X.
  • Лоулесс, Джеральд Ф. (2003). Статистические модели и методы данных за всю жизнь (2-е изд.). Хобокен: Джон Уайли и сыновья. ISBN 0471372153.
  • Rausand, M .; Хойланд, А. (2004). Теория надежности систем: модели, статистические методы и приложения . Хобокен: Джон Уайли и сыновья. ISBN 047147133X.

Внешние ссылки [ править ]

  • Терно, Терри. «Пакет для анализа выживаемости в S» . Архивировано из оригинала на 2006-09-07.через страницу доктора Терно на сайте Mayo Clinic
  • «Справочник по инженерной статистике» . НИСТ / СЕМАТЭК.
  • SOCR , апплет анализа выживания и интерактивная обучающая деятельность .
  • Survival / Failure Time Analysis @ Statistics ' Учебник Page
  • Анализ выживаемости в R
  • Lifelines, пакет Python для анализа выживаемости
  • Анализ выживаемости в библиотеке NAG Fortran