Перекрестная проверка (статистика)

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Поиск источников: статистика «перекрестной проверки» - новости · газеты · книги · ученый · JSTOR ( август 2017 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )

Схема k-кратной перекрестной проверки.

Перекрестная проверка , ^[1]^[2]^[3] иногда называют оценку вращения ^[4]^[5]^[6] или вне образца тестирования , представляет собой любой из различных аналогичных проверки модели методов для оценки того, как результаты статистического анализ будет обобщен на независимый набор данных. Он используется в основном в тех местах , где целью является предсказанием, и один хочет оценить , насколько точно прогнозная модель будет работать на практике. В задаче прогнозирования модели обычно предоставляется набор известных данных, на которых выполняется обучение ( обучающий набор данных), а также набор данных неизвестных данных (или данных, которые были впервые обнаружены ), на которых тестируется модель (называемый набором данных проверки или набором тестирования ). ^[7]^[8] Целью перекрестной проверки является проверка способности модели прогнозировать новые данные, которые не использовались при ее оценке, чтобы отметить такие проблемы, как переоснащение или смещение выбора ^[9], и дать представление о том, как модель будет обобщена на независимый набор данных (т.е. неизвестный набор данных, например, из реальной проблемы).

Один раунд перекрестной проверки включает в себя разбиение на выборку из данных во дополнительных подмножеств, выполняя анализ на одной подгруппе ( так называемый обучающий набор ), и проверки достоверности анализ на другой подгруппе ( так называемый набор проверки или тестирования набора ). Чтобы уменьшить вариативность , в большинстве методов выполняется несколько раундов перекрестной проверки с использованием разных разделов, а результаты валидации объединяются (например, усредняются) по циклам, чтобы дать оценку прогностической эффективности модели.

Таким образом, перекрестная проверка объединяет (усредняет) показатели пригодности в прогнозировании, чтобы получить более точную оценку эффективности прогнозирования модели. ^[10]

Мотивация [ править ]

Предположим, у нас есть модель с одним или несколькими неизвестными параметрами и набор данных, которым модель может соответствовать (набор обучающих данных). Процесс подбора оптимизирует параметры модели, чтобы модель как можно лучше соответствовала обучающим данным. Если затем мы возьмем независимую выборку данных проверки из той же совокупности, из которой были взяты данные обучения, обычно окажется, что модель не соответствует данным проверки, а также данным обучения. Размер этой разницы, вероятно, будет большим, особенно когда размер набора обучающих данных мал или когда количество параметров в модели велико. Перекрестная проверка - это способ оценить размер этого эффекта.

В линейной регрессии у нас есть реальные значения отклика y ₁ , ..., y _n и n p -мерные векторные ковариаты x₁ , ..., x _n . Компоненты вектора x _i обозначаются x _{i 1} , ..., x _ip . Если мы используем метод наименьших квадратов, чтобы подогнать функцию в форме гиперплоскости ŷ = a + β^Tx к данным ( x _i , y_i )_{1 ≤ i ≤ n} , тогда мы могли бы оценить соответствие, используя среднеквадратичную ошибку (MSE). MSE для заданных оценочных значений параметров a и β на обучающем наборе ( x _i , y _i )_{1 ≤ i ≤ n} определяется как

{\ displaystyle MSE = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (y_ {i} - {\ hat {y}} _ {i}) ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (y_ {i} -a - {\ boldsymbol {\ beta}} ^ {T} \ mathbf {x} _ {i }) ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (y_ {i} -a- \ beta _ {1} x_ {i1} - \ dots - \ beta _ {p} x_ {ip}) ^ {2}}

Если модель задана правильно, при умеренных предположениях можно показать, что ожидаемое значение MSE для обучающего набора составляет ( n - p - 1) / ( n + p + 1) <1 раз больше ожидаемого значения MSE. для проверочного набора ^[11] (ожидаемое значение берется из распределения обучающих наборов). Таким образом, если мы подбираем модель и вычисляем MSE на обучающем наборе, мы получим оптимистически предвзятую оценку того, насколько хорошо модель будет соответствовать независимому набору данных. Эта смещенная оценка называется оценкой соответствия внутри выборки , тогда как оценка перекрестной проверки является оценкой вне выборки .

Поскольку в линейной регрессии можно напрямую вычислить коэффициент ( n - p - 1) / ( n + p + 1), с помощью которого обучающая MSE недооценивает проверочную MSE в предположении, что спецификация модели действительна, перекрестная проверка может использоваться для проверки того, была ли модель переоборудована , и в этом случае MSE в проверочном наборе существенно превысит свое ожидаемое значение. (Перекрестная проверка в контексте линейной регрессии также полезна тем, что ее можно использовать для выбора оптимально регуляризованной функции затрат .) В большинстве других процедур регрессии (например, логистической регрессии)) не существует простой формулы для вычисления ожидаемого соответствия вне выборки. Таким образом, перекрестная проверка - это общеприменимый способ прогнозирования производительности модели на недоступных данных с использованием числовых вычислений вместо теоретического анализа.

Типы [ править ]

Можно выделить два типа перекрестной проверки: исчерпывающая и неполная перекрестная проверка.

Исчерпывающая перекрестная проверка [ править ]

Методы исчерпывающей перекрестной проверки - это методы перекрестной проверки, которые изучают и тестируют все возможные способы разделения исходной выборки на обучающий и проверочный набор.

Перекрестная проверка без исключения [ править ]

Перекрестная проверка с исключением p - out ( LpO CV ) включает использование p наблюдений в качестве набора для проверки и оставшихся наблюдений в качестве обучающего набора. Это повторяется для всех способов разрезания исходной выборки на проверочный набор из p наблюдений и обучающий набор. ^[12]

Перекрестная проверка LpO требует обучения и проверки времени модели , где n - количество наблюдений в исходной выборке, а где - биномиальный коэффициент . Для p > 1 и даже для умеренно большого n LpO CV может стать вычислительно невыполнимым. Например, при n = 100 и p = 30, ${\ Displaystyle C_ {p} ^ {n}}$ ${\ Displaystyle C_ {p} ^ {n}}$ ${\ displaystyle C_ {30} ^ {100} \ примерно 3 \ times 10 ^ {25}.}$

Вариант перекрестной проверки LpO с p = 2, известный как перекрестная проверка исключения-пары, был рекомендован в качестве почти беспристрастного метода для оценки площади под кривой ROC бинарных классификаторов. ^[13]

Перекрестная проверка без исключения [ править ]

Иллюстрация перекрестной проверки с исключением по одному (LOOCV) при n = 8 наблюдениях. Всего будет обучено и протестировано 8 моделей.

Leave- один отъезд кросс-проверка ( LOOCV ) представляет собой частный случай leave- р отъезда перекрестной проверки с р = 1. Процесс похож на складной нож ; однако при перекрестной проверке статистику вычисляют по оставшимся образцам, а при складывании складных ножей вычисляют статистику только по сохраненным образцам.

Перекрестная проверка LOO требует меньше времени вычислений, чем перекрестная проверка LpO, потому что есть только проходы, а не . Однако проходы могут потребовать довольно большого времени вычислений, и в этом случае другие подходы, такие как k-кратная перекрестная проверка, могут быть более подходящими. ^[14] ${\ displaystyle C_ {1} ^ {n} = n}$ ${\ Displaystyle C_ {p} ^ {n}}$ ${\ displaystyle n}$

Псевдокод-алгоритм:

Вход:

x, {вектор длины N со значениями x входящих точек}

y, {вектор длины N со значениями y ожидаемого результата}

interpolate (x_in, y_in, x_out), {возвращает оценку для точки x_out после обучения модели с парами x_in-y_in}

Выход:

err, {оценка ошибки предсказания}

Шаги:

 ошибка ← 0 для i ← 1, ..., N do // определяем подмножества перекрестной проверки x_in ← (x [1], ..., x [i - 1], x [i + 1], ..., x [N]) y_in ← (y [1], ..., y [i - 1], y [i + 1], ..., y [N]) x_out ← x [i] y_out ← интерполировать (x_in, y_in, x_out) err ← err + (y [i] - y_out) ^ 2 конец для ошибка ← ошибка / N

Неисчерпывающая перекрестная проверка [ править ]

Неисчерпывающие методы перекрестной проверки не вычисляют все способы разделения исходной выборки. Эти методы аппроксимации leave- р отъезда перекрестной проверки.

k- кратная перекрестная проверка [ править ]

Иллюстрация k-кратной перекрестной проверки при n = 12 наблюдениях и k = 3. После перетасовки данных в общей сложности будут обучены и протестированы 3 модели.

При k- кратной перекрестной проверке исходная выборка случайным образом разбивается на k подвыборок равного размера. Из k подвыборок одна подвыборка сохраняется в качестве данных проверки для тестирования модели, а оставшиеся k - 1 подвыборки используются в качестве обучающих данных. Затем процесс перекрестной проверки повторяется k раз, причем каждая из k подвыборок используется ровно один раз в качестве данных проверки. кзатем результаты можно усреднить для получения единой оценки. Преимущество этого метода перед повторной случайной подвыборкой (см. Ниже) состоит в том, что все наблюдения используются как для обучения, так и для проверки, и каждое наблюдение используется для проверки только один раз. Обычно используется 10-кратная перекрестная проверка ^[15], но в целом k остается нефиксированным параметром.

Например, установка k = 2 приводит к двукратной перекрестной проверке. При двукратной перекрестной проверке мы случайным образом перемешиваем набор данных на два набора d ₀ и d ₁ , так что оба набора имеют одинаковый размер (обычно это реализуется путем перемешивания массива данных с последующим разделением его на два). Затем мы тренируемся на d ₀ и проверяем на d ₁ , затем тренируемся на d ₁ и проверяем на d ₀ .

Когда k = n (количество наблюдений), k- кратная перекрестная проверка эквивалентна перекрестной проверке с исключением одного. ^[16]

При стратифицированной k- кратной перекрестной проверке разделы выбираются так, чтобы среднее значение ответа было примерно одинаковым для всех разделов. В случае двоичной классификации это означает, что каждый раздел содержит примерно одинаковые пропорции двух типов меток классов.

При повторной перекрестной проверке данные случайным образом разбиваются на k разделов несколько раз. Таким образом, характеристики модели могут быть усреднены по нескольким прогонам, но на практике это редко бывает желательно. ^[17]

Метод удержания [ править ]

В методе удержания мы случайным образом назначаем точки данных двум наборам d ₀ и d ₁ , обычно называемым обучающим набором и тестовым набором, соответственно. Размер каждого из наборов произвольный, хотя обычно набор тестов меньше, чем обучающий набор. Затем мы обучаем (строим модель) на d ₀ и тестируем (оцениваем ее производительность) на d ₁ .

При типичной перекрестной проверке результаты нескольких прогонов тестирования модели усредняются вместе; Напротив, метод удержания изолированно включает в себя один проход. Его следует использовать с осторожностью, потому что без такого усреднения нескольких прогонов можно получить очень вводящие в заблуждение результаты. Индикатор точности прогноза ( F * ) будет иметь тенденцию быть нестабильным, так как он не будет сглажен несколькими итерациями (см. Ниже). Точно так же индикаторы конкретной роли, которую играют различные переменные-предикторы (например, значения коэффициентов регрессии), будут иметь тенденцию быть нестабильными.

Хотя метод удержания можно сформулировать как «простейший вид перекрестной проверки» ^[18], многие источники вместо этого классифицируют задержку как тип простой проверки, а не как простую или вырожденную форму перекрестной проверки. ^[5]^[19]

Повторная проверка случайной подвыборки [ править ]

Этот метод, также известный как перекрестная проверка методом Монте-Карло , ^[20] создает несколько случайных разделений набора данных на данные обучения и проверки. ^[21] Для каждого такого разделения модель соответствует обучающим данным, и точность прогнозов оценивается с использованием данных проверки. Затем результаты усредняются по разбиениям. Преимущество этого метода (перед k- кратной перекрестной проверкой) состоит в том, что пропорция разделения на обучение / проверку не зависит от количества итераций (т. Е. Количества разделов). Недостатком этого метода является то, что некоторые наблюдения могут никогда не быть выбраны в подвыборке проверки, тогда как другие могут быть выбраны более одного раза. Другими словами, подмножества проверки могут перекрываться. Этот метод также демонстрируетВариация Монте-Карло , означающая, что результаты будут отличаться, если анализ повторяется с разными случайными разбиениями.

По мере того, как количество случайных разделений приближается к бесконечности, результат повторной проверки случайной подвыборки имеет тенденцию к результату перекрестной проверки без исключения.

В стратифицированном варианте этого подхода случайные выборки генерируются таким образом, чтобы среднее значение ответа (т.е. зависимая переменная в регрессии) было равным в обучающей и тестовой выборках. Это особенно полезно, если ответы дихотомичны с несбалансированным представлением двух значений ответа в данных.

Вложенная перекрестная проверка [ править ]

Когда перекрестная проверка используется одновременно для выбора наилучшего набора гиперпараметров и для оценки ошибок (и оценки способности обобщения), требуется вложенная перекрестная проверка. Есть много вариантов. Можно выделить как минимум два варианта:

k * l-кратная перекрестная проверка [ править ]

Это действительно вложенный вариант (например, используемый cross_val_scoreв scikit-learn ^[22] ), который содержит внешний цикл из k наборов и внутренний цикл из l наборов. Общий набор данных разделен на k наборов. Один за другим набор выбирается в качестве (внешнего) тестового набора, а k - 1 других наборов объединяются в соответствующий внешний обучающий набор. Это повторяется для каждого из k наборов. Каждый внешний обучающий набор далее подразделяется на l наборов. Один за другим набор выбирается как набор внутренних тестов (валидации), и l - 1 других наборов объединяются в соответствующий внутренний обучающий набор. Это повторяется для каждого из lнаборы. Внутренние обучающие наборы используются для соответствия параметрам модели, в то время как внешний набор тестов используется в качестве набора для проверки, чтобы обеспечить беспристрастную оценку соответствия модели. Обычно это повторяется для многих разных гиперпараметров (или даже для разных типов моделей), и набор проверки используется для определения лучшего набора гиперпараметров (и типа модели) для этого внутреннего обучающего набора. После этого новая модель соответствует всему внешнему обучающему набору, используя лучший набор гиперпараметров из внутренней перекрестной проверки. Затем производительность этой модели оценивается с помощью внешнего набора для испытаний.

k-кратная перекрестная проверка с проверкой и набором тестов [ править ]

Это тип k * l-кратной перекрестной проверки, когда l = k - 1. Однократная k-кратная перекрестная проверка используется как для проверки, так и для набора тестов . Общий набор данных разделен на k наборов. Один за другим набор выбирается в качестве тестового набора. Затем один за другим один из оставшихся наборов используется в качестве набора для проверки, а другой k - 2 набора используются как обучающие, пока не будут оценены все возможные комбинации. Подобно k * l-кратной перекрестной проверке, обучающий набор используется для подгонки модели, а набор проверки используется для оценки модели для каждого из наборов гиперпараметров. Наконец, для выбранного набора параметров тестовый набор используется для оценки модели с наилучшим набором параметров. Здесь возможны два варианта: либо оценка модели, которая была обучена на обучающем наборе, либо оценка новой модели, подходящей для комбинации поезда и проверочного набора.

Меры соответствия [ править ]

Цель перекрестной проверки - оценить ожидаемый уровень соответствия модели набору данных, который не зависит от данных, которые использовались для обучения модели. Его можно использовать для оценки любой количественной меры соответствия, которая подходит для данных и модели. Например, для задач двоичной классификации каждый случай в наборе проверки либо предсказывается правильно, либо неверно. В этой ситуации коэффициент ошибочной классификации можно использовать для резюмирования соответствия, хотя также могут использоваться другие меры, такие как положительная прогностическая ценность . Когда прогнозируемое значение непрерывно распределяется, среднеквадратичная ошибка , среднеквадратичная ошибка или медианное абсолютное отклонение может использоваться для обобщения ошибок.

Использование предыдущей информации [ править ]

Когда пользователи применяют перекрестную проверку для выбора хорошей конфигурации , они могут захотеть сбалансировать выбор с перекрестной проверкой со своей собственной оценкой конфигурации. Таким образом, они могут попытаться противостоять волатильности перекрестной проверки при небольшом размере выборки и включить соответствующую информацию из предыдущих исследований. Например, при комбинированном прогнозировании перекрестная проверка может применяться для оценки весов, которые присваиваются каждому прогнозу. Поскольку простой равновзвешенный прогноз сложно превзойти, может быть добавлен штраф за отклонение от равных весов. ^[23] Или, если перекрестная проверка применяется для присвоения индивидуальных весов наблюдениям, тогда можно наказывать отклонения от равных весов, чтобы избежать потери потенциально релевантной информации. ^[23] ${\ displaystyle \ lambda}$ Hoornweg (2018) показывает, как можно определить параметр настройки, чтобы пользователь мог интуитивно балансировать между точностью перекрестной проверки и простотой использования эталонного параметра , определяемого пользователем. ${\ displaystyle \ gamma}$ ${\ displaystyle \ lambda _ {R}}$

Если обозначает конфигурацию кандидата, которая может быть выбрана, то функция потерь, которая должна быть минимизирована, может быть определена как $\lambda _{i}$ $i^{th}$

L_{\lambda _{i}}=(1-\gamma ){\mbox{ Relative Accuracy}}_{i}+\gamma {\mbox{ Relative Simplicity}}_{i}.

Относительная точность может быть определена количественно как , так что среднеквадратическая ошибка кандидата делается относительно ошибки, указанной пользователем . Термин относительной простоты измеряет величину отклонения по отношению к максимальной величине отклонения от . Соответственно, относительная простота может быть указана как , где соответствует значению с наибольшим допустимым отклонением от . С помощью пользователь определяет, насколько велико влияние эталонного параметра относительно перекрестной проверки. ${\mbox{MSE}}(\lambda _{i})/{\mbox{MSE}}(\lambda _{R})$ $\lambda _{i}$ $\lambda _{R}$ $\lambda _{i}$ $\lambda _{R}$ $\lambda _{R}$ ${\frac {(\lambda _{i}-\lambda _{R})^{2}}{(\lambda _{\max }-\lambda _{R})^{2}}}$ $\lambda _{\max }$ $\lambda$ $\lambda _{R}$ $\gamma \in [0,1]$

Можно добавить условия относительной простоты для нескольких конфигураций , указав функцию потерь как $c=1,2,...,C$

L_{\lambda _{i}}={\mbox{ Relative Accuracy}}_{i}+\sum _{c=1}^{C}{\frac {\gamma _{c}}{1-\gamma _{c}}}{\mbox{ Relative Simplicity}}_{i,c}.

Хорнвег (2018) показывает, что функция потерь с таким компромиссом между точностью и простотой также может использоваться для интуитивно понятного определения оценок усадки, таких как (адаптивное) лассо и байесовская / гребневая регрессия . ^[23] Щелкните по лассо, чтобы увидеть пример.

Статистические свойства [ править ]

Предположим, мы выбираем меру соответствия F и используем перекрестную проверку для получения оценки F ^* ожидаемого соответствия EF модели независимому набору данных, взятому из той же совокупности, что и обучающие данные. Если представить себе выборку нескольких независимых обучающих наборов, следующих за одним и тем же распределением, результирующие значения F ^* будут отличаться. Статистические свойства F ^{* являются} результатом этого изменения.

Оценщик перекрестной проверки F ^* почти несмещен для EF . ^[24]^{[ необходима цитата ]} Причина того, что это немного предвзято, заключается в том, что обучающий набор при перекрестной проверке немного меньше, чем фактический набор данных (например, для LOOCV размер обучающего набора равен n - 1, когда имеется n наблюдаемых случаев) . Практически во всех ситуациях влияние этого смещения будет консервативным, поскольку предполагаемое соответствие будет слегка смещено в направлении, предполагающем более плохое соответствие. На практике это предубеждение редко вызывает беспокойство.

Разброс F ^* может быть большим. ^[25]^[26] По этой причине, если две статистические процедуры сравниваются на основе результатов перекрестной проверки, процедура с лучшей оцененной производительностью может на самом деле не быть лучшей из двух процедур (т.е. она может не иметь лучшего значение EF ). Некоторый прогресс был достигнут в построении доверительных интервалов вокруг оценок перекрестной проверки ^[25], но это считается сложной проблемой.

Вычислительные проблемы [ править ]

Большинство форм перекрестной проверки несложно реализовать, пока доступна реализация изучаемого метода прогнозирования. В частности, метод прогнозирования может быть «черным ящиком» - нет необходимости иметь доступ к внутренностям его реализации. Если обучение методу прогнозирования является дорогостоящим, перекрестная проверка может быть очень медленной, поскольку обучение необходимо проводить повторно. В некоторых случаях, таких как метод наименьших квадратов и регрессия ядра , перекрестную проверку можно значительно ускорить, предварительно вычислив определенные значения, которые неоднократно требуются в процессе обучения, или с помощью быстрых «правил обновления», таких как формула Шермана – Моррисона.. Однако нужно быть осторожным, чтобы сохранить "полное ослепление" набора проверки из процедуры обучения, иначе может возникнуть смещение. Ярким примером ускорения перекрестной проверки является линейная регрессия , где результаты перекрестной проверки имеют выражение в закрытой форме, известное как сумма квадратов остаточных ошибок прогнозирования ( PRESS ).

Ограничения и неправильное использование [ править ]

Перекрестная проверка дает значимые результаты только в том случае, если набор проверки и обучающий набор взяты из одной и той же популяции, и только если человеческие предубеждения контролируются.

Во многих приложениях прогнозного моделирования структура изучаемой системы со временем меняется (т. Е. Является «нестационарной»). Оба они могут привести к систематическим различиям между наборами для обучения и проверки. Например, если модель для прогнозирования стоимости запасов обучается на данных за определенный пятилетний период, нереально рассматривать последующий пятилетний период как выборку из той же популяции. В качестве другого примера предположим, что разработана модель для прогнозирования риска для человека быть диагностированным.с определенным заболеванием в течение следующего года. Если модель обучается с использованием данных исследования с участием только определенной группы населения (например, молодых людей или мужчин), но затем применяется к общей популяции, результаты перекрестной проверки из обучающей выборки могут сильно отличаться от фактических прогностических характеристик. .

Во многих приложениях модели также могут быть указаны неправильно и изменяться в зависимости от предубеждений моделиста и / или произвольного выбора. Когда это происходит, может возникнуть иллюзия, что система изменяется во внешних выборках, тогда как причина в том, что модель пропустила критический предсказатель и / или включила ошибочный предсказатель. Новое свидетельство состоит в том, что перекрестная проверка сама по себе не очень хорошо предсказывает внешнюю валидность, тогда как форма экспериментальной валидации, известная как выборка подкачки, которая контролирует человеческую предвзятость, может гораздо лучше предсказывать внешнюю валидность. ^[27] Как определено в этом крупном исследовании MAQC-II по 30 000 моделей, выборка подкачки включает перекрестную проверку в том смысле, что прогнозы проверяются на независимых выборках для обучения и проверки. Тем не менее, модели также разрабатываются на основе этих независимых выборок и моделистами, которые не знают друг друга. Когда существует несоответствие в этих моделях, разработанных для этих переставленных обучающих и проверочных выборок, что случается довольно часто, MAQC-II показывает, что это будет гораздо более предсказуемо для плохой внешней предсказательной валидности, чем традиционная перекрестная проверка.

Причина успеха перестановки выборки - это встроенный контроль человеческих предубеждений при построении модели. Помимо чрезмерной веры в прогнозы, которые могут различаться у разных разработчиков и приводить к плохой внешней валидности из-за этих сбивающих с толку эффектов разработчика, есть еще несколько способов неправильного использования перекрестной проверки:

Выполняя первоначальный анализ для определения наиболее информативных функций с использованием всего набора данных - если для процедуры моделирования требуется выбор функций или настройка модели, это необходимо повторить для каждого обучающего набора. В противном случае прогнозы обязательно будут смещены в сторону повышения. ^[28] Если перекрестная проверка используется для решения, какие функции использовать, должна выполняться внутренняя перекрестная проверка для выполнения выбора функций на каждом обучающем наборе. ^[29]
Если разрешить включение некоторых обучающих данных в набор тестов - это может произойти из-за «двойникования» в наборе данных, когда в наборе данных присутствуют некоторые точно идентичные или почти идентичные образцы. В некоторой степени твиннинг всегда имеет место даже в совершенно независимых выборках для обучения и проверки. Это связано с тем, что некоторые из наблюдений обучающей выборки будут иметь почти идентичные значения предикторов, что и наблюдения проверочной выборки. И некоторые из них будут коррелировать с целью на уровнях выше вероятности в одном и том же направлении как при обучении, так и при проверке, когда они фактически управляются ошибочными предсказателями с плохой внешней достоверностью. Если такая перекрестно проверенная модель выбрана из k- кратного набора, человеческая ошибка подтверждениябудет работать и определит, что такая модель прошла валидацию. Вот почему традиционная перекрестная проверка должна быть дополнена средствами контроля человеческой предвзятости и искаженной спецификации модели, такой как выборка подстановки и проспективные исследования.

Перекрестная проверка для моделей временных рядов [ править ]

Поскольку порядок данных важен, перекрестная проверка может быть проблематичной для моделей временных рядов . Более подходящим подходом может быть использование скользящей перекрестной проверки.

Однако, если производительность описывается единой сводной статистикой , вполне возможно, что подход, описанный Политисом и Романо как стационарный бутстрап ^[30], будет работать. Статистика начальной загрузки должна принимать интервал временного ряда и возвращать итоговую статистику по нему. Вызов стационарного бутстрапа должен указывать соответствующую среднюю длину интервала.

Приложения [ править ]

Перекрестная проверка может использоваться для сравнения производительности различных процедур прогнозного моделирования. Например, предположим, что нас интересует оптическое распознавание символов и мы рассматриваем возможность использования либо опорных векторных машин (SVM), либо k- ближайших соседей (KNN) для предсказания истинного символа из изображения рукописного символа. Используя перекрестную проверку, мы могли бы объективно сравнить эти два метода с точки зрения соответствующих долей неверно классифицированных символов. Если бы мы просто сравнили методы, основанные на их частоте ошибок в выборке, метод KNN, вероятно, будет работать лучше, поскольку он более гибкий и, следовательно, более склонен к переобучению ^{[ необходима цитата ]} по сравнению с методом SVM.

Перекрестная проверка также может использоваться при выборе переменных . ^[31] Предположим, мы используем уровни экспрессии 20 белков, чтобы предсказать, ответит ли больной раком на лекарство . Практической целью было бы определить, какое подмножество из 20 характеристик следует использовать для создания наилучшей прогнозной модели. Для большинства процедур моделирования, если мы сравним подмножества признаков, используя частоту ошибок в выборке, наилучшая производительность будет достигнута при использовании всех 20 функций. Однако при перекрестной проверке модель с наилучшим соответствием обычно будет включать только подмножество функций, которые считаются действительно информативными.

Недавнее развитие медицинской статистики - ее использование в метаанализе. Он составляет основу валидационной статистики Vn, которая используется для проверки статистической достоверности сводных оценок метаанализа. ^[32] Он также использовался в более традиционном смысле в метаанализе для оценки вероятной ошибки предсказания результатов метаанализа. ^[33]

См. Также [ править ]

Викискладе есть медиафайлы, связанные с перекрестной проверкой (статистикой) .

Повышение (машинное обучение)
Агрегирование бутстрапа (упаковка)
Самостоятельная загрузка (статистика)
Утечка (машинное обучение)
Выбор модели
Ресэмплинг (статистика)
Стабильность (теория обучения)
Срок действия (статистика)

Примечания и ссылки [ править ]

^ Аллен, Дэвид М (1974). «Взаимосвязь между выбором переменных и накоплением данных и методом прогнозирования». Технометрика . 16 (1): 125–127. DOI : 10.2307 / 1267500 . JSTOR 1267500 .
Перейти ↑ Stone, M (1974). «Перекрестный выбор и оценка статистических прогнозов». Журнал Королевского статистического общества: серия B (методологическая) . 36 (2): 111–147. DOI : 10.1111 / j.2517-6161.1974.tb00994.x .
Перейти ↑ Stone, M (1977). «Асимптотическая эквивалентность выбора модели перекрестной проверкой и критерием Акаике». Журнал Королевского статистического общества: серия B (методологическая) . 39 (1): 44–47. JSTOR 2984877 .
^ Гейссер, Сеймур (1993). Прогнозный вывод . Нью-Йорк, штат Нью-Йорк: Чепмен и Холл. ISBN 978-0-412-03471-8.
^ a b Кохави, Рон (1995). «Исследование перекрестной проверки и начальной загрузки для оценки точности и выбора модели». Труды четырнадцатой международной совместной конференции по искусственному интеллекту . Сан-Матео, Калифорния: Морган Кауфманн. 2 (12): 1137–1143. CiteSeerX 10.1.1.48.529 .
^ Devijver, Пьер А .; Киттлер, Йозеф (1982). Распознавание образов: статистический подход . Лондон, Великобритания: Прентис-Холл. ISBN 0-13-654236-0.
↑ Галкин, Александр (28 ноября 2011 г.). "В чем разница между набором тестов и набором проверки?" . Проверено 10 октября 2018 года .
^ "Вопрос новичка: запутались в данных о поездах, проверках и тестах!" . Архивировано 14 марта 2015 года . Проверено 14 ноября 2013 .CS1 maint: bot: original URL status unknown (link)
^ Cawley, Gavin C .; Талбот, Никола LC (2010). «О чрезмерной подгонке при выборе модели и последующем предвзятом выборе при оценке производительности» (PDF) . 11 . Журнал исследований машинного обучения: 2079–2107. Cite journal requires |journal= (help)
^ Гроссман, Роберт; Сени, Джованни; Старейшина, Джон; Агарвал, Нитин; Лю, Хуан (2010). «Ансамблевые методы интеллектуального анализа данных: повышение точности за счет комбинирования прогнозов». Обобщающие лекции по интеллектуальному анализу данных и открытию знаний . Морган и Клейпул. 2 : 1–126. DOI : 10.2200 / S00240ED1V01Y200912DMK002 .
^ Триппа, Лоренцо; Валдрон, Леви; Хаттенхауэр, Кертис; Пармиджани, Джованни (март 2015 г.). «Байесовское непараметрическое перекрестное исследование методов прогнозирования». Летопись прикладной статистики . 9 (1): 402–428. arXiv : 1506.00474 . Bibcode : 2015arXiv150600474T . DOI : 10.1214 / 14-AOAS798 . ISSN 1932-6157 .
^ Celisse, Ален (1 октября 2014). «Оптимальная перекрестная проверка в оценке плотности с $ L ^ {2} $ - потерями». Летопись статистики . 42 (5): 1879–1910. arXiv : 0811.0802 . DOI : 10.1214 / 14-AOS1240 . ISSN 0090-5364 .
^ Airola, A .; Пахиккала, Т .; Waegeman, W .; Де Баэтс, Бернар; Салакоски, Т. (01.04.2011). «Экспериментальное сравнение методов перекрестной проверки для оценки площади под кривой ROC». Вычислительная статистика и анализ данных . 55 (4): 1828–1844. DOI : 10.1016 / j.csda.2010.11.018 .
^ Молинаро, AM; Саймон, Р .; Пфайффер, РМ (1 августа 2005 г.). «Оценка погрешности прогноза: сравнение методов передискретизации» . Биоинформатика . 21 (15): 3301–3307. DOI : 10.1093 / биоинформатики / bti499 . ISSN 1367-4803 . PMID 15905277 .
^ Маклахлан, Джеффри Дж .; До, Ким-Ань ; Амбруаз, Кристоф (2004). Анализ данных экспрессии генов микрочипов . Вайли.
^ «Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование. 2-е издание» . web.stanford.edu . Проверено 4 апреля 2019 .
^ Vanwinckelen, Gitte (2 октября 2019). Об оценке точности модели с повторной перекрестной проверкой . lirias.kuleuven . С. 39–44. ISBN 9789461970442.
^ «Перекрестная проверка» . Проверено 11 ноября 2012 года .
^ Арлот, Сильвен; Селисс, Ален (2010). «Обзор процедур перекрестной проверки для выбора модели». Статистические обзоры . 4 : 40–79. arXiv : 0907.4728 . DOI : 10.1214 / 09-SS054 . Вкратце, CV состоит в усреднении нескольких задержек оценки риска, соответствующих различным разделам данных.
^ Дубицкий, Вернер; Гранцов, Мартин; Беррар, Даниэль (2007). Основы интеллектуального анализа данных в геномике и протеомике . Springer Science & Business Media. п. 178.
^ Кун, Макс; Джонсон, Кьелл (2013). Прикладное прогнозное моделирование . Нью-Йорк, Нью-Йорк: Springer New York. DOI : 10.1007 / 978-1-4614-6849-3 . ISBN 9781461468486.
^ «Вложенная или невложенная перекрестная проверка» . Проверено 19 февраля 2019 .
^ a b c Хорнвег, Виктор (2018). Наука: В стадии представления . Hoornweg Press. ISBN 978-90-829188-0-9.
Рианна Кристенсен, Рональд (21 мая 2015 г.). «Мысли о прогнозировании и перекрестной проверке» (PDF) . Департамент математики и статистики Университета Нью-Мексико . Проверено 31 мая 2017 года .
^ a b Эфрон, Брэдли; Тибширани, Роберт (1997). «Улучшения перекрестной проверки: метод .632 + Bootstrap». Журнал Американской статистической ассоциации . 92 (438): 548–560. DOI : 10.2307 / 2965703 . JSTOR 2965703 . Руководство по ремонту 1467848 .
Перейти ↑ Stone, Mervyn (1977). «Асимптотика за и против перекрестной проверки». Биометрика . 64 (1): 29–35. DOI : 10.1093 / Biomet / 64.1.29 . JSTOR 2335766 . Руководство по ремонту 0474601 .
^ Консорциум, MAQC (2010). «Контроль качества микрочипов (MAQC) -II, исследование общих практик для разработки и проверки прогнозных моделей на основе микрочипов» . Природа Биотехнологии . Лондон: Издательская группа Nature. 28 (8): 827–838. DOI : 10.1038 / nbt.1665 . PMC 3315840 . PMID 20676074 .
^ Bermingham, Mairead L .; Понг-Вонг, Рикардо; Спилиопулу, Афина; Хейворд, Кэролайн; Рудан, Игорь; Кэмпбелл, Гарри; Райт, Алан Ф .; Уилсон, Джеймс Ф .; Агаков, Феликс; Наварро, По; Хейли, Крис С. (2015). «Применение многомерного отбора признаков: оценка для геномного предсказания у человека» . Sci. Отчет 5 : 10312. Bibcode : 2015NatSR ... 510312B . DOI : 10.1038 / srep10312 . PMC 4437376 . PMID 25988841 .
^ Варма, Судхир; Саймон, Ричард (2006). «Предвзятость в оценке ошибок при использовании перекрестной проверки для выбора модели» . BMC Bioinformatics . 7 : 91. DOI : 10,1186 / 1471-2105-7-91 . PMC 1397873 . PMID 16504092 .
^ Politis, Dimitris N .; Романо, Джозеф П. (1994). «Стационарный бутстрап». Журнал Американской статистической ассоциации . 89 (428): 1303–1313. DOI : 10.1080 / 01621459.1994.10476870 .
^ Пикард, Ричард; Кук, Деннис (1984). «Перекрестная проверка регрессионных моделей». Журнал Американской статистической ассоциации . 79 (387): 575–583. DOI : 10.2307 / 2288403 . JSTOR 2288403 .
^ Willis BH, Райли RD (2017). «Измерение статистической достоверности сводных результатов мета-анализа и мета-регрессии для использования в клинической практике» . Статистика в медицине . 36 (21): 3283–3301. DOI : 10.1002 / sim.7372 . PMC 5575530 . PMID 28620945 .
^ Райли РД, Ахмеда I, Дебрэ Т.П., Уиллис BH, Noordzij Р, Хиггинс ДП, Дикс JJ (2015). «Обобщение и проверка результатов точности тестов в нескольких исследованиях для использования в клинической практике» . Статистика в медицине . 34 (13): 2081–2103. DOI : 10.1002 / sim.6471 . PMC 4973708 . PMID 25800943 .

[1] Аллен, Дэвид М (1974). «Взаимосвязь между выбором переменных и накоплением данных и методом прогнозирования». Технометрика . 16 (1): 125–127. DOI : 10.2307 / 1267500 . JSTOR 1267500 .

[2] Перейти ↑ Stone, M (1974). «Перекрестный выбор и оценка статистических прогнозов». Журнал Королевского статистического общества: серия B (методологическая) . 36 (2): 111–147. DOI : 10.1111 / j.2517-6161.1974.tb00994.x .

[3] Перейти ↑ Stone, M (1977). «Асимптотическая эквивалентность выбора модели перекрестной проверкой и критерием Акаике». Журнал Королевского статистического общества: серия B (методологическая) . 39 (1): 44–47. JSTOR 2984877 .

[4] Гейссер, Сеймур (1993). Прогнозный вывод . Нью-Йорк, штат Нью-Йорк: Чепмен и Холл. ISBN 978-0-412-03471-8.

[Kohavi95-5] Кохави, Рон (1995). «Исследование перекрестной проверки и начальной загрузки для оценки точности и выбора модели». Труды четырнадцатой международной совместной конференции по искусственному интеллекту . Сан-Матео, Калифорния: Морган Кауфманн. 2 (12): 1137–1143. CiteSeerX 10.1.1.48.529 .

[Devijver82-6] Devijver, Пьер А .; Киттлер, Йозеф (1982). Распознавание образов: статистический подход . Лондон, Великобритания: Прентис-Холл. ISBN 0-13-654236-0.

[7] Галкин, Александр (28 ноября 2011 г.). "В чем разница между набором тестов и набором проверки?" . Проверено 10 октября 2018 года .

[Newbie_question:_Confused_about_train,_validation_and_test_data!-8] "Вопрос новичка: запутались в данных о поездах, проверках и тестах!" . Архивировано 14 марта 2015 года . Проверено 14 ноября 2013 .CS1 maint: bot: original URL status unknown (link)

[9] Cawley, Gavin C .; Талбот, Никола LC (2010). «О чрезмерной подгонке при выборе модели и последующем предвзятом выборе при оценке производительности» (PDF) . 11 . Журнал исследований машинного обучения: 2079–2107. Cite journal requires |journal= (help)

[:0-10] Гроссман, Роберт; Сени, Джованни; Старейшина, Джон; Агарвал, Нитин; Лю, Хуан (2010). «Ансамблевые методы интеллектуального анализа данных: повышение точности за счет комбинирования прогнозов». Обобщающие лекции по интеллектуальному анализу данных и открытию знаний . Морган и Клейпул. 2 : 1–126. DOI : 10.2200 / S00240ED1V01Y200912DMK002 .

[11] Триппа, Лоренцо; Валдрон, Леви; Хаттенхауэр, Кертис; Пармиджани, Джованни (март 2015 г.). «Байесовское непараметрическое перекрестное исследование методов прогнозирования». Летопись прикладной статистики . 9 (1): 402–428. arXiv : 1506.00474 . Bibcode : 2015arXiv150600474T . DOI : 10.1214 / 14-AOAS798 . ISSN 1932-6157 .

[12] Celisse, Ален (1 октября 2014). «Оптимальная перекрестная проверка в оценке плотности с $ L ^ {2} $ - потерями». Летопись статистики . 42 (5): 1879–1910. arXiv : 0811.0802 . DOI : 10.1214 / 14-AOS1240 . ISSN 0090-5364 .

[13] Airola, A .; Пахиккала, Т .; Waegeman, W .; Де Баэтс, Бернар; Салакоски, Т. (01.04.2011). «Экспериментальное сравнение методов перекрестной проверки для оценки площади под кривой ROC». Вычислительная статистика и анализ данных . 55 (4): 1828–1844. DOI : 10.1016 / j.csda.2010.11.018 .

[14] Молинаро, AM; Саймон, Р .; Пфайффер, РМ (1 августа 2005 г.). «Оценка погрешности прогноза: сравнение методов передискретизации» . Биоинформатика . 21 (15): 3301–3307. DOI : 10.1093 / биоинформатики / bti499 . ISSN 1367-4803 . PMID 15905277 .

[McLachlan-15] Маклахлан, Джеффри Дж .; До, Ким-Ань ; Амбруаз, Кристоф (2004). Анализ данных экспрессии генов микрочипов . Вайли.

[16] «Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование. 2-е издание» . web.stanford.edu . Проверено 4 апреля 2019 .

[17] Vanwinckelen, Gitte (2 октября 2019). Об оценке точности модели с повторной перекрестной проверкой . lirias.kuleuven . С. 39–44. ISBN 9789461970442.

[18] «Перекрестная проверка» . Проверено 11 ноября 2012 года .

[19] Арлот, Сильвен; Селисс, Ален (2010). «Обзор процедур перекрестной проверки для выбора модели». Статистические обзоры . 4 : 40–79. arXiv : 0907.4728 . DOI : 10.1214 / 09-SS054 . Вкратце, CV состоит в усреднении нескольких задержек оценки риска, соответствующих различным разделам данных.

[mccv-20] Дубицкий, Вернер; Гранцов, Мартин; Беррар, Даниэль (2007). Основы интеллектуального анализа данных в геномике и протеомике . Springer Science & Business Media. п. 178.

[21] Кун, Макс; Джонсон, Кьелл (2013). Прикладное прогнозное моделирование . Нью-Йорк, Нью-Йорк: Springer New York. DOI : 10.1007 / 978-1-4614-6849-3 . ISBN 9781461468486.

[22] «Вложенная или невложенная перекрестная проверка» . Проверено 19 февраля 2019 .

[Hoornweg2018SUS-23] Хорнвег, Виктор (2018). Наука: В стадии представления . Hoornweg Press. ISBN 978-90-829188-0-9.

[24] Рианна Кристенсен, Рональд (21 мая 2015 г.). «Мысли о прогнозировании и перекрестной проверке» (PDF) . Департамент математики и статистики Университета Нью-Мексико . Проверено 31 мая 2017 года .

[Efron97-25] Эфрон, Брэдли; Тибширани, Роберт (1997). «Улучшения перекрестной проверки: метод .632 + Bootstrap». Журнал Американской статистической ассоциации . 92 (438): 548–560. DOI : 10.2307 / 2965703 . JSTOR 2965703 . Руководство по ремонту 1467848 .

[Stone77-26] Перейти ↑ Stone, Mervyn (1977). «Асимптотика за и против перекрестной проверки». Биометрика . 64 (1): 29–35. DOI : 10.1093 / Biomet / 64.1.29 . JSTOR 2335766 . Руководство по ремонту 0474601 .

[27] Консорциум, MAQC (2010). «Контроль качества микрочипов (MAQC) -II, исследование общих практик для разработки и проверки прогнозных моделей на основе микрочипов» . Природа Биотехнологии . Лондон: Издательская группа Nature. 28 (8): 827–838. DOI : 10.1038 / nbt.1665 . PMC 3315840 . PMID 20676074 .

[Bermingham-intro-28] Bermingham, Mairead L .; Понг-Вонг, Рикардо; Спилиопулу, Афина; Хейворд, Кэролайн; Рудан, Игорь; Кэмпбелл, Гарри; Райт, Алан Ф .; Уилсон, Джеймс Ф .; Агаков, Феликс; Наварро, По; Хейли, Крис С. (2015). «Применение многомерного отбора признаков: оценка для геномного предсказания у человека» . Sci. Отчет 5 : 10312. Bibcode : 2015NatSR ... 510312B . DOI : 10.1038 / srep10312 . PMC 4437376 . PMID 25988841 .

[29] Варма, Судхир; Саймон, Ричард (2006). «Предвзятость в оценке ошибок при использовании перекрестной проверки для выбора модели» . BMC Bioinformatics . 7 : 91. DOI : 10,1186 / 1471-2105-7-91 . PMC 1397873 . PMID 16504092 .

[30] Politis, Dimitris N .; Романо, Джозеф П. (1994). «Стационарный бутстрап». Журнал Американской статистической ассоциации . 89 (428): 1303–1313. DOI : 10.1080 / 01621459.1994.10476870 .

[Picard84-31] Пикард, Ричард; Кук, Деннис (1984). «Перекрестная проверка регрессионных моделей». Журнал Американской статистической ассоциации . 79 (387): 575–583. DOI : 10.2307 / 2288403 . JSTOR 2288403 .

[32] Willis BH, Райли RD (2017). «Измерение статистической достоверности сводных результатов мета-анализа и мета-регрессии для использования в клинической практике» . Статистика в медицине . 36 (21): 3283–3301. DOI : 10.1002 / sim.7372 . PMC 5575530 . PMID 28620945 .

[33] Райли РД, Ахмеда I, Дебрэ Т.П., Уиллис BH, Noordzij Р, Хиггинс ДП, Дикс JJ (2015). «Обобщение и проверка результатов точности тестов в нескольких исследованиях для использования в клинической практике» . Статистика в медицине . 34 (13): 2081–2103. DOI : 10.1002 / sim.6471 . PMC 4973708 . PMID 25800943 .

[1]