Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Информационный критерий Akaike ( АИК ) является оценкой ошибки прогнозирования и , таким образом , относительного качества статистических моделей для данного набора данных. [1] [2] Учитывая набор моделей для данных, AIC оценивает качество каждой модели относительно каждой из других моделей. Таким образом, AIC предоставляет средства для выбора модели .

AIC основан на теории информации . Когда статистическая модель используется для представления процесса, создавшего данные, представление почти никогда не будет точным; поэтому некоторая информация будет потеряна при использовании модели для представления процесса. AIC оценивает относительный объем информации, потерянной данной моделью: чем меньше информации теряет модель, тем выше качество этой модели.

При оценке количества информации, теряемой моделью, AIC имеет дело с компромиссом между точностью соответствия модели и простотой модели. Другими словами, AIC имеет дело как с риском переобучения, так и с риском переобучения.

Информационный критерий Акаике назван в честь сформулировавшего его японского статистика Хиротугу Акаике . Сейчас он составляет основу парадигмы основ статистики, а также широко используется для статистических выводов .

Определение [ править ]

Предположим, что у нас есть статистическая модель некоторых данных. Пусть k - количество оцениваемых параметров в модели. Позвольте быть максимальное значение функции правдоподобия для модели. Тогда значение AIC модели будет следующим. [3] [4]

Учитывая набор моделей-кандидатов для данных, предпочтительной является модель с минимальным значением AIC. Таким образом, AIC вознаграждает за степень соответствия (оцениваемую функцией правдоподобия), но также включает штраф, который является возрастающей функцией количества оцениваемых параметров. Штраф препятствует переобучению , что желательно, потому что увеличение количества параметров в модели почти всегда улучшает качество подгонки.

AIC основан на теории информации . Предположим, что данные генерируются каким-то неизвестным процессом f . Мы рассматриваем две модели-кандидаты для представления f : g 1 и g 2 . Если бы мы знали f , то мы могли бы найти информацию, потерянную при использовании g 1 для представления f , вычислив дивергенцию Кульбака – Лейблера , D KL ( f  ‖  g 1 ) ; аналогично, информация, потерянная из-за использования g 2 для представления fможно найти, вычислив D KL ( f  ‖  g 2 ) . Затем мы, как правило, выбираем модель кандидата, которая минимизирует потерю информации.

Мы не можем выбирать с уверенностью, потому что не знаем f . Однако Акаике (1974) показал, что с помощью AIC мы можем оценить, насколько больше (или меньше) информации теряется g 1, чем g 2 . Однако оценка верна только асимптотически ; если количество точек данных невелико, часто требуется некоторая корректировка (см. AICc ниже).

Обратите внимание, что AIC ничего не говорит об абсолютном качестве модели, только о качестве относительно других моделей. Таким образом, если все модели-кандидаты плохо подходят, AIC не предупредит об этом. Следовательно, после выбора модели с помощью AIC обычно рекомендуется проверять абсолютное качество модели. Такая проверка обычно включает проверки остатков модели (чтобы определить, кажутся ли остатки случайными) и проверки предсказаний модели. Для получения дополнительной информации по этой теме см. Проверка статистической модели .

Как использовать AIC на практике [ править ]

Чтобы применить AIC на практике, мы начинаем с набора моделей-кандидатов, а затем находим соответствующие значения AIC для моделей. Информация почти всегда будет потеряна из-за использования модели-кандидата для представления «истинной модели», то есть процесса, создавшего данные. Мы хотим выбрать среди моделей-кандидатов ту модель, которая минимизирует потерю информации. Мы не можем выбирать с уверенностью, но можем минимизировать предполагаемую потерю информации.

Предположим, что есть R моделей-кандидатов. Обозначим значения AIC этих моделей АИК 1 , AIC 2 , АИК 3 , ..., AIC R . Пусть AIC min будет минимальным из этих значений. Тогда величина exp ((AIC min  - AIC i ) / 2) может быть интерпретирована как пропорциональная вероятности того, что i- я модель минимизирует (оценочную) потерю информации. [5]

В качестве примера предположим, что существует три модели-кандидата, значения AIC которых равны 100, 102 и 110. Тогда вероятность второй модели exp ((100–102) / 2) = 0,368 раза выше, чем у первой модели, чтобы минимизировать потеря информации. Точно так же третья модель exp ((100 - 110) / 2) = 0,007 раза более вероятна, чем первая модель, чтобы минимизировать потерю информации.

В этом примере мы бы исключили третью модель из дальнейшего рассмотрения. Затем у нас есть три варианта: (1) собрать больше данных в надежде, что это позволит четко различать первые две модели; (2) просто сделать вывод, что данных недостаточно для выбора одной модели из первых двух; (3) возьмите средневзвешенное значение первых двух моделей с весами, пропорциональными 1 и 0,368, соответственно, а затем сделайте статистический вывод на основе взвешенной мультимодели . [6]

Величина exp ((AIC min  - AIC i ) / 2) известна как относительная вероятность модели i . Он тесно связан с отношением правдоподобия, используемым в тесте отношения правдоподобия . Действительно, если все модели в наборе кандидатов имеют одинаковое количество параметров, тогда использование AIC может сначала показаться очень похожим на использование теста отношения правдоподобия. Однако есть важные различия. В частности, тест отношения правдоподобия действителен только для вложенных моделей , тогда как AIC (и AICc) не имеет такого ограничения. [7] [8]

Проверка гипотез [ править ]

Каждую проверку статистической гипотезы можно сформулировать как сравнение статистических моделей. Следовательно, каждая проверка статистической гипотезы может быть воспроизведена через AIC. Два примера кратко описаны в подразделах ниже. Детали этих и многих других примеров даны Сакамото, Исигуро и Китагава (1986 , часть II) и Кониси и Китагава (2008 , глава 4).

Воспроизведение t- теста Стьюдента [ править ]

В качестве примера проверки гипотезы рассмотрим t- критерий для сравнения средних значений двух нормально распределенных популяций. Входные данные t- критерия включают случайную выборку из каждой из двух популяций.

Чтобы сформулировать тест как сравнение моделей, мы построим две разные модели. Первая модель моделирует две популяции как имеющие потенциально разные средние значения и стандартные отклонения. Таким образом, функция правдоподобия для первой модели является продуктом правдоподобия для двух различных нормальных распределений; поэтому он имеет четыре параметра: μ 1 , σ 1 , μ 2 , σ 2 . Чтобы быть точным, функция правдоподобия выглядит следующим образом (размер выборки обозначается n 1 и n 2 ).

Вторая модель моделирует две популяции как имеющие одинаковые средние значения, но потенциально разные стандартные отклонения. Таким образом, функция правдоподобия для второй модели устанавливает μ 1 = μ 2 в приведенном выше уравнении; поэтому у него есть три параметра.

Затем мы максимизируем функции правдоподобия для двух моделей (на практике мы максимизируем логарифмические функции правдоподобия); после этого легко рассчитать значения AIC моделей. Затем мы вычисляем относительную вероятность. Например, если бы вероятность второй модели была всего в 0,01 раза выше, чем у первой модели, то мы бы исключили вторую модель из дальнейшего рассмотрения: так мы бы пришли к выводу, что две популяции имеют разные средние значения.

Т -test предполагает , что две популяции имеют одинаковые стандартные отклонения; тест будет ненадежным, если предположение неверно и размеры двух выборок сильно различаются ( t- критерий Велча будет лучше). Сравнение средних значений совокупностей с помощью AIC, как в приведенном выше примере, имеет преимущество, поскольку не делает таких предположений.

Сравнение наборов категориальных данных [ править ]

В качестве другого примера проверки гипотезы предположим, что у нас есть две популяции, и каждый член каждой популяции находится в одной из двух категорий - категории №1 или категории №2. Каждая популяция распределяется биномиально . Мы хотим знать, одинаковы ли распределения двух популяций. Нам дается случайная выборка из каждой из двух популяций.

Пусть m будет размером выборки из первой генеральной совокупности. Пусть m 1 будет количеством наблюдений (в выборке) в категории № 1; Таким образом, количество наблюдений в категории № 2 равно m - m 1 . Аналогично, пусть n будет размером выборки из второй совокупности. Пусть n 1 будет количеством наблюдений (в выборке) в категории № 1.

Пусть p будет вероятностью того, что случайно выбранный член первой популяции находится в категории №1. Следовательно, вероятность того, что случайно выбранный член первой популяции находится в категории № 2, равна 1 -  p . Обратите внимание, что у распределения первой популяции есть один параметр. Пусть q будет вероятностью того, что случайно выбранный член второй популяции находится в категории №1. Обратите внимание, что распределение второй популяции также имеет один параметр.

Чтобы сравнить распределения двух популяций, мы построим две разные модели. Первая модель моделирует две популяции как имеющие потенциально разные распределения. Таким образом, функция правдоподобия для первой модели является продуктом правдоподобия для двух различных биномиальных распределений; поэтому у него есть два параметра: p , q . Чтобы быть точным, функция правдоподобия выглядит следующим образом.

Вторая модель моделирует две популяции как имеющие одинаковое распределение. Таким образом, функция правдоподобия для второй модели устанавливает p = q в приведенном выше уравнении; так что вторая модель имеет один параметр.

Затем мы максимизируем функции правдоподобия для двух моделей (на практике мы максимизируем логарифмические функции правдоподобия); после этого легко рассчитать значения AIC моделей. Затем мы вычисляем относительную вероятность. Например, если бы вероятность второй модели была всего в 0,01 раза выше, чем у первой модели, то мы бы исключили вторую модель из дальнейшего рассмотрения: так мы бы пришли к выводу, что две популяции имеют разные распределения.

Основы статистики [ править ]

Статистический вывод обычно рассматривается как включающий проверку и оценку гипотез . Как обсуждалось выше, проверка гипотез может выполняться через AIC. Что касается оценки, существует два типа: точечная оценка и интервальная оценка . Точечная оценка может выполняться в рамках парадигмы AIC: она обеспечивается оценкой максимального правдоподобия . Оценка интервалов также может выполняться в рамках парадигмы AIC: она обеспечивается интервалами правдоподобия . Следовательно, статистический вывод обычно можно сделать в рамках парадигмы AIC.

Наиболее часто используемые парадигмы для статистического вывода - это частотный вывод и байесовский вывод . Однако AIC можно использовать для статистического вывода, не полагаясь ни на частотную парадигму, ни на байесовскую парадигму: потому что AIC можно интерпретировать без помощи уровней значимости или байесовских априоров . [9] Другими словами, AIC можно использовать для формирования основы статистики , отличной от частотности и байесовства. [10] [11]

Модификация для малого объема выборки[ редактировать ]

Когда размер выборки невелик, существует значительная вероятность того, что AIC выберет модели со слишком большим количеством параметров, т. Е. Что AIC переоборудует. [12] [13] [14] Для устранения такого потенциального переобучения был разработан AICc: AICc - это AIC с поправкой на небольшие размеры выборки.

Формула для AICc зависит от статистической модели. Предполагая, что модель является одномерной , линейной по своим параметрам и имеет нормально распределенные остатки (в зависимости от регрессоров), тогда формула для AICc будет следующей. [15] [16]

- где n обозначает размер выборки, а k обозначает количество параметров. Таким образом, AICc - это, по сути, AIC с дополнительным штрафным сроком для количества параметров. Обратите внимание, что при n → ∞ член дополнительного штрафа сходится к 0, и, таким образом, AICc сходится к AIC. [17]

Если предположение, что модель является одномерной и линейной с нормальными остатками, не выполняется, то формула для AICc обычно будет отличаться от формулы выше. Для некоторых моделей бывает сложно определить формулу. Однако для каждой модели, имеющей доступный AICc, формула для AICc задается как AIC плюс члены, которые включают как k, так и k 2 . Для сравнения, формула для AIC включает k, но не k 2 . Другими словами, AIC - это оценка первого порядка (потери информации), тогда как AICc - оценка второго порядка . [18]

Дальнейшее обсуждение формулы с примерами других предположений дано Burnham & Anderson (2002 , гл. 7) и Konishi & Kitagawa (2008 , гл. 7–8). В частности, при других допущениях часто возможна бутстрап-оценка формулы.

Подводя итог, AICc имеет преимущество в том, что он более точен, чем AIC (особенно для небольших выборок), но AICc также имеет недостаток в том, что иногда его гораздо сложнее вычислить, чем AIC. Обратите внимание, что если все модели-кандидаты имеют одинаковый k и одинаковую формулу для AICc, то AICc и AIC дадут идентичные (относительные) оценки; следовательно, не будет недостатков в использовании AIC вместо AICc. Более того, если n во много раз больше, чем k 2 , то дополнительный штрафной член будет незначительным; следовательно, недостаток использования AIC вместо AICc будет незначительным.

История [ править ]

Хиротугу Акаике

Информационный критерий Акаике сформулировал статистик Хиротугу Акаике . Первоначально он назывался «информационный критерий». [19] Впервые на английском об этом объявил Акаике на симпозиуме 1971 года; Материалы симпозиума были опубликованы в 1973 г. [19] [20] Однако публикация 1973 г. была лишь неформальным изложением концепций. [21] Первой официальной публикацией была статья Акаике 1974 года. [4] По состоянию на октябрь 2014 г. статья 1974 г. получила более 14 000 цитирований в Web of Science, что сделало ее 73-й наиболее цитируемой исследовательской статьей за все время. [22]

В настоящее время AIC стал достаточно распространенным, поэтому его часто используют без ссылки на статью Акаике 1974 года. Действительно, существует более 150 000 научных статей / книг, в которых используется AIC (по оценке Google Scholar ). [23]

Первоначальный вывод AIC основывался на некоторых сильных предположениях. Такеучи (1976) показал, что допущения можно сделать гораздо слабее. Однако работы Такеучи были написаны на японском языке и многие годы не были широко известны за пределами Японии.

Первоначально AICc был предложен (только) для линейной регрессии Sugiura (1978) . Это послужило толчком к работе Hurvich & Tsai (1989) и нескольким другим статьям тех же авторов, которые расширили возможности применения AICc.

Первым общим изложением теоретико-информационного подхода был сборник Бернхема и Андерсона (2002) . Он включает в себя английскую презентацию работы Такеучи. Этот том привел к гораздо более широкому использованию AIC, и теперь на него цитируется более 48 000 ссылок в Google Scholar .

Акаике назвал свой подход «принципом максимизации энтропии», потому что этот подход основан на концепции энтропии в теории информации . В самом деле, минимизация AIC в статистической модели фактически эквивалентна максимизации энтропии в термодинамической системе; Другими словами, теоретико-информационный подход в статистике по существу применяет второй закон термодинамики . Таким образом, AIC уходит корнями в работу Людвига Больцмана по энтропии . Подробнее об этих проблемах см. Akaike (1985) и Burnham & Anderson (2002 , гл. 2).

Советы по использованию [ править ]

Параметры подсчета [ править ]

Статистическая модель должна соответствовать всем точкам данных. Таким образом, прямая линия сама по себе не является моделью данных, если все точки данных не лежат точно на линии. Однако мы можем выбрать модель «прямая линия плюс шум»; такую ​​модель можно формально описать следующим образом: y i  = b 0  + b 1 x i  + ε i . Здесь ε i - это остатки от прямой аппроксимации. Если предполагается, что ε i является iid гауссовым (с нулевым средним), то модель имеет три параметра: b 0, b 1 , и дисперсия гауссовых распределений. Таким образом, при расчете значения AIC этой модели мы должны использовать k = 3. В более общем смысле, для любой модели наименьших квадратов с iid гауссовыми остатками дисперсия распределений остатков должна учитываться как один из параметров. [24]

В качестве другого примера рассмотрим модель авторегрессии первого порядка , определяемую формулой x i  = c  + φx i −1  + ε i , где ε i является iid гауссовским (с нулевым средним). Для этой модели есть три параметра: c , φ и дисперсия ε i . В более общем плане модель авторегрессии p- го порядка имеет p  + 2 параметра. (Если, однако, c не оценивается на основе данных, а вместо этого задается заранее, то есть только p  + 1 параметров.)

Преобразование данных [ править ]

Все значения AIC моделей-кандидатов должны быть вычислены с одним и тем же набором данных. Иногда, однако, мы могли бы сравнить модель переменного отклика , у , с моделью логарифма переменного отклика, журнал ( у ) . В более общем плане нам может потребоваться сравнить модель данных с моделью преобразованных данных . Ниже приводится иллюстрация того, как работать с преобразованиями данных (адаптировано из Burnham & Anderson (2002 , §2.11.3): «Исследователи должны быть уверены, что все гипотезы моделируются с использованием одной и той же переменной ответа»).

Предположим , что мы хотим сравнить две модели: одна с нормальным распределением по у и один с нормальным распределением журнала ( у ) . Мы не должны напрямую сравнивать значения AIC двух моделей. Вместо этого мы должны преобразовать нормальную кумулятивную функцию распределения, чтобы сначала логарифмировать y . Для этого нам нужно выполнить соответствующее интегрирование путем подстановки : таким образом, нам нужно умножить на производную функции (натурального) логарифма , которая равна 1 / y . Следовательно, преобразованное распределение имеет следующую функцию плотности вероятности:

- функция плотности вероятности для логнормального распределения . Затем мы сравниваем значение AIC нормальной модели со значением AIC логарифмической нормальной модели.

Ненадежность программного обеспечения [ править ]

Некоторое статистическое программное обеспечение [ какое? ] сообщит значение AIC или максимальное значение функции логарифма правдоподобия, но сообщаемые значения не всегда верны. Как правило, любая неточность возникает из-за того, что в логарифмической функции правдоподобия не указана константа. Например, функция логарифма правдоподобия для n независимых идентичных нормальных распределений имеет вид

- это функция, которая максимизируется при получении значения AIC. Некоторое программное обеспечение, [ какое? ], однако, опускает постоянный член ( n / 2) ln (2 π ) и, таким образом, сообщает ошибочные значения для максимума логарифма правдоподобия - и, следовательно, для AIC. Такие ошибки не имеют значения для сравнений на основе AIC, если все модели имеют свои остатки как нормально распределенные: потому что тогда ошибки компенсируются. Однако, как правило, постоянный член необходимо включать в функцию логарифмического правдоподобия. [25] Следовательно, перед использованием программного обеспечения для расчета AIC, как правило, рекомендуется выполнить несколько простых тестов программного обеспечения, чтобы убедиться, что значения функции верны.

Сравнение с другими методами выбора модели [ править ]

Критическое различие между AIC и BIC (и их вариантами) заключается в асимптотическом свойстве для четко определенных и неправильно определенных классов моделей. [26] Их фундаментальные различия были хорошо изучены в задачах выбора регрессионных переменных и выбора порядка авторегрессии [27] . В общем, если целью является прогнозирование, предпочтительны AIC и перекрестная проверка с исключением одного. Если целью является выбор, вывод или интерпретация, предпочтительны перекрестные проверки BIC или множественные исключения. Исчерпывающий обзор AIC и других популярных методов выбора модели дан Ding et al.

Сравнение с BIC [ править ]

Формула для байесовского информационного критерия (BIC) аналогична формуле для AIC, но с другим штрафом за количество параметров. С AIC штраф составляет 2 k , тогда как с BIC штраф равен ln ( n ) k .

Сравнение AIC / AICc и BIC дано Burnham & Anderson (2002 , §6.3-6.4) с последующими замечаниями Burnham & Anderson (2004) . Авторы показывают, что AIC / AICc можно получить в той же байесовской структуре, что и BIC, просто используя разные априорные вероятности . Однако в байесовском выводе BIC каждая модель-кандидат имеет априорную вероятность 1 / R (где R - количество моделей-кандидатов); такой вывод «не имеет смысла», потому что априор должен быть убывающей функцией k . Кроме того, авторы представляют несколько исследований моделирования, которые показывают, что AICc имеет тенденцию иметь практические преимущества / преимущества по сравнению с BIC.

Некоторые исследователи отметили, что AIC и BIC подходят для разных задач. В частности, утверждается, что BIC подходит для выбора «истинной модели» (т. Е. Процесса, который генерировал данные) из набора моделей-кандидатов, тогда как AIC не подходит. В частности, если «истинная модель» находится в наборе кандидатов, то BIC выберет «истинную модель» с вероятностью 1 при n → ∞ ; напротив, когда отбор осуществляется через AIC, вероятность может быть меньше 1. [28] [29] [30] Сторонники AIC утверждают, что эта проблема незначительна, потому что «истинная модель» практически никогда не входит в набор кандидатов. . Действительно, в статистике распространен афоризм о том, что « все модели ошибочны."; следовательно," истинная модель "(то есть реальность) не может быть в наборе кандидатов.

Другое сравнение AIC и BIC дано Vrieze (2012) . Vrieze представляет имитационное исследование, которое позволяет «истинной модели» быть в наборе кандидатов (в отличие от практически всех реальных данных). Исследование моделирования демонстрирует, в частности, что AIC иногда выбирает гораздо лучшую модель, чем BIC, даже когда «истинная модель» входит в набор кандидатов. Причина в том, что при конечном n BIC может иметь существенный риск выбора очень плохой модели из набора кандидатов. Эта причина может возникнуть даже тогда, когда n намного больше, чем k 2 . С помощью AIC риск выбора очень плохой модели сводится к минимуму.

Если «истинной модели» нет в наборе кандидатов, то самое большее, на что мы можем надеяться, - это выбрать модель, которая наилучшим образом приближается к «истинной модели». AIC подходит для поиска наиболее приближенной модели при определенных допущениях. [28] [29] [30] (Эти допущения включают, в частности, то, что аппроксимация выполняется с учетом потери информации.)

Сравнение AIC и BIC в контексте регрессии дано Янгом (2005) . В регрессии AIC является асимптотически оптимальным для выбора модели с наименьшей среднеквадратичной ошибкой при предположении, что «истинная модель» не входит в набор кандидатов. BIC не является асимптотически оптимальным в предположении. Ян дополнительно показывает, что скорость, с которой AIC приближается к оптимуму, в определенном смысле является наилучшей из возможных.

Сравнение с перекрестной проверкой [ править ]

Перекрестная проверка с исключением по одному асимптотически эквивалентна AIC для обычных моделей линейной регрессии. [31] Асимптотическая эквивалентность AIC также выполняется для моделей со смешанными эффектами . [32]

Сравнение методом наименьших квадратов [ править ]

Иногда каждая модель-кандидат предполагает, что остатки распределены в соответствии с независимыми идентичными нормальными распределениями (с нулевым средним). Это приводит к подгонке модели наименьших квадратов .

С наименьших квадратов, то оценка максимального правдоподобия для дисперсии распределений остаточных моделью является , где это остаточная сумма квадратов : . Тогда максимальное значение функции логарифма правдоподобия модели равно

- где C - константа, не зависящая от модели и зависящая только от конкретных точек данных, т.е. она не изменяется, если данные не изменяются.

Это дает AIC = 2 k + n ln (RSS / n ) - 2 C = 2 k + n ln (RSS) - ( n ln ( n ) + 2 C ) . [33] Поскольку значимы только различия в AIC, константу ( n ln ( n ) + 2 C ) можно игнорировать, что позволяет нам удобно брать AIC = 2 k + n ln (RSS) для сравнения моделей. Обратите внимание, что если все модели имеют одинаковые k, то выбор модели с минимальным AIC эквивалентен выбору модели с минимальным RSS - что является обычной целью выбора модели на основе наименьших квадратов.

Сравнение с C p Mallows [ править ]

C p Мальлова эквивалентен AIC в случае (гауссовой) линейной регрессии . [34]

Преодоление разрыва между AIC и BIC [ править ]

Новый информационный критерий под названием Bridge Criterion (BC) был разработан для преодоления фундаментального разрыва между AIC и BIC. [27] Когда данные генерируются из конечномерной модели (в рамках класса модели), известно, что BIC согласован, как и новый критерий. Когда базовое измерение бесконечно или достаточно велико по отношению к размеру выборки, AIC, как известно, эффективен в том смысле, что его прогностическая характеристика асимптотически эквивалентна наилучшему, предлагаемому моделями-кандидатами; в этом случае новый критерий ведет себя аналогичным образом.

См. Также [ править ]

  • Критерий моста
  • Информационный критерий отклонения
  • Критерий сфокусированной информации
  • Информационный критерий Ханнана – Куинна
  • Оценка максимального правдоподобия
  • Принцип максимальной энтропии

Примечания [ править ]

  1. ^ Макэлрит, Ричард (2016). Статистическое переосмысление: байесовский курс с примерами в R и Stan . CRC Press. п. 189. ISBN. 978-1-4822-5344-3. AIC обеспечивает удивительно простую оценку среднего отклонения вне выборки.
  2. ^ Тэдди, Мэтт (2019). Наука о бизнес-данных: сочетание машинного обучения и экономики для оптимизации, автоматизации и ускорения принятия бизнес-решений . Нью-Йорк: Макгроу-Хилл. п. 90. ISBN 978-1-260-45277-8. AIC - это оценка отклонения OOS.
  3. ^ Burnham & Anderson 2002 , §2.2
  4. ^ а б Акаике 1974
  5. ^ Burnham & Anderson 2002 , §2.9.1, §6.4.5
  6. ^ Бернхэм и Андерсон 2002
  7. ^ Burnham & Anderson 2002 , §2.12.4
  8. ^ Мурто 2014
  9. Перейти ↑ Burnham & Anderson 2002 , p. 99
  10. ^ Bandyopadhyay & Forster 2011
  11. ^ Сакамото, Исигуро и Китагава 1986
  12. ^ Маккуорри и Цай 1998
  13. ^ Claeskens & Hjort 2008 , §8.3
  14. ^ Жиро 2015 , §2.9.1
  15. ^ Кавано 1997
  16. Перейти ↑ Burnham & Anderson 2002 , §2.4
  17. ^ Бернхэм и Андерсон 2004
  18. ^ Burnham & Anderson 2002 , §7.4
  19. ^ а б Финдли и Парзен 1995
  20. ^ Акаике 1973
  21. ^ deLeeuw 1992
  22. ^ Ван Нордон Р., Махер Б., Нуццо Р. (2014), « 100 лучших статей », Nature , 514.
  23. ^ Источники, содержащие как «Акаике», так и «AIC» - в Google Scholar .
  24. Перейти ↑ Burnham & Anderson 2002 , p. 63
  25. Перейти ↑ Burnham & Anderson 2002 , p. 82
  26. ^ Дин, Джи; Тарох, Вахид; Ян, Юхун (ноябрь 2018 г.). «Методы выбора модели: обзор» . Журнал обработки сигналов IEEE . 35 (6): 16–34. ISSN 1053-5888 . 
  27. ^ a b Ding, J .; Тарох, В .; Ян, Ю. (июнь 2018). «Соединение AIC и BIC: новый критерий авторегрессии» . IEEE Transactions по теории информации . 64 (6): 4024–4043. arXiv : 1508.02473 . DOI : 10.1109 / TIT.2017.2717599 . ISSN 1557-9654 . 
  28. ^ a b Бернхэм и Андерсон 2002 , §6.3-6.4
  29. ^ а б Вриз 2012
  30. ^ a b Aho, Derryberry & Peterson 2014
  31. ^ Камень 1977
  32. ^ Клык 2011
  33. Перейти ↑ Burnham & Anderson 2002 , p. 63
  34. ^ Boisbunon et al. 2014 г.

Ссылки [ править ]

  • Ах хорошо.; Derryberry, D .; Петерсон, Т. (2014), "Выбор модели для экологов: мировоззрении АИК и БИК", экологии , 95 (3): 631-636, DOI : 10,1890 / 13-1452.1 , PMID  24804445.
  • Акаике, Х. (1973), "Теория информации и расширение принципа максимального правдоподобия", в Петров Б.Н.; Чаки, Ф. (ред.), 2-й Международный симпозиум по теории информации, Цахкадзор, Армения, СССР, 2-8 сентября 1971 г. , Будапешт: Akadémiai Kiadó , стр. 267–281. Переизданный в Kotz, S. ; Джонсон, Нидерланды , ред. (1992), Прорыв в статистике , I , Springer-Verlag , стр. 610–624..
  • Акаике, Х. (1974), «Новый взгляд на идентификацию статистической модели», IEEE Transactions on Automatic Control , 19 (6): 716–723, doi : 10.1109 / TAC.1974.1100705 , MR  0423716.
  • Акаике, Х. (1985), «Предсказание и энтропия», в Аткинсоне, АС; Финберг, С.Е. (ред.), Праздник статистики , Springer, стр. 1-24..
  • Bandyopadhyay, PS; Форстер, М. Р., ред. (2011), Философия статистики , North-Holland Publishing.
  • Boisbunon, A .; Canu, S .; Fourdrinier, D .; Strawderman, W .; Скважины, MT (2014), "Akaike в данном Criterion, С р и оценки потерь для эллиптический симметричных распределений", Международный статистический обзор , 82 (3): 422-439, DOI : 10.1111 / insr.12052.
  • Бернем, КП; Андерсон Д.Р. (2002), Выбор модели и многомодельный вывод: практический теоретико-информационный подход (2-е изд.), Springer-Verlag.
  • Бернем, КП; Anderson, DR (2004), "многомодельный вывод: понимание AIC и BIC в выборе модели" (PDF) , социологические методы и исследования , 33 : 261-304, DOI : 10,1177 / 0049124104268644 , S2CID  121861644.
  • Кавано, JE (1997), "унифицировать Дифференцирования Акаике и скорректированное Акаикем информационных критериев", Статистика и вероятность Письмо , 31 (2): 201-208, DOI : 10.1016 / s0167-7152 (96) 00128-9.
  • Клаескенс, Г .; Hjort, NL (2008), Выбор модели и усреднение модели , Cambridge University Press. [ Примечание: AIC, определенный Claeskens & Hjort, является отрицанием стандартного определения, первоначально данного Акаике, а затем других авторов.]
  • deLeeuw, J. (1992), "Введение в теорию информации Akaike (1973) и расширение принципа максимального правдоподобия" (PDF) , в Kotz, S .; Джонсон, Н.Л. (ред.), Прорыв в статистике I , Springer, стр. 599–609..
  • Fang, Yixin (2011), «Асимптотическая эквивалентность между перекрестной проверкой и информационными критериями Акаике в моделях со смешанными эффектами» (PDF) , Journal of Data Science , 9 : 15–21.
  • Финдли, Д. Ф.; Parzen, E. (1995), "Разговор с Хиротуг Акаайк", Статистическая наука , 10 : 104-117, DOI : 10,1214 / сс / 1177010133.
  • Жиро, К. (2015), Введение в многомерную статистику , CRC Press.
  • Гурвич, СМ; Цай, К.-Л. (1989), "Регрессия и выбор модели временных рядов в небольших образцах", Biometrika , 76 (2): 297-307, DOI : 10,1093 / Biomet / 76.2.297.
  • Konishi, S .; Китагава, Г. (2008), Информационные критерии и статистическое моделирование , Springer.
  • McQuarrie, ADR; Цай, К.-Л. (1998), Выбор модели регрессии и временных рядов , World Scientific.
  • Мерто, PA (2014), "В защите P значений" , экология , 95 (3): 611-617, DOI : 10,1890 / 13-0590.1 , PMID  24804441.
  • Сакамото, Й .; Исигуро, М .; Китагава, Г. (1986), Статистика информационных критериев Акаике , Д. Рейдель.
  • Стоун, М. (1977), «Асимптотическая эквивалентность выбора модели путем перекрестной проверки и критерия Акаике», Журнал Королевского статистического общества, серия B , 39 (1): 44–47, DOI : 10.1111 / j. 2517-6161.1977.tb01603.x , JSTOR  2984877.
  • Сугиура, Н. (1978), «Дальнейший анализ данных по критерию Akaike по информации и конечные поправки», связи в области статистики - теория и методы , 7 : 13-26, DOI : 10,1080 / 03610927808827599.
  • Такеучи, К. (1976), "" [Распределение информационной статистики и критерий подгонки модели], Сури Кагаку [ Математические науки ] (на японском языке), 153 : 12–18, ISSN  0386-2240..
  • Vrieze, SI (2012), «Выбор модели и психологической теории: обсуждение различий между Акаике информационным критерием (АИК) и информационный критерий (BIC)», психологические методы , 17 (2): 228-243, дои : 10.1037 / a0027127 , PMC  3366160 , PMID  22309957.
  • Ян, Y. (2005), "Могут ли сильные стороны АИК и БИК совместно?", Biometrika , 92 : 937-950, DOI : 10,1093 / Biomet / 92.4.937.

Дальнейшее чтение [ править ]

  • Акаике, Х. (21 декабря 1981 г.), «Цитирование на этой неделе Classic» (PDF) , Текущее содержание «Инженерия, технологии и прикладные науки» , 12 (51): 42  [Хиротогу Акаике комментирует, как он попал в AIC]
  • Андерсон, Д.Р. (2008), Модельно-ориентированный вывод в науках о жизни , Springer
  • Арнольд, Т.В. (2010), «Неинформативные параметры и выбор модели с использованием информационного критерия Акаике», Journal of Wildlife Management , 74 (6): 1175–1178, doi : 10.1111 / j.1937-2817.2010.tb01236.x
  • Бернем, КП; Андерсон, Д.Р .; Huyvaert, КП (2011), "Выбор AIC модели и многомодельное умозаключение в поведенческой экологии" (PDF) , поведенческая экология и Социобиология , 65 : 23-35, DOI : 10.1007 / s00265-010-1029-6 , S2CID  3354490 , архивируются из оригинал (PDF) от 09.08.2017 , дата обращения 04.05.2018
  • Кавано, Дж. Э .; Neath, AA (2019), «Информационный критерий Акаике», WIREs Computational Statistics , 11 (3): e1460, doi : 10.1002 / wics.1460
  • Ing, C.-K .; Вэй, Ч.-З. (2005), "Выбор Заказ же реализация предсказаний в авторегрессионных процессов", Анналы статистики , 33 (5): 2423-2474, DOI : 10,1214 / 009053605000000525
  • Ко, В .; Hjort, Н. Л. (2019), «информационный критерий для выбора Связки модели с оценкой максимального правдоподобия двухступенчатой», эконометрика и статистика , 12 : 167-180, DOI : 10.1016 / j.ecosta.2019.01.001
  • Ларски, С. (2012), Проблема выбора модели и научного реализма (PDF) (Диссертация), Лондонская школа экономики
  • Pan, W. (2001), "Akaike в данном Criterion в обобщенных оценочных уравнениях", биометрия , 57 (1): 120-125, DOI : 10.1111 / j.0006-341X.2001.00120.x , PMID  11252586 , S2CID  7862441
  • Parzen, E .; Tanabe, K .; Китагава, Г., ред. (1998), «Избранные статьи Хиротугу Акаике», серия Springer в статистике , Springer, DOI : 10.1007 / 978-1-4612-1694-0 , ISBN 978-1-4612-7248-9
  • Saefken, B .; Кнейб, Т .; van Waveren, C.-S .; Гревен, S. (2014), «объединительный подход к оценке информации условного Акаике в обобщенных линейной смешанной модели», Электронный журнал статистика , 8 : 201-225, DOI : 10,1214 / 14-EJS881