Оценка Бриера

Оценка Брайера - это строго правильная функция оценки или строго правильное правило оценки, которое измеряет точность вероятностных прогнозов . Для одномерных прогнозов он строго эквивалентен среднеквадратической ошибке, применяемой к прогнозируемым вероятностям.

Оценка Бриера применима к задачам, в которых прогнозы должны назначать вероятности набору взаимоисключающих дискретных результатов или классов. Набор возможных результатов может быть бинарным или категориальным по своей природе, и вероятности, присвоенные этому набору результатов, должны в сумме равняться единице (где каждая индивидуальная вероятность находится в диапазоне от 0 до 1). Он был предложен Гленном В. Брайером в 1950 году. ^[1]

Показатель Брайера можно рассматривать как функцию стоимости . Точнее, по всем элементам набора из N прогнозов показатель Бриера измеряет среднеквадратичную разницу между: ${\ displaystyle i \ in {1 ... N}}$

Прогнозируемая вероятность, присвоенная возможным результатам для пункта i.
Фактический результат ${\ displaystyle o_ {i}}$

Следовательно, чем ниже оценка Бриера для набора прогнозов, тем лучше они откалиброваны. Обратите внимание, что показатель Бриера в его наиболее распространенной формулировке принимает значение от нуля до единицы, поскольку это квадрат наибольшей возможной разницы между предсказанной вероятностью (которая должна быть между нулем и единицей) и фактическим результатом (которая может принимать значения только 0 или 1). В первоначальной (1950 г.) формулировке шкалы Брайера диапазон удваивается, от нуля до двух.

Оценка Бриера подходит для двоичных и категориальных результатов, которые могут быть структурированы как истинные или ложные, но не подходит для порядковых переменных, которые могут принимать три или более значений.

Определение [ править ]

Наиболее распространенная формулировка оценки Брайера:

{\ displaystyle BS = {\ frac {1} {N}} \ sum \ limits _ {t = 1} ^ {N} (f_ {t} -o_ {t}) ^ {2} \, \!}

где - вероятность, которая была спрогнозирована, фактический исход события в конкретном случае ( если оно не происходит и если оно действительно происходит) и является количеством экземпляров прогнозирования. По сути, это среднеквадратичная ошибка прогноза. Эта формулировка в основном используется для двоичных событий (например, «дождь» или «без дождя»). Вышеприведенное уравнение является правильным правилом оценки только для двоичных событий; если должен оцениваться прогноз по нескольким категориям, то следует использовать исходное определение, данное Бриером ниже. ${\ displaystyle f_ {t}}$ ${\ displaystyle o_ {t}}$ ${\ displaystyle t}$ ${\ displaystyle 0}$ ${\ displaystyle 1}$ ${\ displaystyle N}$

Пример [ править ]

Предположим, что кто-то прогнозирует вероятность того, что в данный день пойдет дождь. Затем оценка Бриера рассчитывается следующим образом: ${\ displaystyle P}$

Если прогноз равен 100% ( = 1) и идет дождь, то оценка Бриера равна 0, что является наилучшей достижимой оценкой. ${\ displaystyle P}$
Если прогноз 100% и дождь не идет, то оценка Бриера равна 1, что является наихудшим из возможных результатов.
Если прогноз составляет 70% ( = 0,70) и идет дождь, то оценка Бриера составляет (0,70–1) ² = 0,09. ${\ displaystyle P}$

Напротив, если прогноз составляет 70% ( = 0,70) и не идет дождь, то оценка Бриера составляет (0,70-0) ² = 0,49. ${\ displaystyle P}$
Точно так же, если прогноз 30% ( = 0,30) и идет дождь, то оценка Бриера будет (0,30–1) ² = 0,49. ${\ displaystyle P}$
Если прогноз составляет 50% ( = 0,50), то оценка Бриера будет (0,50–1) ² = (0,50–0) ² = 0,25, независимо от того, идет ли дождь. ${\ displaystyle P}$

Оригинальное определение Брайера [ править ]

Хотя приведенная выше формулировка является наиболее широко используемой, исходное определение Бриера ^[1] применимо к прогнозам с несколькими категориями, а также остается правильным правилом оценки, в то время как двоичная форма (используемая в приведенных выше примерах) является только правильной. для двоичных событий. Для бинарных прогнозов исходная формулировка «вероятностной оценки Бриера» имеет вдвое большее значение, чем оценка, известная в настоящее время как оценка Брайера.

{\ displaystyle BS = {\ frac {1} {N}} \ sum \ limits _ {t = 1} ^ {N} \ sum \ limits _ {i = 1} ^ {R} (f_ {ti} -o_ {ti}) ^ {2} \, \!}

В котором есть число возможных классов , в которых событие может упасть, и общее число экземпляров всех классов. Для случая дождя / дождя, , в то время как для прогноза холодного / Normal / тепло, . ${\ displaystyle R}$ ${\ displaystyle N}$ ${\ Displaystyle R = 2}$ $R=3$

Разложения [ править ]

Существует несколько декомпозиций оценки Бриера, которые обеспечивают более глубокое понимание поведения двоичного классификатора.

3-компонентная декомпозиция [ править ]

Оценка Бриера может быть разделена на 3 дополнительных компонента: неопределенность, надежность и разрешающая способность. (Мерфи 1973) ^[2]

BS=REL-RES+UNC

Каждый из этих компонентов может быть дополнительно разложен в соответствии с количеством возможных классов, в которые может попасть событие. Злоупотребление знаком равенства:

BS={\frac {1}{N}}\sum \limits _{k=1}^{K}{n_{k}(\mathbf {f_{k}} -\mathbf {\bar {o}} _{\mathbf {k} })}^{2}-{\frac {1}{N}}\sum \limits _{k=1}^{K}{n_{k}(\mathbf {{\bar {o}}_{k}} -{\bar {\mathbf {o} }})}^{2}+\mathbf {\bar {o}} \left({1-\mathbf {\bar {o}} }\right)

Это общее количество выпущенных прогнозов, количество выпущенных уникальных прогнозов, наблюдаемая климатологическая базовая частота возникновения события, количество прогнозов с той же категорией вероятности и наблюдаемая частота с учетом прогнозов вероятности . Жирное обозначение в приведенной выше формуле указывает векторы, что является еще одним способом обозначить исходное определение оценки и разложить его в соответствии с количеством возможных классов, в которые может попасть событие. Например, вероятность дождя 70% и отсутствие дождя обозначаются как и $\textstyle N$ $\textstyle K$ $\mathbf {\bar {o}} ={\sum _{t=1}^{N}}\mathbf {o_{t}} /N$ $n_{k}$ $\mathbf {\overline {o}} _{\mathbf {k} }$ $\mathbf {f_{k}}$ $\mathbf {f} =(0.3,0.7)$ $\mathbf {o} =(1,0)$ соответственно. Считается, что такие операции, как возведение в квадрат и умножение этих векторов, покомпонентны. В этом случае оценка Брайера представляет собой сумму результирующего вектора в правой части.

Неопределенность [ править ]

Термин неопределенности измеряет неотъемлемую неопределенность результатов события. Для бинарных событий он максимален, когда каждый результат происходит в 50% случаев, и минимален (ноль), если результат всегда возникает или никогда не наступает.

Надежность [ править ]

Термин надежности измеряет, насколько близки вероятности прогноза к истинным вероятностям для данного прогноза. Надежность определяется в противоположном направлении по сравнению с английским языком . Если надежность равна 0, прогноз абсолютно надежен. Например, если мы сгруппируем все случаи прогноза, в которых вероятность дождя составляла 80%, мы получим идеальную надежность только в том случае, если дождь шел 4 из 5 раз после выпуска такого прогноза.

Разрешение [ править ]

Срок разрешения измеряет, насколько условные вероятности с учетом различных прогнозов отличаются от среднего климатического значения. Чем выше этот срок, тем лучше. В худшем случае, когда климатическая вероятность всегда прогнозируется, разрешение равно нулю. В лучшем случае, когда условные вероятности равны нулю и единице, разрешение равно неопределенности.

Двухкомпонентная декомпозиция [ править ]

Альтернативная (и связанная с ней) декомпозиция генерирует два члена вместо трех.

BS=CAL+REF

BS={\frac {1}{N}}\sum \limits _{k=1}^{K}{n_{k}(\mathbf {f_{k}} -\mathbf {\bar {o}} _{\mathbf {k} })}^{2}+{\frac {1}{N}}\sum \limits _{k=1}^{K}{n_{k}(\mathbf {{\bar {o}}_{k}} (1-\mathbf {{\bar {o}}_{k}} }))

Первый термин известен как калибровка (и может использоваться как мера калибровки, см. Статистическая калибровка ) и равен надежности. Второй член известен как уточнение и представляет собой совокупность разрешающей способности и неопределенности и относится к области под кривой ROC .

Оценка Бриера и разложение CAL + REF могут быть представлены графически с помощью так называемых кривых Бриера ^[3], где ожидаемые потери показаны для каждого рабочего состояния. Это делает показатель Brier Score мерой совокупной производительности при равномерном распределении асимметрии классов. ^[4]

Brier Skill Score (BSS) [ править ]

Оценка навыков для данной базовой оценки представляет собой смещенный и (отрицательно) масштабированный вариант базовой оценки, так что нулевое значение оценки навыка означает, что оценка для прогнозов так же хороша, как и у набора базовых или эталонных показателей. или прогнозы по умолчанию, в то время как значение оценки навыка, равное единице (100%), представляет собой наилучшую возможную оценку. Значение оценки навыков меньше нуля означает, что производительность даже хуже, чем у базовых или справочных прогнозов. Когда базовая оценка - это оценка Брайера (BS), оценка навыков Брайера (BSS) рассчитывается как

BSS=1-{\frac {BS}{BS_{ref}}}

где - это показатель Брайера справочных или базовых прогнозов, которые мы стремимся улучшить. Хотя эталонные прогнозы в принципе могут быть даны любой ранее существовавшей моделью, по умолчанию можно использовать наивную модель, которая прогнозирует общую долю или частоту данного класса в оцениваемом наборе данных как постоянную прогнозируемую вероятность этого класса. происходит в каждом случае в наборе данных. Эта базовая модель будет представлять собой модель «без навыков», которую нужно улучшить. Оценки навыков берут начало в литературе по метеорологическим прогнозам, где наивные справочные прогнозы по умолчанию называются "климатологическими прогнозами по выборке", где климатология означает долгосрочное или общее среднее значение прогнозов погоды, а средние значения по выборке, рассчитанные на основе настоящего набор данных оценивается.^[5] $BS_{ref}$ ^[6] В этом случае по умолчанию для бинарной (двухклассовой) классификации эталонная оценка по Бриеру дается следующим образом (с использованием обозначения первого уравнения данной статьи в верхней части раздела «Определение»):

BS_{ref}={\frac {1}{N}}\sum \limits _{t=1}^{N}({\bar {o}}-o_{t})^{2}\,

где - это просто средний фактический результат, то есть общая доля истинного класса 1 в наборе данных: ${\bar {o}}$

{\bar {o}}={\frac {1}{N}}\sum \limits _{t=1}^{N}o_{t}.

При оценке по Брайеру, чем ниже, тем лучше (это функция потерь), где 0 - это наилучший возможный результат. Но с оценкой навыка Брайера, чем выше, тем лучше, причем 1 (100%) является наилучшим возможным результатом.

Оценка навыков Бриера может быть более интерпретируемой, чем оценка Бриера, потому что BSS - это просто процентное улучшение BS по сравнению с эталонной моделью, а отрицательный BSS означает, что вы делаете даже хуже, чем эталонная модель, что может быть неочевидно из глядя на саму оценку шиповника. Однако обычно не следует ожидать BSS, близкого к 100%, потому что для этого потребуется, чтобы каждое предсказание вероятности было примерно 0 или 1 (и, конечно, было правильным).

Поскольку оценка Brier - это строго правильное правило оценки , а BSS - это просто его аффинное преобразование, BSS также является строго правильным правилом оценки.

Вы могли заметить, что BSS классификации (оценки вероятности) относится к ее BS, а коэффициент детерминации регрессии ( ) относится к ее среднеквадратичной ошибке (MSE). $R^{2}$

Недостатки [ править ]

Оценка Бриера становится недостаточной для очень редких (или очень частых) событий, потому что она не позволяет в достаточной степени различать небольшие изменения прогноза, значимые для редких событий. ^[7] Wilks (2010) обнаружил, что «[Q] uite большие размеры выборки, то есть n> 1000, требуются для высококвалифицированных прогнозов относительно редких событий, тогда как только довольно скромные размеры требуются для низкоквалифицированных прогнозов общие события ". ^[8]

См. Также [ править ]

Навык прогнозирования
Правило подсчета очков

Ссылки [ править ]

Ноты

^ а б Брайер (1950). «Проверка прогнозов, выраженных в терминах вероятности» (PDF) . Ежемесячный обзор погоды . 78 : 1–3. DOI : 10.1175 / 1520-0493 (1950) 078 <0001: vofeit> 2.0.co; 2 . Архивировано из оригинального (PDF) 23 октября 2017 года.
^ Мерфи, AH (1973). «Новое векторное разбиение оценки вероятности» . Журнал прикладной метеорологии . 12 (4): 595–600. DOI : 10,1175 / 1520-0450 (1973) 012 <0595: ANVPOT> 2.0.CO; 2 .
^ Эрнандес-Оралло, Дж .; Flach, PA; Ферри, К. (2011). «Кривые Бриера: новая визуализация производительности классификатора на основе затрат» (PDF) . Материалы 28-й Международной конференции по машинному обучению (ICML-11) . С. 585–592.
^ Эрнандес-Оралло, Дж .; Flach, PA; Ферри, К. (2012). «Единое представление метрик производительности: перевод выбора порога в ожидаемую потерю классификации» (PDF) . Журнал исследований в области машинного обучения . 13 : 2813–2869.
^ Разложение оценки Брайера с поправкой на смещение. (Примечания и переписка.) CAT Ferro и TE Fricker в Ежеквартальном журнале Королевского метеорологического общества , том 138, выпуск 668, октябрь 2012 г. Часть A, страницы 1954-1960 [1]
^ «Численное прогнозирование погоды: Система краткосрочного ансамблевого прогнозирования MOGREPS: Отчет о проверке: Экспериментальные характеристики MOGREPS: январь 2006 г. - март 2007 г. Технический отчет исследования прогнозирования № 503». Нил Боулер, Мари Дандо, Сара Бир и Кен Милн [2]
^ Риккардо Бенедетти (01.01.2010). «Правила выставления оценок для проверки прогнозов» . Ежемесячный обзор погоды . 138 (1): 203–211. DOI : 10.1175 / 2009MWR2945.1 .
Перейти ↑ Wilks, DS (2010). «Выборочные распределения оценки Брайера и оценки навыков Брайера при серийной зависимости». Ежеквартальный журнал Королевского метеорологического общества . 136 (1): 2109–2118. DOI : 10.1002 / qj.709 .

Источники

Дж. Скотт Армстронг, Принципы прогнозирования .
Глоссарий по метеорологии AMS

Внешние ссылки [ править ]

Композиция партитуры Бриера: мини-учебник

[Brier-1] а б Брайер (1950). «Проверка прогнозов, выраженных в терминах вероятности» (PDF) . Ежемесячный обзор погоды . 78 : 1–3. DOI : 10.1175 / 1520-0493 (1950) 078 <0001: vofeit> 2.0.co; 2 . Архивировано из оригинального (PDF) 23 октября 2017 года.

[Murphy1973-2] Мерфи, AH (1973). «Новое векторное разбиение оценки вероятности» . Журнал прикладной метеорологии . 12 (4): 595–600. DOI : 10,1175 / 1520-0450 (1973) 012 <0595: ANVPOT> 2.0.CO; 2 .

[hernandez2011brier-3] Эрнандес-Оралло, Дж .; Flach, PA; Ферри, К. (2011). «Кривые Бриера: новая визуализация производительности классификатора на основе затрат» (PDF) . Материалы 28-й Международной конференции по машинному обучению (ICML-11) . С. 585–592.

[hernandez2012unified-4] Эрнандес-Оралло, Дж .; Flach, PA; Ферри, К. (2012). «Единое представление метрик производительности: перевод выбора порога в ожидаемую потерю классификации» (PDF) . Журнал исследований в области машинного обучения . 13 : 2813–2869.

[5] Разложение оценки Брайера с поправкой на смещение. (Примечания и переписка.) CAT Ferro и TE Fricker в Ежеквартальном журнале Королевского метеорологического общества , том 138, выпуск 668, октябрь 2012 г. Часть A, страницы 1954-1960 [1]

[6] «Численное прогнозирование погоды: Система краткосрочного ансамблевого прогнозирования MOGREPS: Отчет о проверке: Экспериментальные характеристики MOGREPS: январь 2006 г. - март 2007 г. Технический отчет исследования прогнозирования № 503». Нил Боулер, Мари Дандо, Сара Бир и Кен Милн [2]

[7] Риккардо Бенедетти (01.01.2010). «Правила выставления оценок для проверки прогнозов» . Ежемесячный обзор погоды . 138 (1): 203–211. DOI : 10.1175 / 2009MWR2945.1 .

[8] Перейти ↑ Wilks, DS (2010). «Выборочные распределения оценки Брайера и оценки навыков Брайера при серийной зависимости». Ежеквартальный журнал Королевского метеорологического общества . 136 (1): 2109–2118. DOI : 10.1002 / qj.709 .

[1]