Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Пифагорейское ожидание - это формула спортивной аналитики, разработанная Биллом Джеймсом для оценки процента игр, которые бейсбольная команда «должна» выиграть, исходя из количества забитых и разрешенных пробежек . Сравнение фактического и пифагорейского процента побед команды может использоваться для прогнозирования и оценки того, какие команды работают лучше, а какие недостаточно. Название происходит от сходства формулы с теоремой Пифагора . [1]

Основная формула:

где Win Ratio - коэффициент выигрыша, полученный по формуле. Ожидаемое количество побед - это ожидаемый коэффициент выигрыша, умноженный на количество сыгранных игр.

Эмпирическое происхождение [ править ]

Эмпирически эта формула довольно хорошо коррелирует с тем, как на самом деле выступают бейсбольные команды. Однако со времени изобретения этой формулы статистики обнаружили в ней довольно обычную ошибку, обычно около трех игр. Например, « Нью-Йорк Янкиз» 2002 года набрала 897 пробежек и разрешила 697 пробежек. Согласно первоначальной формуле Джеймса, янки должны были выиграть 62,35% своих игр.

Исходя из 162 игр в сезоне, «Янки» должны были выиграть 101,01 игру. Янки 2002 года действительно пошли 103–58. [2]

Пытаясь исправить эту ошибку, статистики провели многочисленные поиски идеального показателя степени.

При использовании однозначного показателя степени 1,83 является наиболее точным и используется baseball-reference.com. [3] Таким образом, обновленная формула гласит:

Наиболее широко известна формула Пифагенпорта [4], разработанная Клэем Дэвенпортом из Baseball Prospectus :

Он пришел к выводу, что показатель степени должен быть рассчитан для данной команды на основании количества забитых пробежек (R), разрешенных пробежек (RA) и игр (G). Не уменьшая показатель степени до единственного числа для команд ни в одном сезоне, Давенпорт смог сообщить среднеквадратичную ошибку 3,9911, в отличие от среднеквадратичной ошибки 4,126 для показателя степени 2 [4].

Менее известна, но не менее (если не более) эффективна формула Пифагенпата , разработанная Дэвидом Смитом. [5]

Давенпорт выразил свою поддержку этой формулы, сказав:

После дальнейшего обзора я (Клей) пришел к выводу, что так называемый метод Смита / Патриота, он же Пифагенпат, подходит лучше. В этом случае X  = (( rs  +  ra ) / g ) 0,285 , хотя есть некоторое пространство для разногласий в показателе степени. В любом случае, это уравнение проще, элегантнее и дает лучший ответ в более широком диапазоне забитых запусков, чем Pythagenport, включая обязательное значение 1 при 1 RPG. [6]

Эти формулы необходимы только в экстремальных ситуациях, когда среднее количество забитых ранов за игру либо очень велико, либо очень мало. В большинстве случаев простое возведение каждой переменной в квадрат дает точные результаты.

Есть некоторые систематические статистические отклонения между фактическим процентом выигрыша и ожидаемым процентом выигрыша, которые включают качество КПЗ и удачу. Кроме того, формула имеет тенденцию регрессировать к среднему значению , поскольку команды, выигравшие много игр, как правило, недостаточно представлены в формуле (что означает, что они «должны» выиграть меньше игр), а команды, проигравшие много игр, обычно перепредставлены (им "следовало" выиграть больше). Ярким примером является Техасские Рейнджерс 2016 года , которые превзошли свой прогнозируемый рекорд на 13 игр, установив рекорд 95-67, имея при этом ожидаемый рекорд побед-поражений всего 82-80.

Победы «второго порядка» и «третьего порядка» [ править ]

В «Скорректированном отчете о турнирной таблице» [7] Baseball Prospectus говорится о различных «порядках» побед команды. Основной порядок выигрышей - это просто количество выигранных игр. Однако, поскольку послужной список команды может не отражать ее истинный талант из-за удачи, были разработаны различные меры таланта команды.

Выигрыши первого порядка, основанные на чистой дифференциации пробежек, представляют собой количество ожидаемых выигрышей, генерируемых формулой «pythagenport» (см. Выше). Вдобавок, чтобы еще больше отфильтровать искажения удачи, саберметристы также могут рассчитать ожидаемые забеги команды, набранные и разрешенные, с помощью уравнения типа созданных прогонов (наиболее точным на уровне команды являются базовые заезды ). Эти формулы приводят к ожидаемому количеству пробежек команды с учетом их атакующих и защитных характеристик (общее количество одиночных игр, парных ударов, пеших ходов и т. Д.), Что помогает устранить фактор удачи, связанный с порядком, в котором команды наносили удары и проходили в пределах тайма. Используя эту статистику, саберметристы могут подсчитать, сколько прогонов команде "следует". забили или позволили.

Подставляя эти ожидаемые набранные и разрешенные пробежки в формулу Пифагора, можно генерировать победы второго порядка, количество побед, которых заслуживает команда, на основе количества пробежек, которые они должны были забить и разрешить, учитывая их составляющие наступательные и защитные характеристики. Выигрыши третьего порядка - это победы второго порядка, которые были скорректированы с учетом силы расписания (качества подачи и ударов противника). Показан процент выигрыша второго и третьего порядка [ согласно кому? ], чтобы предсказать будущий фактический процент выигрыша команды лучше, чем фактический процент выигрыша и процент выигрыша первого порядка. [ необходима цитата ]

Теоретическое объяснение [ править ]

Изначально корреляция между формулой и фактическим процентом выигрыша была просто экспериментальным наблюдением. В 2003 году Хайн Хундал дал неточный вывод формулы и показал, что показатель Пифагора составляет примерно 2 / ( σ π ), где σ - стандартное отклонение запусков, набранных всеми командами, деленное на среднее количество набранных запусков. [8] В 2006 году профессор Стивен Дж. Миллер представил статистический вывод формулы [9] при некоторых предположениях о бейсбольных играх: если прогоны каждой команды следуют распределению Вейбулла, а количество забитых и разрешенных за игру прогонов статистически не зависит., то формула дает вероятность выигрыша. [9]

Проще говоря, формула Пифагора с показателем степени 2 немедленно следует из двух предположений: что бейсбольные команды выигрывают пропорционально их «качеству», и что их «качество» измеряется отношением их забитых пробежек к их разрешенным пробегам. Например, если команда А забила 50 пробежек и допустила 40, ее показатель качества будет 50/40 или 1,25. Показателем качества для ее (коллективной) команды соперника В в играх, сыгранных против А, будет 40/50 (поскольку забеги, забитые А, разрешены забегами В, и наоборот), или 0,8. Если каждая команда выигрывает пропорционально ее качеству, вероятность победы A будет 1,25 / (1,25 + 0,8), что равно 50 2  / (50 2  + 40 2), формула Пифагора. То же самое соотношение верно для любого количества набранных и разрешенных прогонов, что можно увидеть, записав вероятность «качества» как [50/40] / [50/40 + 40/50] и очистив дроби .

Предположение о том, что одним из показателей качества команды является соотношение количества забитых и разрешенных пробежек, является естественным и правдоподобным; это формула, по которой определяются индивидуальные победы (игры). [Существуют и другие естественные и правдоподобные кандидаты для измерения качества команды, которые при допущении «качественной» модели приводят к соответствующим формулам ожидания процента выигрыша, которые примерно так же точны, как и пифагоровы.] Предположение о том, что бейсбольные команды выигрывают пропорционально своей качество не естественно, но правдоподобно. Это неестественно, потому что степень, в которой спортсмены выигрывают пропорционально их качеству, зависит от роли, которую шанс играет в спорте. Если случай играет очень большую роль,тогда даже команда с гораздо более высоким качеством, чем ее противники, будет выигрывать лишь немного чаще, чем проигрывает. Если шанс играет очень небольшую роль, то команда с чуть более высоким качеством, чем ее оппоненты, будет выигрывать гораздо чаще, чем проигрывать. Последнее в большей степени характерно для баскетбола по разным причинам, в том числе из-за того, что набирается гораздо больше очков, чем в бейсболе (давая более качественной команде больше возможностей продемонстрировать это качество и, соответственно, меньше возможностей для случая или удачи, чтобы позволить более низкоуровневой команде). качественная команда для победы.)включая то, что набирается гораздо больше очков, чем в бейсболе (давая команде с более высоким качеством больше возможностей продемонстрировать это качество, с соответственно меньшим количеством шансов или удачи, чтобы позволить команде с более низким качеством выиграть).включая то, что набирается намного больше очков, чем в бейсболе (давая команде с более высоким качеством больше возможностей продемонстрировать это качество, с соответственно меньшими шансами или удачей, чтобы позволить команде с более низким качеством выиграть).

В бейсболе есть как раз то количество шансов, которое позволяет командам выигрывать примерно пропорционально их качеству, то есть показывать примерно пифагоровский результат с показателем два. Более высокий показатель баскетбола около 14 (см. Ниже) объясняется меньшей ролью, которую в баскетболе играет случай. И тот факт, что наиболее точный (постоянный) показатель Пифагора для бейсбола составляет около 1,83, что чуть меньше 2, можно объяснить тем фактом, что в бейсболе (очевидно) немного больше шансов, чем позволяло бы командам выиграть в точной пропорции их качество. Билл Джеймс осознал это давно, когда заметил, что повышение точности его исходной формулы Пифагора с показателем степени два может быть достигнуто простым добавлением некоторого постоянного числа к числителю и удвоенной константы к знаменателю.Это приближает результат к 0,500, на что влияет немного большая роль случайности, а также то, что при использовании показателя степени 1,83 (или любого положительного показателя степени меньше двух). Можно попробовать различных кандидатов на эту константу, чтобы увидеть, что лучше всего соответствует реальным данным.

Тот факт, что наиболее точным показателем для формул Пифагора для бейсбола является переменная, зависящая от общего количества пробежек за игру, также можно объяснить ролью случайности, поскольку чем больше набранных пробежек, тем меньше вероятность того, что результат будет получен. случайности, а не к более высокому качеству команды-победителя, проявившейся во время возможности подсчета очков. Чем больше показатель степени, тем дальше от процента выигрыша 0,500 является результат соответствующей формулы Пифагора, что является тем же эффектом, что и уменьшение роли случая. Тот факт, что точные формулы для переменных показателей дают более высокие показатели по мере увеличения общего количества пробежек за игру, таким образом, согласуется с пониманием роли, которую играет случай в спорте.

В своей статье о бейсболе 1981 года Джеймс явно разработал другую формулу, названную формулой log5 (которая с тех пор оказалась эмпирически точной), используя понятие, что 2 команды имеют процент личных побед друг против друга пропорционально мера «качества». Его показатель качества составлял половину «коэффициента побед» команды (или «шансов на победу»). Коэффициент побед или шансы на победу - это соотношение побед команды над лигой к ее потерям против лиги. [Джеймс в то время, казалось, не знал, что его показатель качества выражается в соотношении побед. Поскольку в модели качества любой постоянный фактор в показателе качества в конечном итоге аннулируется, мерой качества сегодня лучше понимать просто само соотношение выигрышей, а не его половину.] Затем он заявил, что формула Пифагора, которую он ранее разработал эмпирически, для прогнозирования процента выигрышей по сериям, является «тем же самым», что и формула log5, хотя и без убедительной демонстрации или доказательства. Его предполагаемая демонстрация того, что они были одними и теми же, сводилась к тому, чтобы показать, что две разные формулы упрощаются до одного и того же выражения в особом случае, который сам по себе трактуется расплывчато, и нет признания того, что частный случай не является общим. Впоследствии он также не обнародовал никакой явной, основанной на качестве модели формулы Пифагора. По состоянию на 2013 год в саберметрическом сообществе все еще мало осведомленности о том, что простая модель «команды выигрывают пропорционально качеству», использующая соотношение прогонов в качестве меры качества, напрямую ведет к Джеймсу:оригинальная формула Пифагора.

В аннотации 1981 года Джеймс также говорит, что он сначала попытался создать формулу «log5», просто используя процент побед команд вместо прогонов в формуле Пифагора, но это не дало достоверных результатов. Причина, неизвестная Джеймсу в то время, заключается в том, что его попытка формулировки подразумевает, что относительное качество команд определяется соотношением их процентов побед. Однако это не может быть правдой, если команды выигрывают пропорционально своему качеству, поскольку команда 0,900 побеждает своих оппонентов, чей общий процент побед составляет примерно 0,500, в соотношении 9: 1, а не их соотношении 9: 5. От 900 до 0,500 процентов выигрыша. Эмпирическая неудача его попытки привела к его окончательному, более окольному (и гениальному) и успешному подходу к log5, в котором по-прежнему использовались соображения качества,хотя и без полного понимания предельной простоты модели и ее более общей применимости и истинного структурного сходства с его формулой Пифагора.

Использование в баскетболе [ править ]

Американские спортивные исполнительный Дэрил Мори был первым , чтобы адаптировать Пифагор ожидание Джеймса в профессиональный баскетбол в то время как исследователь STATS, Inc. . Он обнаружил, что использование 13,91 для показателей обеспечивает приемлемую модель для прогнозирования процентного соотношения выигранных и проигранных:

«Модифицированная теорема Пифагора» Дэрила была впервые опубликована в журнале STATS Basketball Scoreboard, 1993–94 . [10]

Известный баскетбольный аналитик Дин Оливер также применил теорию Пифагора Джеймса к профессиональному баскетболу. Результат был похож.

Другой известный баскетбольный статистик Джон Холлингер использует аналогичную формулу Пифагора, за исключением того, что в качестве показателя степени используется 16,5.

Использование в профессиональном футболе [ править ]

Эта формула также использовалась в профессиональном футболе веб-сайтом футбольной статистики и издателем Football Outsiders , где она известна как проекция Пифагора . Формула используется с показателем 2,37 и дает прогнозируемый процент выигрыша. Затем этот процент побед умножается на 16 (для количества игр, сыгранных в сезоне НФЛ), чтобы получить прогнозируемое количество побед. Это прогнозируемое число, заданное уравнением, называется выигрышами Пифагора.

В « Альманахе аутсайдеров футбола» 2011 года [11] говорится: «С 1988 по 2004 год 11 из 16 Суперкубков были выиграны командой, возглавлявшей НФЛ по пифагорейским победам, в то время как только семь были выиграны командой с наиболее реальными победами. Чемпионы Суперкубка, которые возглавляли лигу по пифагорейским победам, но не победам, включают Патриотов 2004 года , Воронов 2000 , Рамс 1999 года и Бронкос 1997 года ».

Хотя в Football Outsiders Almanac признается, что эта формула была менее успешной при отборе участников Суперкубка в 2005–2008 годах, она вновь подтвердила себя в 2009 и 2010 годах. Кроме того, «[t] прогноз Пифагора также по-прежнему является ценным предсказателем времени года. -годовое улучшение. Команды, которые выиграли минимум на одну полную игру больше, чем их прогноз Пифагора, как правило, регрессируют в следующем году; команды, которые выиграли как минимум на одну полную игру меньше, чем их прогноз Пифагора, как правило, улучшают в следующем году, особенно если они на или выше 0,500, несмотря на их неуспеваемость. Например, New Orleans Saints 2008 года набрали 8–8, несмотря на 9,5 пифагорейских побед, намекая на улучшение, которое наступило в сезоне чемпионата следующего года » .

Использование в хоккее [ править ]

В 2013 году статистик Кевин Дайаратна и математик Стивен Дж. Миллер представили теоретическое обоснование применения пифагорейского ожидания к хоккею с шайбой. В частности, они обнаружили, что, делая те же предположения, которые Миллер сделал в своем исследовании 2007 года о бейсболе, а именно о том, что забитые и голы позволяют следовать статистически независимому распределению Вейбулла , пифагорейское ожидание работает так же хорошо для хоккея с шайбой, как и для бейсбола. . Исследование Дайаратны и Миллера подтвердило статистическую правомерность этих предположений и оценило показатель Пифагора для хоккея с шайбой немного выше 2. [12]

См. Также [ править ]

  • Статистика по бейсболу
  • Саберметрика
  • Футбольные аутсайдеры

Примечания [ править ]

  1. ^ «Геймдизайнер: объяснение Пифагора» . Дата обращения 7 мая 2016 .
  2. ^ "Нью-Йорк Янкиз 2002" . Baseball-Reference.com . Дата обращения 7 мая 2016 .
  3. ^ «Часто задаваемые вопросы» . Baseball-Reference.com . Дата обращения 7 мая 2016 .
  4. ^ а б «Бейсбольный проспект - Возвращение к теореме Пифагора» . Бейсбольный проспект . Дата обращения 7 мая 2016 .
  5. ^ "Оценщики W%" . Дата обращения 7 мая 2016 .
  6. ^ "Бейсбольный проспект - Глоссарий" . Дата обращения 7 мая 2016 .
  7. ^ «Бейсбольный проспект - скорректированная таблица» . Дата обращения 7 мая 2016 .
  8. ^ Хундал, Хайн. «Вывод формулы Пифагора Джеймса (Длинный)» .
  9. ^ a b Миллер (2007). «Вывод формулы Пифагора победителя в бейсболе». Шанс . 20 : 40–48. arXiv : math / 0509698 . Bibcode : 2005math ...... 9698M . DOI : 10.1080 / 09332480.2007.10722831 .
  10. ^ Деван, Джон; Зминда, Дон; STATS, Inc. Персонал (октябрь 1993 г.). СТАТИСТИКА Баскетбольное табло, 1993-94 . STATS, Inc. стр. 17. ISBN 0-06-273035-5.
  11. ^ Футбол Аутсайдеры Альманах 2011 ( ISBN 978-1-4662-4613-3 ), p.xviii 
  12. ^ Дайаратна, Кевин; Миллер, Стивен Дж. (2013). «Формула Пифагора побед и поражений и хоккей: статистическое обоснование использования классической формулы бейсбола в качестве инструмента оценки в хоккее» (PDF) . Журнал исследований хоккея 2012/13 . XVI : 193–209.

Внешние ссылки [ править ]

  • Миллер (2007) [2005]. "Вывод формулы Пифагора выигрыша в бейсболе". Журнал "Шанс" . 20 (1): 40–48. arXiv : math.ST/0509698 . Bibcode : 2005math ...... 9698M . DOI : 10.1080 / 09332480.2007.10722831 .
  • Текущее ожидание Пифагора Высшей лиги бейсбола.
  • Уточнение футбольной теоремы Пифагора