Обсуждение: Коэффициент решимости

(Класс B, средний приоритет)

	Математический портал Эта статья находится в рамках WikiProject Mathematics , совместной работы по расширению охвата математики в Википедии. Если вы хотите принять участие, посетите страницу проекта, где вы можете присоединиться к обсуждению и увидеть список открытых задач.
B	Эта статья была оценена как B-Class по шкале качества проекта .
Середина	Эта статья была оценена как средняя по шкале приоритетов проекта .

Статистика WikiProject

(Номинальный B-класс, высокая важность)

	Эта статья входит в рамки WikiProject Statistics , совместной работы по улучшению охвата статистики в Википедии. Если вы хотите принять участие, посетите страницу проекта или присоединитесь к обсуждению .
B	Этому изделию присвоена оценка B-класса по шкале качества .
Высокая	Эта статья была оценена как очень важная по шкале важности .

ссылка с коэффициентом корреляции [ править ]

В нем говорится, что только в случае линейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции. Разве этого не должно быть: только в случае линейной регрессии с линейной моделью ? (линейная регрессия также может быть выполнена, например, с помощью квадратичной модели, и в этом случае коэффициент детерминации не равен квадрату коэффициента корреляции). Работа. 193.191.138.240 ( разговор ) 09:53, 9 апреля 2008 (UTC)

«С линейной моделью» было бы в лучшем случае двусмысленным, учитывая, что в контексте регрессии «линейная модель» относится к тому, как параметры относятся к прогнозируемым значениям, а не к структуре модели в отношении изменений независимых переменных. В любом случае, настоящая версия почти ясна и почти верна ... «коэффициент корреляции между исходными и смоделированными значениями данных» означает корреляцию между наблюдаемыми и прогнозируемыми значениями, а не корреляцию между наблюдаемыми и отдельными независимыми переменными. К сожалению, предыдущие изменения оставили некоторую расплывчатую терминологию. Я постараюсь улучшить ситуацию. Мелкомб ( разговор ) 11:24, 9 апреля 2008 г. (UTC)

Определения / переменные здесь не согласованы [ править ]

Эта страница сбивает с толку, потому что переменные не согласуются со страницами Остаточная сумма квадратов и Объясненная сумма квадратов . На этих страницах определяется как и то же самое для . Кроме того, не так ли? Не хочу сам это исправлять, потому что я только изучаю статистику, может, кто-то более опытный сможет? —Предыдущий комментарий без знака добавлен 128.6.30.208 ( обсуждение ) 03:22, 23 октября 2007 г. (UTC) $SS_{E}$ $ESS$ $SS_{T},SS_{R}$ $RSS=\sum {(y_{i}-{\hat {y}}_{i})^{2}}$

Но у этих страниц могут быть собственные проблемы. Например, остаточная сумма квадратов определяет общие значения коэффициентов регрессии, не обязательно для подогнанных коэффициентов, тогда как объясненная сумма квадратов предполагает, что используются подогнанные коэффициенты, как и здесь. Также возникает вопрос, являются ли страницы достаточно общими, чтобы их можно было интерпретировать не только для одной объясняющей переменной. Мелкомб 14:41, 23 октября 2007 г. (UTC) $RSS$

Основная проблема в том, что не существует такого понятия, как непротиворечивое определение. Было бы просто бессмысленно что-то «исправлять», поскольку оба определения (Residual / Explained vs. Regression / Error SS) широко используются. На самом деле, я впервые узнал о подобной задаче в math / stat, поскольку обычно определения точны и уникальны. Но это жизнь. - Scherben 01:13, 26 октября 2007 г. (UTC)

Да, эти обозначения сбивают с толку! На мой взгляд, мы можем использовать два вида обозначений: Обозначения с нижним индексом или без него. То есть:, где и - «Общая сумма квадратов». , где и - «Сумма квадратов для регрессии» или «Объясненная сумма квадратов». , где и - «Сумма квадратов ошибок», «Остаточная сумма квадратов» или «Необъяснимая сумма квадратов». Тогда мы можем определить R Square , как: . Я думаю, что основная проблема на исходной странице . Возможно, в некоторых учебниках это называется «Остаточная сумма квадратов», а в других - «Сумма квадратов для регрессии». На самом деле они разные.Так что было бы лучше использовать и различать эти два понятия. В противном случае в $SS_{T}=TSS=\sum (y_{i}-{\bar {y}})^{2}$ $SS_{T}$ $TSS$ $SS_{R}=SS_{reg}=\sum ({\hat {y}}_{i}-{\bar {y}})^{2}$ $SS_{R}$ $SS_{reg}$ $SS_{E}=SSE=RSS=\sum (y_{i}-{\hat {y}}_{i})^{2}$ $SS_{E}$ $RSS$ $R^{2}={\frac {SS_{reg}}{TSS}}$ $SS_{R}$ $RSS$ $SS_{reg}$ $R$ $SS_{R}$ может много значит. Lanyijie 28.12.07

Почему указано в тексте сразу под формулами? Должен ли он быть вместо формулы для ? 193.11.155.115 ( разговорное ) 14:26, 11 сентября 2008 (UTC) ${\bar {f}}$ ${\bar {y}}$ $SS_{reg}$

В formuls для R ² , связанный с участием следует использовать только в тех случаях , когда так не было бы никакой разницы. Мелкомб ( разговор ) 15:30, 11 сентября 2008 г. (UTC)

SS_{reg}

{\bar {f}}={\bar {y}}

Скорректированный квадрат R [ править ]

Есть немного лучшее объяснение этого по адресу: http://www.csus.edu/indiv/j/jensena/mgmt105/adjustr2.htm Я думаю, мы можем добавить к определению: 1) мотивацию для "Скорректированного квадрата R" . И 2) отметить, что его можно рассматривать как индекс при сравнении регрессионных моделей (например, стандартную ошибку).

Таль.

-The предшествующего знака комментарий был добавлен Talgalili ( ток • вклад ) 16:04, 21 февраля 2007 (UTC).

В настоящее время говорится: «Скорректированный R2 не имеет той же интерпретации, что и R2. Таким образом, следует проявлять осторожность при интерпретации и представлении этой статистики». Это не действенный совет. Какая именно забота? dfrankow ( обсуждение ) 18:45, 4 марта 2011 (UTC)

Причинность [ править ]

Я думал, что, поскольку R основан на общей линейной модели, вы можете сделать вывод о причинно-следственной связи из модели ?? На самом деле вы просто выполняете ANOVA с непрерывным фактором (X) в отличие от категориального.

>> Нет. R ^ 2 не имеет ничего общего с причинностью. Причинно-следственная связь может подразумеваться только путем наложения определенных предположений на моделируемый процесс. - Гость.

>> Причинно-следственная связь - это вопрос дизайна, а не статистический. Вам нужно измерить экспозицию, прежде чем вы увидите результат. Если вы делаете перекрестную регрессию, причинно-следственная связь никогда не будет установлена. Только если это регрессия с воздействием, измеренным в один момент времени, и результатом за один раз после измерения воздействия, вы можете предположить *** (предположить, что это оперативная работа), что существует причинно-следственная связь - SM

Нужна помощь, ... кто-нибудь знает, почему R2 в программе excel отличаются от этого значения?

Диапазон R-квадрата [ править ]

Кто сказал, что R-квадрат должен быть больше нуля? Например, если измеренные значения y находятся в диапазоне от 9 до 10, а прогноз модели всегда равен нулю, тогда R-квадрат сильно отрицателен. Коккоканта 07:50, 28 января 2007 г. (UTC)

>> Вернитесь и посмотрите определение. Во-первых, все суммы представляют собой квадраты разностей. Более того, SSE <= SST по построению. Итак, R ^ 2, безусловно, неотрицательно. Однако скорректированный R ^ 2 * может * быть отрицательным. - Гость.

>> Никакой R-квадрат не может быть отрицательным. Эта страница не обязательно относится к линейной регрессии или, если она предназначена для этого, об этом не говорит. У вас есть заключение SSE <= SST, только если «prediction = mean» является частным случаем подгонки модели и только для определенных способов подгонки модели ... например, вы можете выбрать всегда соответствовать модели, установив все параметры до 99. Вы все еще можете оценить значение R-квадрат в таких случаях. Менее диковинные случаи возникают, когда подобранная модель не включает термин пересечения в обычной терминологии. Случай «без перехвата» может потребовать особого упоминания на странице. Мелкомб 14:41, 20 июня 2007 г. (UTC)

Возможные расширения [ править ]

Рассмотрим упоминание критерия Нагелькерке, аналога

которые вы можете использовать с обобщенными линейными моделями , которые не аппроксимируются обычным методом наименьших квадратов.

Мы не можем предполагать, что R ^ 2 применим ко всем видам

регрессия наименьших квадратов. Например, это не имеет смысла с регрессией через происхождение. В «Американском статистике» было обсуждение ограничений.

Скорректированный R ^ 2 может быть отрицательным.

Дфаррар, 14:04, 8 марта 2007 г. (UTC)

Псевдо-R ^ 2 Нагелькерке на самом деле не подходит для этой статьи. ИМХО. Он заслуживает отдельной страницы, возможно, вместе с другими мерами псевдо-R ^ 2. Речь идет о регрессии через начало координат, но переопределение R ^ 2 в этом контексте тривиально. Возможно, об этом следует упомянуть.

--- Гость

R в квадрате будет отрицательным, если вы удалите точку пересечения из уравнения.

Псевдо-R ^ 2 Нагелькерке - это масштабированная версия R ^ 2 Кокса и Снелла, которая может быть получена из обобщенной линейной модели при работе с бинарными ответами. При использовании бинарных ответов при анализе генетического профиля был предложен лучший коэффициент детерминации (см. Ниже).

Ли, Ш., Годдард, М. Е., Рэй, Н. Р., Вишер, П. М. (2012). Лучший коэффициент детерминации для анализа генетического профиля. Генетическая эпидемиология 2012; 36 (3): 214-224.

Следует также рассмотреть возможность включения R ^ 2 Маккелви-Завойны (см. Ниже).

Маккелви Р.Д., Завойна В. 1975. Статистическая модель для анализа зависимых переменных порядкового уровня. J Math Sociol 4: 103-120 Bi 12:08, 13 сентября 2012 г. (UTC)

Причинность [ править ]

R ^ 2 - это только одна мера ассоциации. Проблема причинно-следственной связи относится ко всем из них. Проблема решена в общем. См. Вставленные ссылки.

Дфаррар 14:29, 8 марта 2007 г. (UTC)

Инфляция R-квадрата [ править ]

Это был хороший день для добавления на мои просмотренные страницы. Что касается этого нового материала, я думаю, что некоторые термины можно было бы объяснить, чтобы сделать статью более доступной без особого вреда, например, «немного меньше». Повторяя предыдущий пункт, я предлагаю включить материал по аналогичной статистике, применимой к моделям, отличным от гауссовых, например, к обобщенным линейным моделям . Дфаррар 22:25, 20 марта 2007 г. (UTC)

Формула R в квадрате [ править ]

Я изменил формулу на то, что считаю правильным, но она была отменена. Мой источник - «Основы эконометрики» Дамодара гуджарати. Кто бы это ни изменил, пожалуйста, укажите свой источник для этого? Ваше здоровье.

Я понимаю, почему вы запутались. Однако в вашей книге «E», скорее всего, означает «Объясненное», а «R» - «Остаточные». В уравнении на этой странице «R» обозначает «регрессию» (или «объяснено»), а «E» обозначает «ошибку» (или «остатки»). В «Базовой эконометрике» гуджарати также используются «объясненные» и «остатки», так что буквенное обозначение прямо противоположное. ВивекВиш 03:58, 18 апреля 2007 г. (UTC)
Ах, понятно, спасибо, что прояснили это.
Вчера кто-то отредактировал (с историей плохих правок на других страницах) этот раздел снова испортился. Теперь это снова исправлено. Текст об альтернативных значениях E и R очень полезен и, надеюсь, предотвратит эти проблемы в будущем. 152.3.58.200 16:44, 7 июня 2007 г. (UTC)

Нет ли ошибки в определении ? Думаю, должно быть там. $SS_{\rm {reg}}=\sum _{i}({f_{i}}-{\bar {y}})^{2}$ $SS_{\rm {reg}}=\sum _{i}({f_{i}}-{\bar {f}})^{2}$

Изменен в эту форму, но есть эквивалентность, поскольку в условиях использования этой формы R ² средства те же. Мелкомб ( разговор ) 16:53, 11 февраля 2008 (UTC)

Adj R2 [ править ]

Этот бит мне кажется неправильным: «скорректированный R2 будет более полезным, только если R2 рассчитывается на основе выборки, а не всего населения. Например, если нашей единицей анализа является штат и у нас есть данные для всех округов, тогда скорректированный R2 не даст больше полезной информации, чем R2 ".

Непонятно, почему это могло быть. Даже если бы у вас было население, вас все равно беспокоили бы исчерпывающие степени свободы. Таким образом, вы хотели бы штрафовать любой расчет R2 для количества регрессоров. Если у вас есть население штатов США (N = 50) и у вас есть модель с k = 50, вы отлично предскажете и получите R2, равный единице. Но это заблуждение. Корректировка предназначена для учета степеней свободы, а не ошибки оценки.

Все еще студент 3:06, 9 сентября 2007 г. (UTC)

Я согласен с этим комментарием. Параграф следует удалить. Возможно, уместно добавить что-то вроде «Если существует неограниченное количество линейно независимых кандидатов-регрессоров, как R2, так и скорректированный R2 становятся ненадежными по мере увеличения количества регрессоров: R2 стремится к единице, а скорректированный R2 становится более изменчивым». . Кроме того, возможно, нужны некоторые указатели на связанную статистику, такую как Mallows Cp. Мелкомб, 09:02, 18 сентября 2007 г. (UTC)

R-квадрат больше 1? [ редактировать ]

Простой вопрос, но я не могу понять:

Почему квадрат r для y = (1 3 5) и y_est = (2 7 3) больше 1? Он должен быть от 0 до 1. SSR = 17 SST = 8 —Предыдущий беззнаковый комментарий добавлен 85.107.12.120 ( обсуждение ) 13:21, 20 сентября 2007 г. (UTC)

Это произошло потому, что используемое выражение предполагает, что подобранные значения будут получены регрессией по наблюдаемым значениям, а ваши значения не имеют функций, которые имели бы место, если бы y_est было получено регрессией. Я исправил основной текст. Мелкомб 14:23, 10 октября 2007 г. (UTC)

Думаю, это можно было бы лучше объяснить в тексте. Я анализирую свои результаты регрессии, глядя на R2 на образцах тестового набора. Если моя регрессия имеет большой SQE, R2 может быть больше 1. Я потерял несколько часов, чтобы понять, что определение 0 <R2 <1 относится только к обучающей выборке.

Попытка улучшения. Мелкомб ( разговор ) 10:06, 6 ноября 2008 (UTC)

Что есть ? ${\bar {y}}$ [ редактировать ]

Что есть ? это значит? Может кто-нибудь вставить это в текст? --Играть ${\bar {y}}$

включили первую версию Мелкомб ( разговор ) 12:12, 6 декабря 2007 (UTC)

добавил его снова, как удалено кем-то. Мелкомб ( разговор ) 16:36, 11 февраля 2008 (UTC)

Снова причинно-следственная связь (была наверху) [ править ]

Я считаю, что R-квадрат является мерой согласованной изменчивости, а не учтенной изменчивости. Что касается корреляции, не являющейся причинно-следственной связью, рассматривайте R-квадрат как «согласованную» вариативность, а не «учтенную». Например, если количество церквей в городах коррелирует с количеством полосок в городах, скажем, 0,9, то R-квадрат будет 0,81. Считайте, что вместо количества столбцов, составляющих количество церквей, изменчивость (81%) их связанных чисел выровнена. (Их соответствие изменчивости, скорее всего, "объясняется" популяцией.) С уважением, Гэри Грир [email protected] 26 января 2008 г. - Предыдущий комментарий без подписи, добавленный 75.16.159.122 ( обсуждение ) 01:34, 27 января 2008 г. ( УНИВЕРСАЛЬНОЕ ГЛОБАЛЬНОЕ ВРЕМЯ)

«С учетом» - это стандартная терминология. R-квадрат используется в связи с моделью по выбору пользователя, где пользователь выбирает, какие переменные использовать при построении прогнозируемых значений модели. Здесь нет причинно-следственной связи ... идея состоит в том, чтобы найти лучший предиктор зависимой переменной, который может быть построен на основе выбранных предикторов. С одной точки зрения, идея состоит в том, чтобы объяснить как можно большую часть вариации зависимой переменной (вариации значения от случая к случаю) с помощью выбранных переменных, и, следовательно, задачу можно сформулировать как попытку учесть как можно больше вариации как возможные. Точно так же добавление дополнительной независимой переменной можно рассматривать как стремление учесть большее количество вариаций. Мелкомб ( разговор ) 16:53, 11 февраля 2008 г. (UTC)

Итак, как изучающий статистику, я спрашиваю: чтобы объяснить корреляцию между наблюдаемым number_of_church и наблюдаемым number_of_bars, при этом ни один из них не является по-настоящему объяснительным в сценарии, в то время как оба, как правило, являются реакцией на number_of_residents_at_large (которое напрямую может быть ненаблюдаемым), как эти переменные быть вызванным? Кроме того, как следует вызывать их соответствующие параметры? Какая переменная должна быть «зависимой», а какая «независимой» ?? Мы сталкиваемся с неотъемлемой проблемой коннотации этих терминов для статистического использования, особенно в английском языке, поэтому следует предпринять некоторые серьезные усилия, чтобы помочь прояснить значения, а также коннотации для будущих поколений,нет? Тем, у кого больше опыта, легче упускать из виду трудности, возникающие при попытке изучить новые концепции, используя традиционно неоднозначную терминологию, которая часто вводит в заблуждение, особенно с учетом коннотации слова «происхождение». Возможно, этот случай с барами и церквями дает нам идеальную возможность начать очищать наш язык, а? —Предыдущий комментарий без подписи, добавленный 69.243.78.10 ( обсуждение ) 10:11, 11 апреля 2009 г. (UTC)

Мне кажется, это обсуждение указывает на недостаток статьи. В нем используются такие термины, как «объяснить» и «объяснить», без явного упоминания о том, что это термины жаргона. Гражданские лица часто находят новости, в которых говорится, что "статистика показывает", что конкретная переменная, такая как личный доход или скорость бега, объясняется 10% или 45% или чем-то еще, расой, ростом или чем-то еще, и предполагают, что объяснение другие 90% или 55, или что-то еще, также могут быть найдены. Где-то в верхней части статьи следует предупредить, что эти различные «счета» не подразумевают ни причинно-следственной связи, ни того, что они должны доходить до 100%. Джим Хендерсон ( разговор ) 15:50, 1 мая 2012 г. (UTC)

Расстегнула изменение от R ² до г ²[ редактировать ]

Я отменил ряд изменений, которые пытались изменить обозначение с R ² на r ² ... потому что -

Я думаю, что R ² - наиболее часто используемое обозначение
Обозначения не были изменены повсюду, особенно в отображаемых математических формулах и названиях разделов и, возможно, в других местах, так что оставленный результат был очень плохим.

Мелкомб ( разговор ) 10:09, 6 марта 2008 (UTC)

Взвешивание исходной точки как абсолютной известной точки [ править ]

Проведение линейной кривой через начало координат аналогично добавлению точки (0,0) к вашим данным и предоставлению им бесконечного числа реплик. Если мы считаем, что (0,0) является допустимой и абсолютной точкой, то, используя эту точку для соответствия нашей кривой, мы можем утверждать, что точность нашей кривой улучшается просто потому, что мы знаем, что она проходит по крайней мере через одну точку, которая мы считаем правильным. Взвешивая таким образом начало координат, мы могли бы утверждать, что коэффициент детерминации должен использовать следующее уравнение, когда он проходит через начало координат.

R² = (СУММ xy) ² / (СУММ (x²) * СУММ (y²))

Вывод этой формулы может быть предоставлен, если вы хотите его увидеть.—Предыдущий комментарий без знака, добавленный JNLII ( обсуждение • вклад ) 22:36, 11 ноября 2008 г. (UTC)

Статья должна иметь краткое содержание, понятное обычным людям [ править ]

Согласно рекомендациям Википедии, по крайней мере, краткое содержание этой статьи должно дать почти любому человеку хорошее представление о том, что это такое. В нынешнем виде в сводке только говорится: «это не определено, но мы собирались дать вам 3-х страничное, по общему признанию, не определяющее определение, которое поймут только люди, изучавшие статистику».

(Я хотел бы поддержать этот момент; я пришел сюда, чтобы найти формулы вычисления коэффициента детерминации для полиномиальной регрессии, и нашел три страницы непонятной и бесполезной (для меня) болтовни.) - Предыдущий беззнаковый комментарий, добавленный Alan8 ( обсуждение • вклад ) 02:02, 10 июня 2014 г. (UTC)

Предлагаемая реорганизация [ править ]

Я думаю, что эту статью следует начать с определения популяции R ² следующим образом:

Для отношения регрессии с аддитивными ошибками Y = f (X) + e совокупность R ² равна 1-var (e) / var (Y). В более общем смысле, популяция R ² равна

{\rm {var}}E(Y|X)/{\rm {var}}(Y)

Я думаю, что в подавляющем большинстве случаев это то, что оценивается, когда люди говорят о R ² (я считаю, что есть несколько альтернативных определений в анализе выживаемости, но они редко используются).

Эти выражения всегда находятся между нулем и единицей.

Основная часть текущей статьи может быть помещена под заголовком «Оценка R ² при линейном моделировании методом наименьших квадратов». В этом разделе можно указать, что статистические оценщики не всегда подчиняются ограничениям, которым подчиняются их целевые значения, и что это не так. в большинстве случаев противоречивые или особенно проблематичные. Дополнительные разделы могут охватывать оценку R ² в настройках помимо линейных наименьших квадратов.

Это позволит несколько упростить введение с учетом предыдущего комментария.

Я оставлю этот комментарий здесь на несколько недель, прежде чем что-либо делать. Skbkekas ( разговор ) 18:57, 8 марта 2009 (UTC)

Вы придерживаетесь очень узкого взгляда и пытаетесь ограничить то, что говорится, охватывать только то, что статистик, исходя из теоретической точки зрения, основанной на регрессии, может подумать, что коэффициент детерминации означает. Статья должна быть подходящей и для всех остальных. Для большинства людей коэффициент детерминации - это то, что рассчитывается особым образом и может быть разумно интерпретировано и сопоставлено с различными предикторами. Они не думают, что он что-то оценивает по отношению к фиктивному населению. Было бы нелепо начинать с определения, согласно которому коэффициент лежит между нулем и единицей, когда расчетные значения обычно лежат за пределами этого диапазона, и где соответствующие теоретические значения также лежат за пределами этого диапазона совершенно осмысленным и последовательным образом.Вы ошибаетесь, полагая, что регрессионные модели при предполагаемых истинных условиях должны решать, как следует определять нетеоретическую величину.Мелкомб ( разговор ) 09:47, 9 марта 2009 (UTC)

Я дам другим возможность взвеситься, прежде чем что-либо делать, но я хочу высказать несколько моментов в ответ здесь:

Я предлагал (i) реорганизацию для отделения материала, специфичного для линейных наименьших квадратов, от материала, который не является таковым, и (ii) добавление небольшого количества материала (3-4 предложения), указывающего на то, что R ² статистика имеет популяционную версию. Я не предлагал снимать какой-либо материал. Поэтому я не думаю, что придерживаюсь «узкой точки зрения» или пытаюсь «ограничить сказанное».

Почти каждая статья в Википедии по статистической теме упоминает о существовании популяционного аналога статистики, построенной на основе выборки. Поэтому я не понимаю, почему R ² следует в исключительных случаях объявлять «не теоретической величиной», почти не упоминая аналог населения в статье (есть только ссылка на FVU).

Я не думаю , что последнее предложение о введении делает много смысла, и в любом случае я не думаю , что ситуации , в которых R ² находится вне (0,1) «важные» . То, что некоторые естественные статистические оценщики не подчиняются ограничениям, за которыми следует то, что они пытаются оценить (это появляется в моделях компонентов дисперсии, устойчивой ковариационной оценке, ...), является слегка неудобным фактом жизни. Я не сомневаюсь в необходимости обсуждать это в статье, так как это наверняка сбивает с толку, когда возникает неожиданное. Однако я не вижу необходимости обсуждать это в резюме (это часть того, что затрудняет чтение резюме, как указано в последнем комментарии).

Популяция R ^2, которую я хочу обсудить, не зависит от каких-либо «предположительно истинных» условий (кроме существования условных средних и дисперсий), и я не пытаюсь изменить способ определения выборки R ² .

Skbkekas ( разговор ) 04:33, 10 марта 2009 (UTC)

Вы действительно сказали, что предлагали внести существенное изменение в формулировку «эта статья должна начинаться с определения населения R ² » ... это радикально изменило бы статью. В частности, вы сказали, что хотите дать определение: «В более общем плане, население R ² составляет ». Вот где вступает в действие бит предположительно истинного: предположение о том, что то, что пытается сделать пользователь, имеет какое-либо отношение , где модель «предполагаемого истинного» необходима для определения , и где предполагается, что

{\rm {var}}E(Y|X)/{\rm {var}}(Y)

E(Y|X)

E(Y|X)

E(Y|X)

мне кажется разумным предсказателем. Хотя при работе с теоретическими совокупностями и конкретными представлениями о том, как определяются прогнозируемые значения, могут быть определенные эквивалентности, все эти предположения в целом неприменимы. Изучаемые предикторы, для которых должен быть рассчитан коэффициент детерминации, не обязательно должны быть "оптимальными" в каком-либо смысле. Вы начинаете с позиции, слишком глубоко укоренившейся в регрессионном анализе, если считаете, что здесь уместны Y и X , поскольку во многих приложениях нет очевидных Xвокруг. Единственное, что доступно для общеприменимой версии величины совокупности, - это совместное распределение наблюдаемых и прогнозируемых значений, при котором предполагается, что существует некоторое непротиворечивое правило для определения прогнозируемых значений в совокупности, где само правило не подходит для выборки. данные. То есть можно постулировать совместное распределение наблюдаемых и прогнозируемых значений. Очевидно, это можно сделать, используя среднеквадратическую ошибку прогноза.

Вы также говорите: «Я не думаю, что ситуации, когда R ² находится за пределами (0,1), важны» и т. Д. Это просто иллюстрирует вашу узкую точку зрения. И «естественные статистические оценщики не подчиняются ограничениям, за которыми следует то, что они пытаются оценить» здесь не имеет значения, потому что в этом контексте отрицательные оценки случаются потому, что соответствующие значения совокупности, если они определены разумным образом, являются отрицательными.

Возможно, было время, когда определение «коэффициента детерминации», определенное статистиками в 30-х годах в контексте регрессии, было всем, что было важно. Но с тех пор использование этого термина значительно расширилось и перешло во многие области применения. «Коэффициент детерминации» выводится многими пакетами моделирования, и он часто используется в контекстах, где прогнозируемые или смоделированные значения поступают из моделей, которые напрямую не соответствуют данным, используемым для сравнения. Помните, что Википедия - это не учебник по статистике.

Мелкомб ( разговор ) 10:41, 10 марта 2009 (UTC)

Я согласен с большей частью того, что предложил Скбкекас, и не согласен с большинством контраргументов Мелкомба. Я думаю, что предлагаемые изменения значительно улучшат статью и не сделают ее более узкой, если будут сделаны с осторожностью. Как это видят другие? Скбкекас все еще существует и готов ли реализовать предложенные изменения? Я был бы готов помочь. Если есть интерес, могу поспорить поподробнее. Джкарч ( разговор ) 17:46, 6 апреля 2021 (UTC)

Какие определения используются сегодня в стандартных учебниках по статистике?

Основная проблема заключается в отсутствии согласия относительно того, как следует определять R ² / коэффициент детерминации в нестандартных ситуациях. См., Например, Логистическая регрессия # Псевдо-R-квадрат .

Текущий текст в разделах «Определения» включает:

"Наиболее общее определение коэффициента детерминации:

R^{2}=1-{SS_{\rm {res}} \over SS_{\rm {tot}}}\,

Было бы здорово, если бы кто-нибудь мог просмотреть определения, используемые в стандартных учебниках по статистике в крупном университете.

Мне нравится утверждение, что «население R ² составляет ».

{\rm {var}}E(Y|X)/{\rm {var}}(Y)

ОДНАКО, это НЕ стандартное определение, которое я видел раньше.

@ Melcombe : Не могли бы вы предоставить список ссылок, показывающих, как термин «коэффициент детерминации» используется «во многих областях применения» и как он »выводится многими пакетами моделирования, и он часто используется в контекстах, где прогнозируется или смоделированные значения поступают из моделей, которые не соответствуют напрямую данным, используемым для сравнения "? Нам нужно определение, которое поддерживает большинство из этих вариантов использования. Если есть варианты использования этого термина, которые отличаются от описанных здесь, то в текущую статью, вероятно, следует включить раздел «Альтернативные определения».

Затем мы можем использовать этот список примеров, чтобы обсудить, как лучше всего отредактировать статью, если она должна быть исправлена.

Спасибо, DavidMCEddy ( обсуждение ) 20:34, 6 апреля 2021 г. (UTC)

Я не знаю учебника, в котором используется предложенное определение, но я видел его несколько раз в статьях, например, здесь: https://www.tandfonline.com/doi/abs/10.1080/01621459.2012.710509 on стр. 1240.

Там же показано, что

{\rm {var}}E(Y|X)/{\rm {var}}(Y)=1-{\frac {E([Y-E(Y|X)]^{2})}{\rm {var(Y)}}}

Это также кажется наиболее прямым переводом текста «пропорция дисперсии в зависимой переменной, предсказуемой по независимой переменной» в начале текста.

E(Y|X)

Я предполагаю, что Мелкомбу не понравилось, так как для этого нужна модель . Однако, когда один заменяет с , где это просто функция прогнозирования , полученный из любой техники, это должно включать в себя большинство случаев использования (по крайней мере те , которые я знаю). Согласно этому определению, обычная выборочная оценка также может быть признана наивной оценкой этого значения генеральной совокупности.

X|Y

E(X|Y)

{\hat {f}}

{\hat {f}}

R^{2}

R^{2}\$

Обратите внимание, что при использовании в регрессионном моделировании скорректированная величина интерпретируется как оценка использования ( в генеральной совокупности), тогда как если мы оцениваем, используя некоторые данные, полученные из набора данных, это называется прогнозируемым . Джкарч ( разговор ) 08:52, 7 апреля 2021 (UTC)

R^{2}

R^{2}

\rho ^{2}

E(X|Y)

{\hat {f}}

\rho ^{2}

{\hat {f}}

R^{2}

f ^ bar - это среднее значение или функция? [ редактировать ]

Является

${\bar {f}}={\frac {\sum f_{i}}{n}}{\mbox{ with n the number of data points}}$

или это

${\bar {f}}={\frac {\int f(x)dx}{\int dx}}$

?

Часто f является непрерывной моделью, и среднее значение можно определить в соответствии со вторым уравнением. В этом есть больше смысла. Однако текст, кажется, подразумевает, что необходимо учитывать первую формулу, даже если f (x) является непрерывной функцией.

Надеюсь, вопрос стал понятен. Т о м е ч а н и е_{T C} 08:55, 29 июня 2009 г. (UTC)

Я прочитал соответствующие части статьи несколько раз и не могу понять смысл приведенного выше комментария. Однако может быть уместным или неуместным указывать на то, что выборка всегда конечна и дискретна, независимо от характера генеральной совокупности. Джеймс Б. Уотсон ( разговор ) 20:09, 29 сентября 2009 г. (UTC)

Обратите внимание, что f относится не к образцу, а к модели (или регрессии), подобранной к образцу. T ом еа s у_{T C} 18:28, 1 октября 2009 (UTC)

Я сейчас снова об этом подумал. Я предполагаю, что вопрос, вероятно, предназначен для обозначения « среднее значение по выборке или по генеральной совокупности?» Если это так, то ответ таков : среднее значение смоделированных значений с использованием параметров модели, рассчитанных на основе выборки . Джеймс Б. Уотсон ( разговор ) 09:57, 1 октября 2009 г. (UTC)

{\bar {f}}

{\bar {f}}

Опять же, f не является ни выборкой, ни генеральной совокупностью, f - моделью. Так что я все еще не собирался спрашивать об этом. В качестве модели f может быть непрерывной функцией, среднее значение которой можно оценить в соответствии со вторым уравнением выше. Конечно, можно оценить f в дискретных точках, где существуют данные, и вычислить среднее значение в соответствии с первым уравнением. Поскольку результаты не обязательно равны, я спрашиваю, что имеется в виду. T ом еа s у_{T C} 18:28, 1 октября 2009 (UTC)

Я думаю, вы всегда должны использовать определение, данное сразу после «Наиболее общее определение коэффициента детерминации», которое не подразумевает . Там можно было бы заменить суммы интегралами, но ключевым моментом является то, что сравнение y с f может иметь место только для точек, для которых доступны наблюдаемые значения. Таким образом, вы можете использовать интегралы только в том случае, если y наблюдается непрерывно, предполагая, что если f вычисляется дискретно, вы должны включить правило для интерполяции, таким образом создавая непрерывную версию f . Мелкомб ( разговор ) 09:10, 2 октября 2009 г. (UTC)

{\bar {f}}

Я продолжал ломать себе голову, пытаясь разобраться в этом вопросе, и я думаю, что понял: во всяком случае, я на это надеюсь. Я полагаю, что подразумевается, что «модель» означает функцию, оцениваемую по выборке. В этом случае верно, что f обычно является функцией на интервале, а не на дискретном наборе точек. Тем не менее, сумма квадратов вычисляется из значений в дискретном наборе значений , и именно эта дискретная сумма делится на «регрессионную» и «остаточную» составляющие. Следовательно, все рассматриваемые суммы относятся к одному и тому же дискретному набору значений . Также стоит упомянуть, что f не обязательно является функцией на интервале: это может быть только дискретный набор значений.Джеймс Б. Уотсон (

SS_{\rm {tot}}=\sum _{i}(y_{i}-{\bar {y}})^{2}

x

x

обсуждение ) 19:15, 4 октября 2009 г. (UTC)

Кто-то изменил определения (заменив y_bar на f_bar), так что все это больше не нужно. Это изменение было правильным? Т о м е ч а н и е_{T C} 17:45, 13 апреля 2010 г. (UTC)

Обычно (как объясняется далее в статье) это одно и то же, поэтому нет никакой разницы. Однако, если они не совпадают, то мне кажется, что должно быть так, чтобы «общая» сумма квадратов на самом деле была суммой двух других. Джеймс Б. Уотсон ( разговор ) 11:01, 14 апреля 2010 г. (UTC)

{\bar {y}}

Это еще одна вещь, с которой я бы не согласился. Почему должно выполняться следующее: SSE_tot = SSE_reg + SSE_err. Очевидно, это было бы верно, если бы члены не были возведены в квадрат - но это так. Даже использование знания о том, что y_bar является средним для всех y_i, не делает сложение двух сумм равным SSE_tot. Это может стать правдой, если вы примените специальные ограничения на значения модели f_i. Однако обсуждаемые обозначения даны в общем контексте. T ом еа s у_{T C} 18:45, 14 апреля 2010 (UTC)

распределение R ² под ноль? [ редактировать ]

Я думаю, что распределение R ² при нулевой гипотезе независимых, нормальных зависимых и независимых переменных должно быть включено. Я полагаю, это своего рода преобразованная F-статистика. Shabbychef ( разговор ) 17:00, 11 сентября 2009 г. (UTC)

Коэффициент корреляции [ править ]

Коэффициент корреляции в настоящее время перенаправляется на Корреляцию ; должен ли он вместо этого перенаправить сюда? (примечание: Я кросс-перечисленных этот пост в Talk:. Корреляция а) г ʨ anaɢ ^ток / _вклад 3:31, 22 сентября 2009 (UTC)

Вероятно, лучше было бы перенаправить на коэффициент корреляции произведение-момент Пирсона, чем здесь. Перенаправление на Корреляцию , вероятно, тоже нормально. Однако, возможно, удастся создать разумную / полезную страницу устранения неоднозначности. Мелкомб ( разговор ) 08:45, 22 сентября 2009 г. (UTC)

Страница разрешения неоднозначности звучит как лучшая идея, поскольку есть несколько возможных кандидатов на перенаправление. r ʨ anaɢ ^talk / _вклад 08:51, 22 сентября 2009 г. (UTC)

Нет, не должно. Корреляция - это основная статья о корреляции, которая определяет коэффициент корреляции. В статье « Коэффициент детерминации» коэффициент корреляции упоминается, но не определяется; на самом деле это скорее предполагает знание коэффициента корреляции. Более того, это так, как должно быть, потому что коэффициент корреляции является гораздо более широко известным понятием, чем коэффициент детерминации , и потому, что имеет больше смысла перенаправлять вверх к более общей теме, чем перенаправлять боком к другой концепции на более позднем этапе. тот же уровень.

Перенаправление на коэффициент корреляции продукт-момент Пирсона имеет больше смысла, чем на коэффициент детерминации, но мне кажется, что нынешнее перенаправление лучше и этого. Очевидно, что он более полезен для обычного читателя, желающего знать основы, и для всех, кто хочет коэффициент корреляции продукт-момент Пирсона, есть ссылка на него в верхней части раздела Корреляция, которая определяет коэффициент корреляции, поэтому это не так. сложно найти.

Я действительно не считаю страницу с неоднозначностью хорошей идеей, поскольку выражение «коэффициент корреляции» без уточнения всегда означает коэффициент Пирсона, а другие «коэффициенты корреляции» также упоминаются в статье « Корреляция» , так что все значения охватываются там. : фактически вы могли бы сказать, что эта статья включает функцию неоднозначной страницы. С другой стороны, раздел « Корреляция», посвященный коэффициентам ранговой корреляции, ужасно неадекватен, и я постараюсь в ближайшее время найти время, чтобы переписать его и расширить, если меня никто не опередит. Джеймс Б. Уотсон ( разговор ) 13:18, 27 сентября 2009 г. (UTC)

Удаление добавления [ править ]

Я удалил добавление «Практический минимум для R2 равен 0,80, когда корреляция используется для прогнозирования». так как

это не уместно в ведущей роли;
в целом это неверно, и любой критерий полезности, очевидно, будет зависеть от фактического контекста;
цитирования не было.

Мелкомб ( разговор ) 10:53, 28 июня 2010 (UTC)

Хороший звонок. Талгалили ( разговор ) 07:27, 29 июня 2010 (UTC)

Терминология: ошибки против остатков [ править ]

Я считаю, что литературный стандарт - использовать «ошибки» для обозначения ошибок истинной модели (с истинными, но неизвестными коэффициентами) и «остатки» для обозначения остатков регрессии. Насколько я понимаю, эта статья следует этому стандарту в использовании слов, но не в использовании индексов: в частности, SS _err всегда используется для суммы квадратов остатков, что приводит, например, к этому нечетному отрывку из определения в «Определениях». раздел ": SS _err = ... сумма квадратов остатков". А в скорректированном разделе R ²VAR _errиспользуется для дисперсии остатков. Эта запись может ввести читателя в заблуждение относительно различия между ошибками и остатками, а также относительно того, когда идет речь об одном или другом.

Будет ли кто-нибудь возражать, если я пройдусь и поменяю все индексы «err» на «res» или «резидуальные»? Кроме того, как насчет того, чтобы я везде поменял SS _reg на SS _regr , поскольку «reg» напоминает мне «обычный», а не «регрессивный»?

Кроме того, в статье о регрессионном анализе я хочу заменить «SSE», определенное там как сумма квадратов остатков, на «SSR». Комментарии? Duoduoduo ( разговор ) 18:27, 19 ноября 2010 (UTC)

Поправка на символическую регрессию [ править ]

В этой статье рассказывается о корректировке количества степеней свободы при подгонке с определенным количеством переменных, таких как коэффициенты регрессии. Как можно приспособиться к испытанию нескольких моделей, каждая с потенциально различным количеством переменных, например, в символьной регрессии? Имбирный заговор ( разговор ) 04:21, 24 декабря 2010 (UTC)

Можно было бы начать с самого очевидного ... что, я думаю, в этом контексте, было бы постановкой имитационного эксперимента, который воспроизводит все различные этапы "типичного анализа" соответствующего типа, включая любое использование нескольких моделей с разное количество параметров. Нет никакого реального смысла искать «скорректированное число степеней свободы», поскольку это неважно и по большей части вымышленное понятие. Скорее можно было бы сосредоточиться на мере соответствия, такой как R ² (или, возможно, проще использовать просто сумму квадратов ошибок), и посмотреть на распределение этой статистики теста (после всех шагов выбора модели), как получено. из нескольких симуляций. Мелкомб ( разговор ) 09:32, 24 декабря 2010 (UTC)

Запрос на разъяснение [ править ]

IP оставил этот запрос для разъяснения на странице статьи; Я перемещаю его сюда. Duoduoduo ( разговорное ) 17:35, 27 мая 2011 (UTC)

В статье говорится:

R^{2}=1-\left({L(0) \over L({\hat {\theta }})}\right)^{2/n}

где L (0) - вероятность модели только с пересечением, - вероятность оцениваемой модели, а n - размер выборки.

{L({\hat {\theta }})}

В предложении выше термин «оценочная модель» не определен. Как этот термин относится к набору данных или «наблюдаемых значений» , о которых говорится во введении R ² в верхней части этой статьи?

Некоторые диаграммы с высокой и низкой корреляцией помогут читателям сразу понять концепцию [ править ]

99-й процентиль по математике, но ржавый и за ограниченное время ушел с небольшим пониманием того, что означает коэффициент детерминации и как он используется.

Те из нас, кто больше нагляден, чем математичен, могут сразу понять историю, если им показаны две диаграммы: одна с высоким коэффициентом корреляции, другая с низким.

Даже математически способные люди познакомятся с этой концепцией быстрее и легче, если диаграммы будут представлены в примерах вначале в качестве вводного по сравнению с «представлением». - Предыдущий беззнаковый комментарий добавлен 66.167.61.181 ( обсуждение ) 14:40, 4 сентября 2011 г. (UTC)

Также было бы полезно иметь несколько примеров того, как используется R2. [ редактировать ]

Надеюсь на статью, более полезную для всех. - Предыдущий неподписанный комментарий добавлен 66.167.61.181 ( обсуждение ) 14:42, 4 сентября 2011 г. (UTC)

Норма остатков? [ редактировать ]

Возможно, он уже присутствует в другом месте Википедии, но я не смог найти фразу «норма остатков» в Википедии в поиске Google. Я думаю, было бы полезно иметь четкое уравнение для нормы остатков (как это обычно используется в Matlab). Возможно, это было бы в основном для меня, но я думаю , что просто просмотр уравнения (пожалуйста, исправьте, если это неверно) или что-то подобное могло бы помочь. Мне нравится идея разместить это на этой странице, потому что визуальные элементы и уравнения уже присутствуют. Страница с объясненной суммой квадратов также может быть кандидатом (хотя на ней нет цифр). Можно ли поставить норму уравнения невязок? Якобхед ( разговор ) 23:57, 8 июля 2013 (UTC) ${\text{norm of residuals}}={\sqrt {SS_{\text{res}}}}$

Добавлен краткий раздел о норме остатков. Якобхед ( разговор ) 21:47, 13 августа 2013 (UTC)

Почему этот раздел даже в этой статье? Это, похоже, не относится ни к чему, кроме кого-то, кого интересует тот факт, что MATLAB где-то использует квадратный корень остатков (???). Это не добавляет пользы статье, и совершенно неясно, почему она заслуживает включения. Предлагаю его убрать. - Предыдущий беззнаковый комментарий добавлен 192.55.54.42 ( обсуждение ) 17:27, 17 июня 2014 г. (UTC)

Я думаю, что этот раздел полезен, потому что я сам искал «норму остатков», которая используется в MATLAB, и поэтому нашел ее связь с R-Squared. Потому что в документации MATLAB написано, что «resnorm» (так там называется переменная) означает «sum ((fun (x, xdata) -ydata). ^ 2)», и я также проверил это с данными приведено в данном примере, я хотел бы предложить коррекции формулы , чтобы и R ² = 0,997 для R ² = 0,998. Это было бы правильно? Может кто-нибудь сможет это проверить. - WikiRob89 ( обсуждение ) 14:57, 21 июля 2014 г. (UTC) ${\text{norm of residuals}}={\sqrt {SS_{\text{res}}}}$ ${\text{norm of residuals}}=SS_{\text{res}}$

@ 192.55.54.42 - Возможно, эта статья не лучшее место для размещения этого раздела, но я думаю, что она полезна и принадлежит где-то в Википедии. Первоначально этот раздел предназначался для сравнения R ^ 2 с различными индикаторами согласия, но я остановился только на одном индикаторе. Куда вы это предлагаете? Или вы бы предпочли расширить этот раздел, включив в него другие индикаторы? @ WikiRob89 - Согласен, что R ² = 0,998 (ранее ошибка округления). Переменная resnorm в MATLAB есть , но если я правильно понимаю документацию ^[1] , resnorm предназначена для квадрата нормы остатков. Норма остатков, включенных в данные аппроксимации на рисунке, использует . Якобхед ( разговор ${\text{norm of residuals}}=SS_{\text{res}}$ ${\text{norm of residuals}}={\sqrt {SS_{\text{res}}}}$ ) 02:42, 12 февраля 2015 (UTC)

Пользователь: EyeTruth Привет, EyeTruth. Я заметил, что вы недавно добавили тег спора в раздел на странице « Коэффициент определения» . Я хотел бы попытаться исправить любую неверную и / или устаревшую информацию. Я дал ссылку на другую статью вики, а также на внешний веб-сайт. Пожалуйста, дайте мне знать, если это проясняет ситуацию и какие дополнительные исправления необходимы. Спасибо. Якобхед ( разговор ) 21:50, 9 февраля 2016 (UTC)

Приносим извинения за поздний ответ, Пользователь: Jacobkhed . Resnorm MATLAB ( норма остатков ) такая же, как RSS. Следовательно, это утверждение неверно, а также в цитируемом источнике не упоминается MATLAB. EyeTruth ( разговор ) 06:08, 25 февраля 2016 (UTC)

Действительно, документация Matlab противоречива: сначала написано «Норма остатка», а затем «Возведенная в квадрат 2-норма остатка»; только последнее верно. Я уведомил [email protected] fgnievinski ( обсуждение ) 20:53, 25 февраля 2016 (UTC)

Норма остатков ложна. остаточная стандартная ошибка будет правильной. - JonskiC ( talk ) 12:06, 20 января 2018 г. (UTC)

Slope-Dependency [ править ]

Учитывая, что значение R2 представляет собой сравнение с нулевой гипотезой о том, что набор образцов лучше всего представлен постоянной функцией при значении, равном среднему арифметическому значению набора образцов, действительно важно предупредить, что сила значения R2 для объяснения изменчивость напрямую зависит от наклона. Другими словами, если функция набора выборок является постоянной или почти постоянной, в отличие от сильного увеличения или уменьшения, значение R2 для набора данных будет низким, потому что тест не может отличить тренд (стабильный) от нулевой гипотезы ( константа среднего арифметического). Я не статистик, поэтому, конечно, кому-то другому может быть лучше написать что-нибудь, чтобы описать это предостережение для непрофессиональной аудитории, но то, что я описываю, является важной информацией, которая должна быть представлена просто, а не математически. - Предыдущий беззнаковый комментарий добавлен 12.130.161.8 ( обсуждение ) 01:24, 8 февраля 2014 г. (UTC)

p - количество переменных или количество параметров [ править ]

Обозначение p используется в множественной регрессии двояко: (i) $ p $ как число предикторов (как здесь) и (ii) $ p $ как число параметров в линейном предикторе. Атрибут LINEAR в линейной регрессии относится не к X, а к бета-версиям. Таким образом, размерность модели - это размерность бета-пространства (второе измерение матрицы дизайна). Многие авторитетные книги в этой области используют $ k $ для обозначения количества предикторов $ (X_1, ..., X_k), $ и $ p = k + 1 $ как количество параметров $ (\ beta_0, \ beta_1 ,. .., \ beta_k). $

Конечно, это всего лишь соглашение, но возможны путаницы (если вы проверите определение Mallows '$ C_p $, в сети будет беспорядок, где $ p $ обозначает оба).

Возможно, предложение, указывающее на эту дихотомию, будет благоразумным.

Привет от Мариетты GA - Предыдущий неподписанный комментарий добавлен 71.204.20.163 ( обсуждение ) 16:28, 15 февраля 2014 г. (UTC)

Интерпретация [ править ]

Мне интересно об этом:

«Семьдесят процентов вариации переменной отклика можно объяснить независимыми переменными. Остальные тридцать процентов можно отнести к неизвестным, скрытым переменным или присущей изменчивости».

Не должно быть

«Семьдесят процентов дисперсии в переменной отклика можно объяснить независимыми переменными. Остальные тридцать процентов можно отнести к неизвестным, скрытым переменным или присущей изменчивости».

Я предполагаю, что дисперсия - это мера вариации, но когда я читаю «вариацию», я не ожидал вариации ...

Bgst ( обсуждение ) 10:43, 11 сентября 2014 (UTC)

Я спрашивал об этом на talkstats.com. Кажется, они согласны: http://www.talkstats.com/showthread.php/57558-Coefficient-of-determination-interpretation

Кто-нибудь не возражает, если я изменю «вариацию» на «дисперсию»? Bgst ( разговор ) 21:54, 17 сентября 2014 (UTC)

Действуй. Дгер ( разговор ) 00:29, 18 сентября 2014 (UTC)

Сделанный! Bgst ( разговор ) 07:57, 19 сентября 2014 (UTC)

Пример работы, когда yi = ybar для всех i и i> 1 [ править ]

Рассмотрим набор наблюдаемых данных {10,10,10}. Для этого набора данных мы видим, что:

i=3

y_{1}=10

y_{2}=10

y_{3}=10

{\bar {y}}=10

y_{i}={\bar {y}}

для всех я

И общая сумма квадратов равна нулю, т.е.

SS_{\text{tot}}=\sum _{i}(y_{i}-{\bar {y}})^{2}=(10-10)^{2}+(10-10)^{2}+(10-10)^{2}=0

А поскольку формула

R^{2}=1-SS_{\text{res}}/SS_{\text{tot}}

Это означает, что у нас есть деление на ноль, таким образом:

R^{2}=1-SS_{\text{res}}/0

... и формула не определена. С уважением, Anameofmyveryown ( разговор ) 11:18, 22 февраля 2015 (UTC)

Пример работы, когда я равен 1 [ править ]

Рассмотрим набор наблюдаемых данных {10}. Для этого набора данных мы видим, что:

i=1

y_{1}=10

{\bar {y}}=10

y_{i}={\bar {y}}

для всех я

И общая сумма квадратов равна нулю, т.е.

SS_{\text{tot}}=\sum _{i}(y_{i}-{\bar {y}})^{2}=(10-10)^{2}=0

А поскольку формула

R^{2}=1-SS_{\text{res}}/SS_{\text{tot}}

Это означает, что у нас есть деление на ноль, таким образом:

R^{2}=1-SS_{\text{res}}/0

... и формула не определена. С уважением, Anameofmyveryown ( разговор ) 11:18, 22 февраля 2015 (UTC)

Добавить обсуждение маргинального и условного R ² для многомерных моделей? [ редактировать ]

Это немного выходит за рамки моей области комфорта, но в последнее время я оценивал линейные смешанные модели, используя формулировку для получения предельного R ² (то есть на основе только фиксированных эффектов) или условного R ² (то есть условного на все фиксированные и случайные эффекты в модели). Это основано на двух статьях Накагавы и др. ^[2]^[3], которые, честно говоря, получили все процитированные из них дерьмо с момента их публикации. В практическом применении это, по-видимому, было очень хорошо воспринято, поскольку позволяет оценивать соответствие модели, сохраняя при этом случайную структуру данных. Однако не похоже, что этот подход здесь описан. Одно или два предложения должны хорошо вписаться вCoefficient_of_determination # In_a_multivariate_linear_model . В пакете MuMIn (:: r.squaredGLMM ()) есть реализация R, которую стоит упомянуть - для тех из нас, кто просматривает эти статьи в надежде решить практическую проблему.

Я мог бы набрать немного текста, но должен был бы оставить его очень общим, потому что математика была сложной. Так что, если кто-то еще заинтересован в этом, это может быть предпочтительнее? - Elmidae ( обсуждение · вклад ) 22:21, 7 октября 2020 г. (UTC)

Рекомендации

^ http://www.mathworks.com/help/optim/ug/lsqcurvefit.html
^ Накагава, S .; Шильцет, Х. (2013). «Общий и простой метод получения R2 из обобщенных линейных моделей смешанных эффектов». Методы в экологии и эволюции . 4 (2): 133–142. DOI : 10.1111 / j.2041-210x.2012.00261.x .
^ Накагава, S .; Джонсон, ПК; Шильцет, Х. (2017). «Коэффициент детерминации R 2 и коэффициент внутриклассовой корреляции из обобщенных линейных моделей смешанных эффектов пересмотрены и расширены». Журнал Интерфейса Королевского общества . 14 (134): 20170213. DOI : 10.1098 / rsif.2017.0213 .

Олкин-Пратт [ править ]

@ Keith D : Спасибо, что добавили упоминание об оценке Олкина-Пратта.

Что вы думаете об этом подробнее? Например, выражение (2.3) в цитированной вами статье Олкина-Пратта дает простое выражение в терминах хорошо известной гипергеометрической функции Гаусса . А добавленная функция MBESS :: Expected.R2 для R (язык программирования) запрограммирована, поэтому любой, кто хочет, может легко добавить ее к любому соответствующему анализу в R. DavidMCEddy ( доклад ) 16:49, 23 апреля 2021 г. (UTC)

Здравствуйте, это не я сделал добавление, все, что я делал, это исправлял ошибку даты цитирования. Я не разбираюсь в теме. Простите. Кейт Д. ( разговор ) 16:54, 23 апреля 2021 (UTC)

[1] ttp://www.mathworks.com/help/optim/ug/lsqcurvefit.html

[2] Накагава, S .; Шильцет, Х. (2013). «Общий и простой метод получения R2 из обобщенных линейных моделей смешанных эффектов». Методы в экологии и эволюции . 4 (2): 133–142. DOI : 10.1111 / j.2041-210x.2012.00261.x .

[3] Накагава, S .; Джонсон, ПК; Шильцет, Х. (2017). «Коэффициент детерминации R 2 и коэффициент внутриклассовой корреляции из обобщенных линейных моделей смешанных эффектов пересмотрены и расширены». Журнал Интерфейса Королевского общества . 14 (134): 20170213. DOI : 10.1098 / rsif.2017.0213 .

Обсуждение: Коэффициент решимости

ссылка с коэффициентом корреляции [ править ]

Определения / переменные здесь не согласованы [ править ]

Скорректированный квадрат R [ править ]

Причинность [ править ]

Диапазон R-квадрата [ править ]

Возможные расширения [ править ]

Причинность [ править ]

Инфляция R-квадрата [ править ]

Формула R в квадрате [ править ]

Adj R2 [ править ]

R-квадрат больше 1? [ редактировать ]

Что есть ? y ¯ {\displaystyle {\bar {y}}} [ редактировать ]

Снова причинно-следственная связь (была наверху) [ править ]

Расстегнула изменение от R 2 до г 2 [ редактировать ]

Взвешивание исходной точки как абсолютной известной точки [ править ]

Статья должна иметь краткое содержание, понятное обычным людям [ править ]

Предлагаемая реорганизация [ править ]

f ^ bar - это среднее значение или функция? [ редактировать ]

распределение R 2 под ноль? [ редактировать ]

Коэффициент корреляции [ править ]

Удаление добавления [ править ]

Терминология: ошибки против остатков [ править ]

Поправка на символическую регрессию [ править ]

Запрос на разъяснение [ править ]

Некоторые диаграммы с высокой и низкой корреляцией помогут читателям сразу понять концепцию [ править ]

Также было бы полезно иметь несколько примеров того, как используется R2. [ редактировать ]

Норма остатков? [ редактировать ]

Slope-Dependency [ править ]

p - количество переменных или количество параметров [ править ]

Интерпретация [ править ]

Пример работы, когда yi = ybar для всех i и i> 1 [ править ]

Пример работы, когда я равен 1 [ править ]

Добавить обсуждение маргинального и условного R 2 для многомерных моделей? [ редактировать ]

Олкин-Пратт [ править ]

Что есть ? ${\bar {y}}$ [ редактировать ]

Расстегнула изменение от R ² до г ²[ редактировать ]

распределение R ² под ноль? [ редактировать ]

Добавить обсуждение маргинального и условного R ² для многомерных моделей? [ редактировать ]