Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

«Робастная регрессия и обнаружение выбросов» - это книга по надежной статистике , в которой особое внимание уделяется точкам разрушения методов надежной регрессии . Он был написан Питером Руссеу и Анник М. Лерой и опубликован в 1987 году издательством Wiley.

Фон [ править ]

Диаграмма Герцшпрунга-Рассела звезд построены по яркости и цвету. Надежные методы регрессии позволяют подобрать кривую к главной последовательности , центральной кривой на этой диаграмме, без сильного влияния групп звезд, далеких от главной последовательности.

Линейная регрессия - это проблема вывода линейной функциональной связи между зависимой переменной и одной или несколькими независимыми переменными из наборов данных, в которых эта связь была скрыта шумом. Обычный метод наименьших квадратов предполагает, что все данные лежат рядом с подходящей линией или плоскостью, но отклоняются от нее путем добавления нормально распределенных остаточных значений. Напротив, надежные методы регрессии работают, даже когда некоторые точки данных являются выбросами , не имеющими отношения к подходящей линии или плоскости, возможно, потому, что данные взяты из смеси источников или, возможно, потому, что злоумышленник пытается повредить данные, чтобы приводят к тому, что метод регрессии дает неточный результат.[1] Типичное приложение, обсуждаемое в книге, включает диаграмму типов звезд Герцшпрунга – Рассела , в которой нужно провести кривую через главную последовательность звезд, не нарушая аппроксимации удаленными гигантскими звездами и белыми карликами. . [2] Точка разбивки надежного метода регрессии - это доля внешних данных, которую он может выдержать, оставаясь при этом точным. Для этого стиля анализа лучше использовать более высокие точки разбивки. [1] Точка разбивки для обычных наименьших квадратов близка к нулю (один выброс может привести к тому, что подгонка станет сколь угодно далекой от оставшихся неповрежденных данных) [2]в то время как некоторые другие методы имеют точки отказа до 50%. [1] Хотя эти методы требуют немногочисленных предположений о данных и хорошо работают для данных, шум которых не совсем понятен, они могут иметь несколько более низкую эффективность, чем обычные методы наименьших квадратов (требующие большего количества данных для заданной точности подгонки), и их реализация может быть сложным и медленным. [3]

Темы [ править ]

В книге семь глав. [1] [4] Первый вводный; в нем описывается простая линейная регрессия (в которой есть только одна независимая переменная), обсуждается возможность выбросов, которые искажают зависимую или независимую переменную, приводятся примеры, в которых выбросы приводят к неверным результатам, определяется точка разбиения и кратко представлены несколько методов. для надежной простой регрессии, включая повторную медианную регрессию . [1] [2] Во второй и третьей главах более подробно анализируется метод наименьшей медианы квадратов для регрессии (в котором ищут соответствие, которое минимизирует медианное значение квадратов остатков ) иметод наименьших усеченных квадратов (в котором стремятся минимизировать сумму квадратов остатков, которые ниже медианы). Оба этих метода имеют точку разрыва 50% и могут применяться как для простой регрессии (глава 2), так и для многомерной регрессии (глава 3). [1] [5] Хотя наименьшая медиана имеет привлекательное геометрическое описание (например, нахождение полосы минимальной высоты, содержащей половину данных), ее низкая эффективность приводит к рекомендации использовать вместо нее наименее обрезанные квадраты; Метод наименьших усеченных квадратов также можно интерпретировать как использование метода наименьшей медианы для поиска и исключения выбросов, а затем использование простой регрессии для оставшихся данных [4] и приближение к простой регрессии по эффективности. [6]Помимо описания этих методов и анализа их статистических свойств, эти главы также описывают, как использовать программное обеспечение авторов для реализации этих методов. [1] Третья глава также включает описание некоторых альтернативных оценок с высокими точками разбивки. [7]

Четвертая глава описывает одномерную оценку параметра местоположения или центральной тенденции и ее программную реализацию, а пятая глава более подробно описывает алгоритмы, используемые программным обеспечением для эффективного вычисления этих оценок. Шестая глава посвящена обнаружению выбросов , сравнению методов определения точек данных как выбросов на основе надежной статистики с другими широко используемыми методами, а последняя глава посвящена проблемам определения местоположения более высокой размерности, а также анализу временных рядов и проблемам подбора эллипсоида или ковариации. матрица к данным. [1] [4] [5] [7]Помимо использования точки разбивки для сравнения статистических методов, в книге также рассматривается их эквивалентность : для каких семейств преобразований данных соответствие преобразованных данных равно преобразованной версии соответствия исходным данным? [6]

В соответствии с фокусом книги на приложениях, в ней представлено множество примеров анализа, выполненного с использованием надежных методов, где полученные оценки сравниваются с оценками, полученными стандартными ненадежными методами. [3] [7] Теоретический материал включен, но отложен, чтобы его могли легко пропустить читатели, менее склонные к теории. Авторы придерживаются позиции, что робастные методы могут использоваться как для проверки применимости обычной регрессии (когда результаты обоих методов совпадают), так и для их замены в случаях, когда результаты не совпадают. [5]

Аудитория и прием [ править ]

Книга предназначена для прикладных статистиков с целью убедить их использовать надежные методы, которые она описывает. [1] В отличие от предыдущей работы в области надежной статистики, он делает надежные методы понятными и (через соответствующее программное обеспечение) доступными для практиков. [3] Никаких предварительных знаний о надежной статистике не требуется, [4] хотя предполагается некоторый опыт в основных статистических методах. [5] Книгу также можно использовать в качестве учебного пособия, [5] хотя рецензент П. Дж. Лэйкок называет возможность такого использования «смелым и прогрессивным» [4], а рецензенты Сехулт и Грин указывают, что такой курс вряд ли будет вписываются в британские статистические учебные программы. [6]

Рецензенты Сеулт и Грин жалуются, что слишком большая часть книги действует как руководство пользователя к авторскому программному обеспечению, и ее следовало урезать. [6] Однако рецензент Грегори Ф. Пипель пишет, что «презентация очень хорошая», и рекомендует книгу любому пользователю статистических методов. [1] И, предлагая изменить порядок некоторых материалов, Карен Кафадар настоятельно рекомендует книгу как учебник для аспирантов и справочник для профессионалов. [5] Рецензент А.К. Аткинсон кратко резюмирует книгу как «интересную и важную». [8]

Связанные книги [ править ]

Было несколько предыдущих книг по надежной регрессии и обнаружению выбросов, в том числе: [5] [7]

  • Идентификация выбросов Д. Хокинса (1980)
  • Прочные Статистика по Peter J. Huber (1981)
  • Введение в робастные и квазиустойчивые статистические методы , WJJ Rey (1983)
  • Понимание надежного и исследовательского анализа данных Дэвида К. Хоглина, Фредерика Мостеллера и Джона Тьюки (1983)
  • Надежная статистика Хэмпеля, Рончетти, Руссеу и Стахела (1986)

Для сравнения, робастная регрессия и обнаружение выбросов сочетают в себе надежность и обнаружение выбросов. [5] Он менее теоретический, больше ориентирован на данные и программное обеспечение и больше ориентирован на точку отказа, чем на другие меры устойчивости. [7] Кроме того, он первым подчеркивает важность «рычага», явления, когда выборки с выпадающими значениями независимой переменной могут иметь более сильное влияние на соответствие, чем выборки, в которых независимая переменная имеет центральное значение. [8]

Ссылки [ править ]

  1. ^ Б с д е е г ч я J Piepel, Грегори Ф. (май 1989), "Обзор Robust регрессии и обнаружения выбросов ", Technometrics , 31 (2): 260-261, DOI : 10,2307 / 1268828 , JSTOR  1268828
  2. ^ a b c Гарольд Зоннбергер (июль – сентябрь 1989 г.), «Обзор робастной регрессии и обнаружения выбросов », Журнал прикладной эконометрики , 4 (3): 309–311, JSTOR 2096530 
  3. ^ a b c Вайсберг, Стэнфорд (июль – август 1989 г.), «Обзор робастной регрессии и обнаружения выбросов », American Scientist , 77 (4): 402–403, JSTOR 27855903 
  4. ^ Б с д е Laycock, PJ (1989), "Обзор Robust регрессия и обнаружения выбросов ", Журнал Королевского статистического общества, серия D (статистикам) , 38 (2): 138, DOI : 10,2307 / 2348319 , JSTOR 2348319 
  5. ^ Б с д е е г ч Kafadar, Карен (июнь 1989), "Обзор Robust Regression и Outlier Detection ", журнал Американской ассоциации по статистике , 84 (406): 617-618, DOI : 10,2307 / 2289958 , JSTOR 2289958 
  6. ^ a b c d Seheult, AH; Зеленый, PJ (1989), "Обзор Robust Regression и Outlier Detection ", журнал Королевского статистического общества, Series A (Статистика в обществе) , 152 (1): 133-134, DOI : 10,2307 / 2982847 , JSTOR 2982847 
  7. ^ a b c d e Йохай, VJ (1989), "Обзор робастной регрессии и обнаружения выбросов ", Mathematical Reviews и zbMATH , MR 0914792 , Zbl 0711.62030  
  8. ^ Б Аткинсон, AC (июнь 1988), "Обзор Robust статистики и робастной регрессии и обнаружения выбросов ", биометрии , 44 (2): 626-627, DOI : 10,2307 / 2531877 , JSTOR 2531877