Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Диаграммы рассеяния используются в описательной статистике, чтобы показать наблюдаемые взаимосвязи между различными переменными, здесь используется набор данных о цветках ириса .

Статистика - это дисциплина, которая касается сбора, организации, анализа, интерпретации и представления данных . [1] [2] [3] При применении статистики к научной, промышленной или социальной проблеме принято начинать со статистической совокупности или статистической модели, которую необходимо изучить. Популяции могут быть разными группами людей или объектов, такими как «все люди, живущие в стране» или «каждый атом, составляющий кристалл». Статистика имеет дело с каждым аспектом данных, включая планирование сбора данных с точки зрения дизайна опросов и экспериментов . [4]

Когда данные переписи собрать невозможно, статистики собирают данные, разрабатывая конкретные планы экспериментов и выборки обследований . Репрезентативная выборка гарантирует, что выводы и заключения могут разумно распространяться от выборки на совокупность в целом. Экспериментальное исследование включает в себя прием измерения исследуемой системы, манипулируя систему, а затем принимать дополнительные измерения , используя ту же самую процедуру , чтобы определить , является ли манипуляция модифицировала значение измерений. Напротив, обсервационное исследование не предполагает экспериментальных манипуляций.

При анализе данных используются два основных статистических метода : описательная статистика , которая суммирует данные из выборки с использованием таких индексов , как среднее или стандартное отклонение , и логическая статистика , которая делает выводы из данных, подверженных случайным изменениям (например, ошибки наблюдений, вариация выборки). [5] Описательная статистика чаще всего связана с двумя наборами свойств распределения (выборка или совокупность): центральная тенденция (или местоположение ) стремится охарактеризовать центральное или типичное значение распределения, а дисперсия (илиизменчивость ) характеризует степень отклонения членов распределения от его центра и друг от друга. Выводы по математической статистике делаются в рамках теории вероятностей , которая занимается анализом случайных явлений.

Стандартная статистическая процедура включает в себя сбор данных, ведущих к проверке взаимосвязи между двумя наборами статистических данных или набором данных и синтетическими данными, взятыми из идеализированной модели. Предлагается гипотеза о статистической взаимосвязи между двумя наборами данных, и она сравнивается в качестве альтернативы идеализированной нулевой гипотезе об отсутствии взаимосвязи между двумя наборами данных. Отклонение или опровержение нулевой гипотезы осуществляется с помощью статистических тестов, которые количественно определяют, в каком смысле нулевое значение может быть доказано как ложное, учитывая данные, которые используются в тесте. При работе с нулевой гипотезой распознаются две основные формы ошибки: ошибки типа I (нулевая гипотеза ложно отклоняется, давая «ложноположительный результат») иОшибки типа II (нулевая гипотеза не может быть отклонена, а фактическая взаимосвязь между популяциями отсутствует, что дает «ложноотрицательный результат»). [6] С этой структурой связано множество проблем, начиная от получения достаточного размера выборки и заканчивая указанием адекватной нулевой гипотезы. [ необходима цитата ]

Процессы измерения, генерирующие статистические данные, также подвержены ошибкам. Многие из этих ошибок классифицируются как случайные (шум) или систематические (систематическая ошибка ), но могут возникать и другие типы ошибок (например, грубая ошибка, например, когда аналитик сообщает неверные единицы измерения). Наличие недостающих данных или цензурирования может привести к предвзятой оценки и конкретные методы были разработаны для решения этих проблем.

Самые ранние работы по вероятности и статистике, статистическим методам, основанным на теории вероятностей , относятся к арабским математикам и криптографам , особенно Аль-Халилю (717–786) [7] и Аль-Кинди (801–873). [8] [9] В 18 веке статистика также начала в значительной степени опираться на математические вычисления . В последние годы статистика больше полагалась на статистическое программное обеспечение. [10]

Введение [ править ]

Статистика является математическим телом науки , которая относится к сбору, анализу, интерпретации или объяснениям и представлению данных , [11] или как отрасль математики . [12] Некоторые считают статистику отдельной математической наукой, а не разделом математики. Хотя во многих научных исследованиях используются данные, статистика касается использования данных в контексте неопределенности и принятия решений в условиях неопределенности. [13] [14]

При применении статистики к проблеме обычно начинают с совокупности или процесса, который необходимо изучить. Популяции могут быть разными, например, «все люди, живущие в стране» или «каждый атом, составляющий кристалл». В идеале статистики собирают данные обо всем населении (операция, называемая переписью ). Это может быть организовано государственными статистическими институтами. Описательная статистика может использоваться для обобщения данных о населении. Числовые дескрипторы включают среднее значение и стандартное отклонение для непрерывных данных (таких как доход), тогда как частота и процент более полезны с точки зрения описания категориальных данных (например, образование).

Когда перепись невозможна, изучается выбранная подгруппа населения, называемая выборкой . После определения выборки, которая является репрезентативной для населения, собираются данные для членов выборки в условиях наблюдения или экспериментов . Опять же, описательная статистика может использоваться для обобщения выборочных данных. Однако отрисовка выборки содержит элемент случайности; следовательно, числовые дескрипторы из выборки также подвержены неопределенности. Чтобы сделать значимые выводы обо всем населении, необходима логическая статистика . Он использует шаблоны в выборке данных, чтобы делать выводы о представленной совокупности с учетом случайности. Эти выводы могут принимать форму ответов на вопросы да / нет о данных (проверка гипотез ), оценка числовых характеристик данных ( оценка ), описание взаимосвязей в данных ( корреляция ) и моделирование взаимосвязей в данных (например, с использованием регрессионного анализа ). Вывод может распространяться на прогнозирование , предсказание и оценку ненаблюдаемых значений в исследуемой популяции или связанных с ней. Он может включать в себя экстраполяцию и интерполяцию из временных рядов или пространственных данных , а также анализ данных .

Математическая статистика [ править ]

Математическая статистика - это приложение математики к статистике. Математические методы, используемые для этого, включают математический анализ , линейную алгебру , стохастический анализ , дифференциальные уравнения и теоретико-мерную теорию вероятностей . [15] [16]

История [ править ]

Джероламо Кардано , пионер математики вероятностей.

Самые ранние работы по вероятности и статистике относятся к арабским математикам и криптографам , во время Золотого века ислама между 8 и 13 веками. Аль-Халил (717–786) написал Книгу криптографических сообщений , в которой впервые используются перестановки и комбинации , чтобы перечислить все возможные арабские слова с гласными и без них. [7] Самой ранней книгой по статистике является рукопись трактата 9-го века о расшифровке криптографических сообщений , написанная арабским ученым Аль-Кинди.(801–873). В своей книге Аль-Кинди дал подробное описание того, как использовать статистику и частотный анализ для расшифровки зашифрованных сообщений. Этот текст заложил основы статистики и криптоанализа . [8] [9] Аль-Кинди также первым из известных применял статистический вывод , в то время как он и более поздние арабские криптографы разработали ранние статистические методы декодирования зашифрованных сообщений. Позже Ибн Адлан (1187–1268) внес важный вклад в использование размера выборки в частотном анализе. [7]

Самые ранние европейские труды по статистике относятся к 1663 году, когда были опубликованы « Естественные и политические наблюдения за законами о смертности » Джона Граунта . [17] Ранние применения статистического мышления вращалась вокруг потребностей государств в базовой политике на демографических и экономических данных, следовательно , его указанием того этимологии . Объем дисциплины статистики расширился в начале 19 века, включив в нее сбор и анализ данных в целом. Сегодня статистика широко используется в правительстве, бизнесе, естественных и социальных науках.

Математические основы современной статистики были заложены в 17 - м веке , с развитием теории вероятностей по Кардано , Блез Паскаль и Пьер де Ферма . Математическая теория вероятностей возникла в результате изучения азартных игр , хотя концепция вероятности уже рассматривалась в средневековом праве и такими философами, как Хуан Карамуэль . [18] метод наименьших квадратов была впервые описана Лежандр в 1805 году.

Карл Пирсон , основоположник математической статистики.

Современная статистика возникла в конце 19 - начале 20 века в три этапа. [19] Первую волну на рубеже веков возглавляли работы Фрэнсиса Гальтона и Карла Пирсона , которые преобразовали статистику в строгую математическую дисциплину, используемую для анализа не только в науке, но и в промышленности и политике. . Вклад Гальтона включал введение концепций стандартного отклонения , корреляции , регрессионного анализа и применение этих методов к изучению множества человеческих характеристик, включая рост, вес, длину ресниц. [20] Пирсон разработалКоэффициент Пирсона продукта момент корреляции , определяются как продукт-момент, [21] метод моментов для подгонки распределений к образцам и распределения Пирсона , среди многих других вещей. [22] Гальтон и Пирсон основали Biometrika как первый журнал математической статистики и биостатистики (тогда называемый биометрией), а последний основал первый в мире университетский статистический факультет в Университетском колледже Лондона . [23]

Рональд Фишер ввел термин нулевая гипотеза во время эксперимента « Леди дегустация чая» , который «никогда не доказывается и не устанавливается, но, возможно, опровергается в ходе экспериментов». [24] [25]

Вторая волна 1910-х и 20-х годов была инициирована Уильямом Сили Госсетом и достигла своей кульминации в прозрениях Рональда Фишера , написавшего учебники, которые должны были определять академические дисциплины в университетах по всему миру. Самыми важными публикациями Фишера были его основополагающая статья 1918 года «Корреляция между родственниками на основе предположения о менделевском наследовании» (в которой впервые использовался статистический термин « дисперсия» ), его классическая работа 1925 года « Статистические методы для научных работников» 1935 года и его план экспериментов 1935 года. [26] [27] [28], где он разработал строгий план экспериментов.модели. Он возник концепцию достаточности , вспомогательной статистика , линейного дискриминатор Фишера и информация Фишера . [29] В 1930 книге Генетическая теория естественного отбора , он прикладной статистики к различным биологическим концепциям , такие как принцип Фишера [30] (который AWF Эдвардс назвал « вероятно, самый знаменитый аргумент в эволюционной биологии ») и Фишеровское Убегание , [31 ] [32] [33] [34] [35] [36] концепция вполовой отбор о побеге с положительной обратной связью, обнаруженной в процессе эволюции .

Последняя волна, которая в основном представляла собой усовершенствование и расширение более ранних разработок, возникла в результате совместной работы Эгона Пирсона и Ежи Неймана в 1930-х годах. Они ввели понятия ошибки « типа II », мощности теста и доверительных интервалов . Ежи Нейман в 1934 году показал, что стратифицированная случайная выборка в целом является лучшим методом оценки, чем целенаправленная (квотная) выборка. [37]

Сегодня статистические методы применяются во всех областях, связанных с принятием решений, для точных выводов на основе сопоставленного массива данных и для принятия решений в условиях неопределенности на основе статистической методологии. Использование современных компьютеров ускорило крупномасштабные статистические вычисления, а также сделало возможными новые методы, которые нецелесообразно выполнять вручную. Статистика продолжает оставаться областью активных исследований, например, по проблеме анализа больших данных . [38]

Статистические данные [ править ]

Сбор данных [ править ]

Выборка [ править ]

Когда невозможно собрать полные данные переписи, статистики собирают выборочные данные, разрабатывая конкретные планы экспериментов и выборки обследований . Сама статистика также предоставляет инструменты для прогнозирования и прогнозирования с помощью статистических моделей . Идея делать выводы на основе выборочных данных возникла примерно в середине 1600-х годов в связи с оценкой населения и разработкой предшественников страхования жизни. [39]

Чтобы использовать выборку в качестве ориентира для всего населения, важно, чтобы он действительно отражал все население. Репрезентативная выборка гарантирует, что выводы и заключения могут безопасно распространяться от выборки на генеральную совокупность. Основная проблема заключается в том, чтобы определить, насколько действительно репрезентативна выбранная выборка. Статистика предлагает методы для оценки и исправления любых систематических ошибок в процедурах выборки и сбора данных. Существуют также методы экспериментального планирования экспериментов, которые могут уменьшить эти проблемы в начале исследования, усиливая его способность распознавать истину о населении.

Отбор пробы теории является частью математической дисциплины по теории вероятностей . Вероятность используется в математической статистике для изучения отбора проб распределения по выборочным статистическим данным и, в более общем случае , свойстве статистических процедур . Использование любого статистического метода допустимо, если рассматриваемая система или совокупность удовлетворяет допущениям метода. Разница во взглядах между классической теорией вероятности и теорией выборки состоит, грубо говоря, в том, что теория вероятностей начинает с заданных параметров генеральной совокупности, чтобы вывестивероятности, относящиеся к выборкам. Статистический вывод, однако, движется в противоположном направлении - индуктивно выводя из выборок параметры большей или общей совокупности.

Экспериментальные и наблюдательные исследования [ править ]

Общая цель проекта статистического исследования - изучить причинно-следственную связь и, в частности, сделать вывод о влиянии изменений значений предикторов или независимых переменных на зависимые переменные . Существует два основных типа причинно-следственных статистических исследований: экспериментальные исследования и наблюдательные исследования.. В обоих типах исследований наблюдается влияние различий независимой переменной (или переменных) на поведение зависимой переменной. Разница между этими двумя типами заключается в том, как фактически проводится исследование. Каждый может быть очень эффективным. Экспериментальное исследование включает в себя измерения исследуемой системы, манипулирование системой, а затем выполнение дополнительных измерений с использованием той же процедуры, чтобы определить, изменило ли манипуляция значения измерений. Напротив, обсервационное исследование не предполагает экспериментальных манипуляций . Вместо этого собираются данные и исследуются корреляции между предикторами и ответом. Хотя инструменты анализа данных лучше всего работают с данными рандомизированных исследований, они также применяются к другим типам данных, таким как естественные эксперименты и наблюдения [40], для которых статистик может использовать модифицированный, более структурированный метод оценки (например, оценка разницы в различиях и инструментальных переменных , среди многих других), производить последовательные оценки .

Эксперименты [ править ]

Основные этапы статистического эксперимента:

  1. Планирование исследования, включая определение количества повторений исследования, с использованием следующей информации: предварительные оценки величины эффектов лечения , альтернативные гипотезы и оценочная экспериментальная изменчивость . Необходимо учитывать выбор объектов эксперимента и этику исследования. Статистики рекомендуют в экспериментах сравнить (по крайней мере) одно новое лечение со стандартным лечением или контролем, чтобы можно было объективно оценить разницу в эффектах лечения.
  2. Планирование экспериментов с использованием блокировки для уменьшения влияния искажающих переменных и рандомизированного назначения лечения субъектам, чтобы обеспечить беспристрастную оценку эффектов лечения и экспериментальных ошибок. На этом этапе экспериментаторы и статистики пишут протокол эксперимента, который будет направлять выполнение эксперимента и определяет первичный анализ экспериментальных данных.
  3. Проведение эксперимента в соответствии с экспериментальным протоколом и анализ данных в соответствии с экспериментальным протоколом.
  4. Дальнейшее изучение набора данных во вторичном анализе, чтобы предложить новые гипотезы для будущего исследования.
  5. Документирование и представление результатов исследования.

Особые опасения вызывают эксперименты с человеческим поведением. В знаменитом исследовании Хоторна изучались изменения в рабочей среде на заводе в Хоторне Western Electric Company . Исследователи были заинтересованы в том, чтобы определить, повысит ли повышенное освещение производительность рабочих сборочной линии . Исследователи сначала измерили продуктивность растения, затем изменили освещенность участка растения и проверили, влияют ли изменения освещения на продуктивность. Оказалось, что производительность действительно улучшилась (в условиях эксперимента). Однако сегодня это исследование подвергается серьезной критике за ошибки в экспериментальных процедурах, в частности, за отсутствие контрольной группы ислепота . Эффект Хоторна относится к обнаружению того, что результат (в данном случае производительность труда) изменился из-за самого наблюдения. Те, кто участвовал в исследовании Хоторна, стали более продуктивными не потому, что изменилось освещение, а потому, что за ними наблюдали. [41]

Наблюдательное исследование [ править ]

Примером обсервационного исследования является исследование связи между курением и раком легких. Этот тип исследования обычно использует опрос для сбора наблюдений за интересующей областью, а затем выполняет статистический анализ. В этом случае исследователи собирают данные наблюдений как за курильщиками, так и за некурящими, возможно, в рамках когортного исследования , а затем ищут количество случаев рака легких в каждой группе. [42] Исследование случай-контроль - это еще один тип наблюдательного исследования, в котором приглашаются к участию люди с интересующим результатом (например, рак легких) и без него и собираются их истории воздействия.

Типы данных [ править ]

Были предприняты различные попытки составить таксономию уровней измерения . Психофизик Стэнли Смит Стивенс определил номинальную, порядковую, интервальную и пропорциональную шкалы. Номинальные измерения не имеют значимого ранжирования среди значений и допускают любое однозначное (инъективное) преобразование. Порядковые измерения имеют неточные различия между последовательными значениями, но имеют значимый порядок этих значений и допускают любые преобразования с сохранением порядка. Для интервальных измерений определены значимые расстояния между измерениями, но нулевое значение является произвольным (как в случае с измерениями долготы и температуры в градусах Цельсия или Фаренгейта).) и допускают любое линейное преобразование. Измерения соотношения имеют как значимое нулевое значение, так и заданные расстояния между различными измерениями, а также допускают любое преобразование масштабирования.

Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда они группируются вместе как категориальные переменные , тогда как измерения отношения и интервалы группируются вместе как количественные переменные , которые могут быть дискретными или непрерывными из-за их числовой природы. Такие различия часто могут быть слабо коррелированы с типом данных в информатике, поскольку дихотомические категориальные переменные могут быть представлены с помощью логического типа данных , политомические категориальные переменные с произвольно присвоенными целыми числами в интегральном типе данных., и непрерывные переменные с реальным типом данных, включая вычисления с плавающей запятой . Но сопоставление типов данных информатики с типами статистических данных зависит от того, какая категоризация последних реализуется.

Были предложены и другие категории. Например, Мостеллер и Тьюки (1977) [43] различали оценки, ранги, подсчитанные дроби, подсчеты, суммы и остатки. Нелдер (1990) [44] описал непрерывный подсчет, непрерывные отношения, отношения подсчета и категориальные режимы данных. (См. Также: Chrisman (1998), [45] van den Berg (1991). [46] )

Вопрос о том, уместно ли применять разные виды статистических методов к данным, полученным с помощью различных процедур измерения, осложняется проблемами, связанными с преобразованием переменных и точной интерпретацией вопросов исследования. "Связь между данными и тем, что они описывают, просто отражает тот факт, что некоторые виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. Разумно ли рассматривать преобразование, зависит от вопроса, на который человек пытается ответить. . " [47] : 82

Методы [ править ]

Описательная статистика [ править ]

Описательная статистика (в графе существительного смысла) представляет собой краткое изложение статистика , которая количественно описывает или суммирует особенность из набора информации , [48] в то время как описательная статистика в массах существительного смысла является процессом использования и анализа этих статистических данных. Описательная статистика отличается от логической статистики (или индуктивной статистики) в том смысле, что описательная статистика направлена ​​на обобщение выборки , а не на использование данных для изучения совокупности, которую, как предполагается, представляет выборка данных.

Выводная статистика [ править ]

Статистический вывод - это процесс использования анализа данных для вывода свойств основного распределения вероятностей . [49] Логический статистический анализ позволяет сделать вывод о свойствах совокупности , например, путем проверки гипотез и получения оценок. Предполагается, что набор наблюдаемых данных взят из более широкой совокупности. Статистические данные можно противопоставить описательной статистике . Описательная статистика касается исключительно свойств наблюдаемых данных и не основывается на предположении, что данные поступают от большей совокупности.

Терминология и теория выводной статистики [ править ]

Статистика, оценки и основные количества [ править ]

Рассмотрим независимые одинаково распределенные (IID) случайные величины с заданным распределением вероятностей : стандартный статистический вывод и теория оценки определяет случайную выборку как случайный вектор, заданный вектором - столбцом этих переменных IID. [50] Исследуемая популяция описывается распределением вероятностей, параметры которого могут быть неизвестны.

Статистика является случайной величиной , которая является функцией случайной выборки, но не является статистическим используется для оценки такой функции. Обычно используемые оценки включают выборочное среднее , несмещенную выборочную дисперсию и выборочную ковариацию .

Случайная величина, которая является функцией случайной выборки и неизвестного параметра, но распределение вероятностей которой не зависит от неизвестного параметра , называется ключевой величиной или стержнем. Широко используемые опорные точки включают z-оценку , статистику хи-квадрат и t-значение Стьюдента .

Между двумя оценщиками данного параметра считается, что более эффективна оценка с меньшей среднеквадратичной ошибкой . Кроме того, оценщик называется несмещенным, если его ожидаемое значение равно истинному значению неизвестного оцениваемого параметра, и асимптотически несмещенным, если его ожидаемое значение сходится на пределе к истинному значению такого параметра.

Другие желательные свойства для оценщиков включают: оценщики UMVUE, которые имеют наименьшую дисперсию для всех возможных значений оцениваемого параметра (обычно это свойство легче проверить, чем эффективность) и согласованные оценщики, которые сходятся по вероятности к истинному значению такого параметра. .

Это все еще оставляет вопрос о том, как получить оценки в данной ситуации и провести вычисления. Было предложено несколько методов: метод моментов , метод максимального правдоподобия, метод наименьших квадратов и более современный метод оценки уравнений .

Нулевая гипотеза и альтернативная гипотеза [ править ]

Интерпретация статистической информации часто может включать в себя разработку нулевой гипотезы, которая обычно (но не обязательно) заключается в том, что между переменными не существует взаимосвязи или что никаких изменений не произошло с течением времени. [51] [52]

Лучшая иллюстрация для новичка - затруднительное положение, с которым сталкивается уголовный процесс. Нулевая гипотеза H 0 утверждает, что подсудимый невиновен, тогда как альтернативная гипотеза H 1 утверждает, что подсудимый виновен. Обвинение вынесено на основании подозрения в виновности. H 0 (статус-кво) противостоит H 1 и сохраняется, если H 1 не подтверждается доказательствами «вне разумного сомнения». Однако «отказ отклонить H 0 » в данном случае не означает невиновности, а просто того, что доказательств было недостаточно для осуждения. Таким образом, жюри не обязательно принимает H 0, но не может отклонить H.0 . Хотя невозможно «доказать» нулевую гипотезу, можно проверить, насколько она близка к истинности, с помощью теста мощности , который проверяет ошибки типа II .

То, что статистики называют альтернативной гипотезой, - это просто гипотеза, противоречащая нулевой гипотезе .

Ошибка [ редактировать ]

Исходя из нулевой гипотезы , различают две большие категории ошибок:

  • Ошибки типа I, при которых нулевая гипотеза ошибочно отвергается, давая «ложноположительный результат».
  • Ошибки типа II, когда нулевая гипотеза не может быть отвергнута, а фактическая разница между популяциями отсутствует, что дает «ложноотрицательный результат».

Стандартное отклонение относится к степени, в которой отдельные наблюдения в выборке отличаются от центрального значения, такого как выборка или среднее значение генеральной совокупности, в то время как стандартная ошибка относится к оценке разницы между средним значением выборки и средним значением генеральной совокупности.

Статистическая погрешность есть величина , на которую наблюдение отличается от своего ожидаемого значения , A остаточное это сумма, отличается от наблюдения стоимости оценщика ожидаемого значения принимает на данный образец (также называемое предсказание).

Среднеквадратичная ошибка используется для получения эффективных оценок , широко используемого класса оценок. Среднеквадратичная ошибка - это просто квадратный корень из среднеквадратичной ошибки.

Метод наименьших квадратов: красным - точки, которые нужно подогнать, синим - линия.

Многие статистические методы стремятся минимизировать остаточную сумму квадратов , и они называются « методами наименьших квадратов » в отличие от метода наименьших абсолютных отклонений . Последний придает равный вес малым и большим ошибкам, тогда как первый придает больший вес большим ошибкам. Остаточная сумма квадратов также дифференцируема , что обеспечивает удобное свойство для выполнения регрессии . Метод наименьших квадратов, применяемый к линейной регрессии , называется обычным методом наименьших квадратов, а метод наименьших квадратов, применяемый к нелинейной регрессии , называется нелинейным методом наименьших квадратов.. Также в модели линейной регрессии недетерминированная часть модели называется членом ошибки, возмущением или, проще говоря, шумом. И линейная регрессия, и нелинейная регрессия рассматриваются с помощью полиномиальных наименьших квадратов , которые также описывают дисперсию в прогнозе зависимой переменной (ось y) как функцию независимой переменной (ось x) и отклонения (ошибки, шум, возмущений) от расчетной (аппроксимированной) кривой.

Процессы измерения, генерирующие статистические данные, также подвержены ошибкам. Многие из этих ошибок классифицируются как случайные (шум) или систематические ( систематическая ошибка ), но другие типы ошибок (например, грубая ошибка, например, когда аналитик сообщает неверные единицы измерения) также могут быть важны. Наличие недостающих данных или цензурирования может привести к неправильной оценке и конкретные методы были разработаны для решения этих проблем. [53]

Оценка интервала [ править ]
Доверительные интервалы : красная линия - истинное значение среднего в этом примере, синие линии - случайные доверительные интервалы для 100 реализаций.

Большинство исследований отбирают только часть населения, поэтому результаты не полностью отражают всю популяцию. Любые оценки, полученные из выборки, лишь приблизительно соответствуют значению генеральной совокупности. Доверительные интервалы позволяют статистикам выразить, насколько близко оценка выборки соответствует истинному значению для всей генеральной совокупности. Часто они выражаются как 95% доверительные интервалы. Формально 95% доверительный интервал для значения - это диапазон, в котором, если бы выборка и анализ были повторены в одних и тех же условиях (давая другой набор данных), этот интервал будет включать истинное (совокупное) значение в 95% всех возможных случаев. . Это не означает, что вероятность того, что истинное значение находится в доверительном интервале, составляет 95%. От частотникаС точки зрения перспективы, такое утверждение даже не имеет смысла, поскольку истинное значение не является случайной величиной . Либо истинное значение находится в заданном интервале, либо нет. Однако верно то, что до того, как будут отобраны какие-либо данные и дан план построения доверительного интервала, вероятность того, что еще не рассчитанный интервал покроет истинное значение, составляет 95%: в этот момент границы интервала - это еще не наблюдаемые случайные величины . Один подход, который действительно дает интервал, который можно интерпретировать как имеющий заданную вероятность содержания истинного значения, заключается в использовании достоверного интервала из байесовской статистики : этот подход зависит от другого способа интерпретации того, что подразумевается под «вероятностью»., то есть как байесовская вероятность .

В принципе доверительные интервалы могут быть симметричными или асимметричными. Интервал может быть асимметричным, потому что он работает как нижняя или верхняя граница для параметра (левосторонний интервал или правосторонний интервал), но он также может быть асимметричным, поскольку двусторонний интервал построен с нарушением симметрии относительно оценки. Иногда границы доверительного интервала достигаются асимптотически, и они используются для аппроксимации истинных границ.

Значение [ править ]

Статистика редко дает простой ответ типа Да / Нет на анализируемый вопрос. Интерпретация часто сводится к уровню статистической значимости, применяемой к числам, и часто относится к вероятности того, что значение точно отклоняет нулевую гипотезу (иногда называемое p-значением ).

На этом графике черная линия представляет собой распределение вероятностей для тестовой статистики , критическая область - это набор значений справа от наблюдаемой точки данных (наблюдаемое значение тестовой статистики), а значение p представлено зеленой областью.

Стандартный подход [50] заключается в проверке нулевой гипотезы против альтернативной гипотезы. Критическая область является множеством значений оценки , что приводит к опровержению нулевой гипотезы. Таким образом, вероятность ошибки типа I - это вероятность того, что оценщик принадлежит критической области, при условии, что нулевая гипотеза верна ( статистическая значимость ), а вероятность ошибки типа II - это вероятность того, что оценщик не принадлежит данной критической области. что альтернативная гипотеза верна. Статистическая мощность теста вероятность того, что он правильно отвергает нулевую гипотезу , когда нулевая гипотеза неверна.

Ссылка на статистическую значимость не обязательно означает, что общий результат значим с точки зрения реального мира. Например, в большом исследовании лекарственного средства может быть показано, что лекарственное средство имеет статистически значимый, но очень небольшой положительный эффект, так что лекарство вряд ли окажет заметную помощь пациенту.

Хотя в принципе приемлемый уровень статистической значимости может быть предметом споров, уровень значимости - это наибольшее p-значение, которое позволяет тесту отклонить нулевую гипотезу. Этот тест логически эквивалентен утверждению, что p-значение - это вероятность (при условии, что нулевая гипотеза верна) получить результат, по крайней мере такой же экстремальный, как и статистика теста . Следовательно, чем меньше уровень значимости, тем ниже вероятность совершения ошибки I типа.

Некоторые проблемы обычно связаны с этой структурой (см. Критику проверки гипотез ):

  • Статистически значимая разница все же может не иметь практического значения, но можно правильно сформулировать тесты, чтобы учесть это. Один из ответов предполагает выход за рамки сообщения только об уровне значимости и включение р- значения при сообщении о том, отклонена или принята гипотеза. Однако значение p не указывает размер или важность наблюдаемого эффекта, а также может преувеличивать важность незначительных различий в крупных исследованиях. Лучший и все более распространенный подход - сообщать доверительные интервалы . Хотя они производятся на основе тех же расчетов, что и проверки гипотез или p-значения, они описывают как размер эффекта, так и окружающую его неопределенность.
  • Ошибка транспонированной условной гипотезы , также известная как ошибка прокурора : критика возникает из-за того, что подход к проверке гипотез вынуждает отдавать предпочтение одной гипотезе ( нулевая гипотеза ), поскольку оценивается вероятность наблюдаемого результата с учетом нулевой гипотезы, а не вероятность того, что нулевая гипотеза с учетом наблюдаемого результата. Альтернативой этому подходу является байесовский вывод , хотя он требует установления априорной вероятности . [54]
  • Отказ от нулевой гипотезы не означает автоматического подтверждения альтернативной гипотезы.
  • Как и все в выводной статистике, он полагается на размер выборки, и поэтому под жирными хвостами p-значения могут быть вычислены неправильно. [ требуется разъяснение ]
Примеры [ править ]

Некоторые известные статистические тесты и процедуры:

  • Дисперсионный анализ (ANOVA)
  • Тест хи-квадрат
  • Корреляция
  • Факторный анализ
  • Манн – Уитни Ю
  • Среднеквадратичное взвешенное отклонение (MSWD)
  • Коэффициент корреляции продукт-момент Пирсона
  • Регрессивный анализ
  • Коэффициент ранговой корреляции Спирмена
  • Студенческий t- тест
  • Анализ временных рядов
  • Совместный анализ

Исследовательский анализ данных [ править ]

Исследовательский анализ данных ( EDA ) - это подход к анализу наборов данных для обобщения их основных характеристик, часто с использованием визуальных методов. Статистическая модель может быть использована или нет, но в первую очередь EDA для видеть то , что данные могут сказать нам за формальное моделирование или гипотезы задачи тестирования.

Неправильное использование [ править ]

Неправильное использование статистики может привести к незаметным, но серьезным ошибкам в описании и интерпретации - тонким в том смысле, что такие ошибки допускают даже опытные профессионалы, и серьезным в том смысле, что они могут привести к серьезным ошибкам в принятии решений. Например, социальная политика, медицинская практика и надежность таких сооружений, как мосты, - все зависит от правильного использования статистики.

Даже при правильном применении статистических методов результаты могут быть трудными для интерпретации для тех, у кого нет опыта. Статистическая значимость тренда в данных-который измеряет степень , в которой тенденция может быть вызвана случайным изменением в образце, может или не может согласиться с интуитивным чувством своей значимости. Набор основных статистических навыков (и скептицизма), необходимых людям для правильного обращения с информацией в повседневной жизни, называется статистической грамотностью .

Существует общее мнение, что статистические знания слишком часто преднамеренно используются неправильно , ища способы интерпретировать только те данные, которые благоприятны для выступающего. [55] Недоверие и непонимание статистики связано с цитатой: « Есть три вида лжи: ложь, проклятая ложь и статистика ». Неправильное использование статистики может быть как непреднамеренным, так и преднамеренным, и в книге « Как лгать со статистикой» [55] излагается ряд соображений. В попытке пролить свет на использование и неправильное использование статистики проводятся обзоры статистических методов, используемых в конкретных областях (например, Warne, Lazo, Ramos, and Ritter (2012)). [56]

Способы избежать неправильного использования статистики включают использование надлежащих диаграмм и избежание предвзятости . [57] Неправильное использование может иметь место, когда выводы чрезмерно обобщаются и утверждаются, что они репрезентативны больше, чем они есть на самом деле, часто преднамеренно или неосознанно игнорируя систематическую ошибку выборки. [58] Столбчатые диаграммы, пожалуй, самые простые в использовании и понимании диаграммы, и их можно создавать вручную или с помощью простых компьютерных программ. [57] К сожалению, большинство людей не ищут предвзятости или ошибок, поэтому их не замечают. Таким образом, люди часто могут верить, что что-то правда, даже если это плохо представлено . [58]Чтобы данные, собранные на основе статистики, были правдоподобными и точными, отобранная выборка должна быть репрезентативной для всего. [59] По словам Хаффа, «надежность образца может быть разрушена [предвзятостью] ... позвольте себе некоторую степень скептицизма». [60]

Чтобы помочь в понимании статистики, Хафф предложил ряд вопросов, которые нужно задавать в каждом случае: [55]

  • Кто так сказал? (Есть ли у него / у нее топор, который нужно заточить?)
  • Откуда он / она знает? (Есть ли у него / нее ресурсы, чтобы знать факты?)
  • Чего не хватает? (Дает ли он / она полную картину?)
  • Кто-то сменил тему? (Предлагает ли он / она правильный ответ на неправильную проблему?)
  • Имеет ли это смысл? (Логичен ли его / ее вывод и согласуется ли он с тем, что мы уже знаем?)
Путая переменная проблема: Х и У могут быть коррелированы, не потому , что существует причинно - следственная связь между ними, а потому , что оба зависят от третьей переменной Z . Z называется смешивающим фактором.

Неправильная интерпретация: корреляция [ править ]

Концепция корреляции заслуживает особого внимания из-за потенциальной путаницы, которую она может вызвать. Статистический анализ набора данных часто показывает, что две переменные (свойства) рассматриваемой совокупности имеют тенденцию изменяться вместе, как если бы они были связаны. Например, исследование годового дохода, которое также учитывает возраст смерти, может обнаружить, что бедные люди, как правило, живут короче, чем богатые. Говорят, что две переменные коррелированы; однако они могут быть или не быть причиной друг друга. Явление корреляции может быть вызвано третьим, ранее не рассмотренным явлением, называемым скрытой переменной или смешанной переменной.. По этой причине невозможно сразу сделать вывод о существовании причинно-следственной связи между двумя переменными.

Приложения [ править ]

Прикладная статистика, теоретическая статистика и математическая статистика [ править ]

Прикладная статистика включает в себя описательную статистику и применение статистических выводов. [61] [62] Теоретическая статистика касается логических аргументов, лежащих в основе обоснования подходов к статистическому выводу , а также охватывает математическую статистику . Математическая статистика включает в себя не только манипуляции с распределениями вероятностей, необходимые для получения результатов, связанных с методами оценки и вывода, но также различные аспекты вычислительной статистики и планирования экспериментов .

Статистические консультанты могут помочь организациям и компаниям, у которых нет собственного опыта, необходимого для решения их конкретных вопросов.

Машинное обучение и интеллектуальный анализ данных [ править ]

Модели машинного обучения - это статистические и вероятностные модели, которые фиксируют закономерности в данных с помощью вычислительных алгоритмов.

Статистика в академических кругах [ править ]

Статистика применима к широкому кругу академических дисциплин , включая естественные и социальные науки , правительство и бизнес. Бизнес-статистика применяет статистические методы в эконометрике , аудите, производстве и операциях, включая улучшение услуг и маркетинговые исследования. [63] Исследование двух журналов в тропической биологии обнаружили , что 12 наиболее часто статистические тесты: дисперсионный анализ (ANOVA), критерий хи-квадрат , критерий Стьюдента , линейная регрессия , коэффициент корреляции Пирсона , Манна-Уитни U Test, Тест Краскела-Уоллиса , индекс разнообразия Шеннона , тест Тьюки , кластерный анализ , критерий ранговой корреляции Спирмена и анализ главных компонентов . [64]

Типичный курс статистики охватывает описательную статистику, вероятность, биномиальное и нормальное распределения , проверку гипотез и доверительных интервалов, линейную регрессию и корреляцию. [65] Современные курсы фундаментальной статистики для студентов бакалавриата сосредоточены на правильном выборе тестов, интерпретации результатов и использовании бесплатного программного обеспечения для статистики . [64]

Статистические вычисления [ править ]

gretl , пример статистического пакета с открытым исходным кодом

Быстрый и устойчивый рост вычислительной мощности, начавшийся со второй половины 20 века, оказал существенное влияние на практику статистической науки. Ранние статистические модели почти всегда принадлежали к классу линейных моделей , но мощные компьютеры в сочетании с подходящими численными алгоритмами вызвали повышенный интерес к нелинейным моделям (таким как нейронные сети ), а также к созданию новых типов, таких как обобщенные линейные модели. и многоуровневые модели .

Повышенная вычислительная мощность также привела к растущей популярности вычислительно-ресурсоемких методов, основанных на повторной выборке , таких как тесты перестановки и бутстрап , в то время как такие методы, как выборка Гиббса , сделали использование байесовских моделей более осуществимым. Компьютерная революция имеет значение для будущего статистики с новым акцентом на «экспериментальную» и «эмпирическую» статистику. Сейчас доступно большое количество статистического программного обеспечения как общего, так и специального назначения . Примеры доступного программного обеспечения, способного выполнять сложные статистические вычисления, включают такие программы, как Mathematica , SAS , SPSS иR .

Бизнес-статистика [ править ]

В бизнесе «статистика» - широко используемый инструмент поддержки управления и принятия решений . Он особенно применяется в финансовом менеджменте , управлении маркетингом , а также в управлении производством , услугами и операциями . [66] [67] Статистика также широко используется в управленческом учете и аудите . Дисциплина управления наукой формализует использование статистики и другой математики в бизнесе. ( Эконометрика - это применение статистических методов к экономическим даннымчтобы дать эмпирическое содержание экономическим отношениям .)

Типичный курс «Бизнес-статистика» предназначен для бизнес-специальностей и охватывает [68] описательную статистику ( сбор , описание, анализ и сводку данных), вероятность (обычно биномиальное и нормальное распределения ), проверку гипотез и доверительные интервалы, линейная регрессия и корреляция; (последующие) курсы могут включать прогнозирование , временные ряды , деревья решений , множественную линейную регрессию и другие темы из бизнес-аналитики в целом. См. Также Бизнес-математика § Университетский уровень. Программы профессиональной сертификации , такие как CFA , часто включают темы в статистику.

Статистика, применяемая к математике или искусству [ править ]

Традиционно статистика была связана с выводом выводов с использованием полустандартизированной методологии, которая «требовала обучения» в большинстве наук. [ необходима цитата ] Эта традиция изменилась с использованием статистики в контекстах без вывода. То, что когда-то считалось сухим предметом, который во многих областях воспринимался как требование степени, теперь рассматривается с энтузиазмом. [ согласно кому? ] Первоначально высмеиваемая некоторыми математическими пуристами, теперь она считается важной методологией в определенных областях.

  • В теории чисел , разброс участки данных , генерируемых с помощью функции распределения могут быть трансформированы с привычными средствами , используемых в статистике , чтобы выявить лежащую в основе модели, которые затем могут привести к гипотезам.
  • Статистические методы, в том числе методы прогнозирования в прогнозировании , сочетаются с теорией хаоса и фрактальной геометрией для создания видеоработ, которые считаются очень красивыми. [ необходима цитата ]
  • Процесс искусства из Джексона Поллока опирался на художественные эксперименты , лежащие в основе которой распределения в природе были художественно выявлены. [ необходима цитата ] С появлением компьютеров статистические методы стали применяться для формализации таких управляемых распределением естественных процессов для создания и анализа движущегося видеоарта. [ необходима цитата ]
  • В перформансе методы статистики могут использоваться прогнозирующим образом , например, в карточном фокусе, основанном на марковском процессе, который работает только некоторое время, причину которого можно предсказать с помощью статистической методологии.
  • Статистические данные можно использовать для прогнозирования создания искусства, как в статистической или стохастической музыке, изобретенной Янисом Ксенакисом , где музыка зависит от исполнения. Хотя этот тип артистизма не всегда проявляется так, как ожидалось, его поведение предсказуемо и настраивается с помощью статистики.

Специализированные дисциплины [ править ]

Статистические методы используются в широком спектре видов научных и социальных исследований, в том числе: биостатистика , вычислительная биология , вычислительная социология , сетевая биология , социальные науки , социология и социальные исследования . Некоторые области исследований настолько широко используют прикладную статистику, что имеют специализированную терминологию . Эти дисциплины включают:

  • Актуарная наука (оценка рисков в страховой и финансовой отраслях)
  • Прикладная информационная экономика
  • Астростатистика (статистическая оценка астрономических данных)
  • Биостатистика
  • Хемометрия (для анализа данных по химии )
  • Интеллектуальный анализ данных (применение статистики и распознавания образов для извлечения знаний из данных)
  • Наука о данных
  • Демография (статистическое исследование населения)
  • Эконометрика (статистический анализ экономических данных)
  • Статистика энергетики
  • Инженерная статистика
  • Эпидемиология (статистический анализ болезни)
  • География и географические информационные системы , в частности, в пространственном анализе
  • Обработка изображений
  • Юриметрия ( право )
  • Медицинская статистика
  • Политическая наука
  • Психологическая статистика
  • Техника надежности
  • Социальная статистика
  • Статистическая механика

Кроме того, существуют определенные типы статистического анализа, в которых также разработана собственная специализированная терминология и методология:

  • Bootstrap  / складной нож передискретизация
  • Многовариантная статистика
  • Статистическая классификация
  • Анализ структурированных данных
  • Моделирование структурным уравнением
  • Методология исследования
  • Анализ выживаемости
  • Статистика в различных видах спорта, особенно в бейсболе, известном как саберметрика, и в крикете.

Статистика также является ключевым инструментом в бизнесе и производстве. Он используется для понимания изменчивости систем измерения, процессов управления (как в статистическом управлении процессами или SPC), для обобщения данных и для принятия решений на основе данных. В этих ролях это ключевой инструмент и, возможно, единственный надежный инструмент.

См. Также [ править ]

  • Оценка изобилия
  • Наука о данных
  • Глоссарий вероятности и статистики
  • Список академических статистических ассоциаций
  • Список важных публикаций по статистике
  • Список национальных и международных статистических служб
  • Список статистических пакетов (программного обеспечения)
  • Список статей статистики
  • Список университетских статистических консультационных центров
  • Обозначения в вероятности и статистике
  • Всемирный день статистики
Основы и основные области статистики
  • Основы статистики
  • Список статистиков
  • Официальная статистика
  • Многомерный дисперсионный анализ

Ссылки [ править ]

  1. ^ "Оксфордская ссылка" .
  2. ^ Ромин, Ян-Виллем (2014). «Философия статистики» . Стэнфордская энциклопедия философии .
  3. ^ «Кембриджский словарь» .
  4. ^ Додж, Ю. (2006) Оксфордский словарь статистических терминов , Oxford University Press. ISBN 0-19-920613-9 
  5. ^ Lund Research Ltd. "Описательная и логическая статистика" . statistics.laerd.com . Проверено 23 марта 2014 .
  6. ^ "В чем разница между ошибками проверки гипотез типа I и типа II?" . About.com Education . Проверено 27 ноября 2015 .
  7. ^ a b c Брумелинг, Лайл Д. (1 ноября 2011 г.). «Отчет о ранних статистических выводах в арабской криптологии». Американский статистик . 65 (4): 255–257. DOI : 10.1198 / tas.2011.10191 .
  8. ^ а б Сингх, Саймон (2000). Кодовая книга: наука секретности от древнего Египта до квантовой криптографии (1-е изд. Якорных книг). Нью-Йорк: якорные книги. ISBN 978-0-385-49532-5.
  9. ^ a b Ибрагим А. Аль-Кади "Истоки криптологии: вклад арабов", Cryptologia , 16 (2) (апрель 1992 г.), стр. 97–126.
  10. ^ «Как рассчитать описательную статистику» . Ответы Консультации. 2018-02-03.
  11. Перейти ↑ Moses, Lincoln E. (1986) Think and Explain with Statistics , Addison-Wesley, ISBN 978-0-201-15619-5 . стр. 1–3 
  12. ^ Хейс, Уильям Ли, (1973) Статистика социальных наук , Холт, Райнхарт и Уинстон, стр. Xii, ISBN 978-0-03-077945-9 
  13. ^ Мур, Дэвид (1992). «Статистика преподавания как респектабельный предмет» . У Ф. Гордона; С. Гордон (ред.). Статистика XXI века . Вашингтон, округ Колумбия: Математическая ассоциация Америки. С.  14–25 . ISBN 978-0-88385-078-7.
  14. ^ Шанс, Бет Л .; Россман, Аллан Дж. (2005). «Предисловие» (PDF) . Исследование статистических концепций, приложений и методов . Duxbury Press. ISBN  978-0-495-05064-3.
  15. ^ Лакшмикантам, изд. Д. Каннан, В. (2002). Справочник по стохастическому анализу и приложениям . Нью-Йорк: М. Деккер. ISBN 0824706609.CS1 maint: extra text: authors list (link)
  16. ^ Schervish, Mark J. (1995). Теория статистики (Корр. 2-е изд. Ред.). Нью-Йорк: Спрингер. ISBN 0387945466.
  17. ^ Уиллкокс, Уолтер (1938) «Основатель статистики». Обзор Международного статистического института 5 (4): 321–328. JSTOR  1400906
  18. ^ Дж. Франклин, Наука о предположениях: свидетельства и вероятность до Паскаля, Johns Hopkins Univ Pr 2002
  19. Хелен Мэри Уокер (1975). Исследования по истории статистического метода . Арно Пресс. ISBN 9780405066283.
  20. Перейти ↑ Galton, F (1877). «Типичные законы наследственности» . Природа . 15 (388): 492–553. Bibcode : 1877Natur..15..492. . DOI : 10.1038 / 015492a0 .
  21. ^ Стиглер, SM (1989). "Отчет Фрэнсиса Гальтона об изобретении корреляции" . Статистическая наука . 4 (2): 73–79. DOI : 10,1214 / сс / 1177012580 .
  22. ^ Пирсон, К. (1900). «По критерию, согласно которому данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» . Философский журнал . Серия 5. 50 (302): 157–175. DOI : 10.1080 / 14786440009463897 .
  23. ^ «Карл Пирсон (1857–1936)» . Департамент статистических наук - Университетский колледж Лондона . Архивировано из оригинала на 2008-09-25.
  24. ^ Фишер | 1971 | loc = Глава II. Принципы экспериментирования, иллюстрированные психофизическим экспериментом, раздел 8. Нулевая гипотеза.
  25. ^ КДИ цитата: 1935 Р. Фишер, Дизайн экспериментов II. 19, «Мы можем говорить об этой гипотезе как о« нулевой гипотезе », а нулевая гипотеза никогда не доказывается или не устанавливается, но, возможно, опровергается в ходе экспериментов».
  26. Box, JF (февраль 1980 г.). «Р. А. Фишер и план экспериментов, 1922–1926». Американский статистик . 34 (1): 1–7. DOI : 10.2307 / 2682986 . JSTOR 2682986 . 
  27. Перейти ↑ Yates, F (июнь 1964 г.). «Сэр Рональд Фишер и план экспериментов». Биометрия . 20 (2): 307–321. DOI : 10.2307 / 2528399 . JSTOR 2528399 . 
  28. ^ Стэнли, Джулиан С. (1966). "Влияние" Плана экспериментов "Фишера на образовательные исследования тридцать лет спустя". Американский журнал исследований в области образования . 3 (3): 223–229. DOI : 10.3102 / 00028312003003223 . JSTOR 1161806 . 
  29. ^ Агрести, Алан; Дэвид Б. Хичкок (2005). «Байесовский вывод для категориального анализа данных» (PDF) . Статистические методы и приложения . 14 (3): 298. DOI : 10.1007 / s10260-005-0121-у .
  30. ^ Эдвардс, AWF (1998). «Естественный отбор и соотношение полов: источники Фишера». Американский натуралист . 151 (6): 564–569. DOI : 10.1086 / 286141 . PMID 18811377 . 
  31. ^ Фишер, Р. А. (1915) Эволюция сексуальных предпочтений. Евгеника Обзор (7) 184: 192
  32. ^ Фишер, Р. А. (1930) Генетическая теория естественного отбора . ISBN 0-19-850440-3 
  33. ^ Эдвардс, AWF (2000) Перспективы: анекдотические, исторические и критические комментарии по генетике. Американское общество генетиков (154) 1419: 1426
  34. ^ Андерссон, Мальте (1994). Половой отбор . Издательство Принстонского университета. ISBN 0-691-00057-3.
  35. ^ Андерссон, М. и Симмонс, LW (2006) Половой отбор и выбор партнера. Тенденции, экология и эволюция (21) 296: 302
  36. ^ Гайон, Дж. (2010) Половой отбор: еще один дарвиновский процесс. Comptes Rendus Biologies (333) 134: 144
  37. ^ Нейман, J (1934). «О двух различных аспектах репрезентативного метода: методе стратифицированной выборки и методе целевого отбора». Журнал Королевского статистического общества . 97 (4): 557–625. DOI : 10.2307 / 2342192 . JSTOR 2342192 . 
  38. ^ "Наука в сложном мире - большие данные: возможность или угроза?" . Институт Санта-Фе .
  39. ^ Вольфрам, Стивен (2002). Новый вид науки . Wolfram Media, Inc. стр. 1082 . ISBN 1-57955-008-8.
  40. ^ Фридман, Д.А. (2005) Статистические модели: теория и практика , Cambridge University Press. ISBN 978-0-521-67105-7 
  41. ^ McCarney R, Warner J, S Илифф, ван Haselen R, Гриффин М, Р Фишер (2007). «Эффект Хоторна: рандомизированное контролируемое испытание» . BMC Med Res Methodol . 7 (1): 30. DOI : 10,1186 / 1471-2288-7-30 . PMC 1936999 . PMID 17608932 .  
  42. ^ Ротман, Кеннет Дж; Гренландия, Сандер; Лэш, Тимоти, ред. (2008). «7». Современная эпидемиология (3-е изд.). Липпинкотт Уильямс и Уилкинс. п. 100 .
  43. ^ Мостеллер, Ф .; Тьюки, JW (1977). Анализ данных и регрессия . Бостон: Эддисон-Уэсли.
  44. ^ Nelder, JA (1990). Знания, необходимые для компьютеризации анализа и интерпретации статистической информации. В Экспертных системах и искусственном интеллекте: потребность в информации о данных . Отчет библиотечной ассоциации, Лондон, 23–27 марта.
  45. ^ Chrisman, Николас R (1998). «Переосмысление уровней измерения для картографии». Картография и географическая информатика . 25 (4): 231–242. DOI : 10.1559 / 152304098782383043 .
  46. ^ ван ден Берг, Г. (1991). Выбор метода анализа . Лейден: DSWO Press
  47. ^ Рука, DJ (2004). Теория и практика измерения: мир через количественную оценку. Лондон: Арнольд.
  48. Перейти ↑ Mann, Prem S. (1995). Вводная статистика (2-е изд.). Вайли. ISBN 0-471-31009-3.
  49. ^ Аптон, Г., Кук, И. (2008) Оксфордский статистический словарь , OUP. ISBN 978-0-19-954145-4 . 
  50. ^ a b Piazza Elio, Probabilità e Statistica, Esculapio 2007
  51. ^ Everitt, Brian (1998). Кембриджский статистический словарь . Кембридж, Великобритания Нью-Йорк: Издательство Кембриджского университета. ISBN 0521593468.
  52. ^ «Коэн (1994) Земля круглая (p <0,05)» . YourStatsGuru.com.
  53. ^ Рубин, Дональд Б .; Литтл, Родерик Дж. А., Статистический анализ с отсутствующими данными, Нью-Йорк: Wiley 2002
  54. ^ Иоаннидис, JPA (2005). «Почему большинство опубликованных результатов исследований ложны» . PLOS Medicine . 2 (8): e124. DOI : 10.1371 / journal.pmed.0020124 . PMC 1182327 . PMID 16060722 .  
  55. ^ a b c Хафф, Даррелл (1954) Как лгать со статистикой , WW Norton & Company, Inc., Нью-Йорк. ISBN 0-393-31072-8 
  56. ^ Варн, Р. Лазо; Ramos, T .; Риттер, Н. (2012). «Статистические методы, используемые в журналах для одаренных детей, 2006–2010 годы». Ежеквартально для одаренных детей . 56 (3): 134–149. DOI : 10.1177 / 0016986212444122 .
  57. ^ a b Дреннан, Роберт Д. (2008). «Статистика в археологии». В Пирсолле, Дебора М. (ред.). Энциклопедия археологии . Elsevier Inc. , стр.  2093 -2100. ISBN 978-0-12-373962-9.
  58. ^ a b Коэн, Джером Б. (декабрь 1938 г.). «Злоупотребление статистикой». Журнал Американской статистической ассоциации . JSTOR. 33 (204): 657–674. DOI : 10.1080 / 01621459.1938.10502344 .
  59. Перейти ↑ Freund, JE (1988). «Современная элементарная статистика». Справочник кредо .
  60. ^ Хафф, Даррелл; Ирвинг Гейс (1954). Как лгать со статистикой . Нью-Йорк: Нортон. Надежность образца может быть разрушена [предвзятостью] ... позвольте себе некоторый скептицизм.
  61. ^ Nikoletseas, MM (2014) "Статистика: концепции и примеры." ISBN 978-1500815684 
  62. ^ Андерсон, Д.Р .; Суини, диджей; Уильямс Т.А. (1994) Введение в статистику: концепции и приложения , стр. 5–9. Западная группа. ISBN 978-0-314-03309-3 
  63. ^ "Журнал деловой и экономической статистики" . Журнал деловой и экономической статистики . Тейлор и Фрэнсис . Дата обращения 16 марта 2020 .
  64. ^ а б Наталья Лоайса Веласкес, Мария Изабель Гонсалес Лутц и Хулиан Монге-Нахера (2011). «Какую статистику следует изучить тропическим биологам?» (PDF) . Revista Biología Tropical . 59 : 983–992.
  65. ^ Pekoz Эрол (2009). Руководство для менеджера по статистике . Эрол Пекоз. ISBN 9780979570438.
  66. ^ «Цели и масштабы» . Журнал деловой и экономической статистики . Тейлор и Фрэнсис . Дата обращения 16 марта 2020 .
  67. ^ "Журнал деловой и экономической статистики" . Журнал деловой и экономической статистики . Тейлор и Фрэнсис . Дата обращения 16 марта 2020 .
  68. ^ Доступны многочисленные тексты, отражающие масштаб и охват дисциплины в деловом мире:
    • Шарп, Н. (2014). Бизнес-статистика , Пирсон. ISBN 978-0134705217 
    • Вегнер, Т. (2010). Прикладная бизнес-статистика: методы и приложения на основе Excel, Juta Academic. ISBN 0702172863 
    Два открытых учебника :
    • Холмс, Л., Илловски, Б., Дин, С. (2017). Вводная бизнес-статистика
    • Ника, М. (2013). Принципы деловой статистики

Дальнейшее чтение [ править ]

  • Лидия Денуорт, «Серьезная проблема: стандартные научные методы подвергаются критике. Изменится ли что-нибудь?», Scientific American , vol. 321, нет. 4 (октябрь 2019 г.), стр. 62–67. «Использование р значений в течение почти столетия [после 1925] для определения статистической значимости из экспериментальных результатов способствовало иллюзии определенности и [к] воспроизводимости кризисам во многих областях науки . Существует растущая решимость реформ статистического анализ ... Некоторые [исследователи] предлагают изменить статистические методы, в то время как другие отказались бы от порога для определения «значимых» результатов ». (стр.63)
  • Барбара Илловски; Сьюзан Дин (2014). Вводная статистика . OpenStax CNX. ISBN 9781938168208.
  • Стокбургер, Дэвид В. "Вводная статистика: концепции, модели и приложения" . Государственный университет Миссури (3-е веб-изд.). Архивировано из оригинального 28 мая 2020 года.
  • Статистика OpenIntro , 3-е издание, Диез, Барр и Четинкайа-Рундел
  • Стивен Джонс, 2010. Статистика в психологии: объяснения без уравнений . Пэлгрейв Макмиллан. ISBN 9781137282392 . 
  • Коэн, Дж (1990). «Вещи, которые я узнал (на данный момент)» (PDF) . Американский психолог . 45 : 1304–1312. DOI : 10.1037 / 0003-066x.45.12.1304 . Архивировано 18 октября 2017 года из оригинального (PDF) .
  • Гигеренцер, Г. (2004). «Бездумная статистика». Социально-экономический журнал . 33 : 587–606. DOI : 10.1016 / j.socec.2004.09.033 .
  • Иоаннидис, JPA (2005). «Почему большинство опубликованных результатов исследований ложны» . PLoS Medicine . 2 : 696–701. DOI : 10.1371 / journal.pmed.0040168 . PMC  1855693 . PMID  17456002 .

Внешние ссылки [ править ]

  • (Электронная версия): TIBCO Software Inc. (2020). Учебник по наукам о данных .
  • Обучение статистике в Интернете: интерактивный мультимедийный курс обучения . Разработано Университетом Райса (ведущий разработчик), Хьюстонским университетом Клир-Лейк, Университетом Тафтса и Национальным научным фондом.
  • Статистические вычислительные ресурсы UCLA
  • Философия статистики из Стэнфордской энциклопедии философии