Статистика


Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Нормальное распределение , очень распространенная плотность вероятности , полезная из-за центральной предельной теоремы .
Диаграммы рассеяния используются в описательной статистике, чтобы показать наблюдаемые взаимосвязи между различными переменными, здесь используется набор данных о цветке ириса .

Статистика — это дисциплина, которая занимается сбором, организацией, анализом, интерпретацией и представлением данных . [1] [2] [3] При применении статистики к научной, промышленной или социальной проблеме принято начинать с изучения статистической совокупности или статистической модели . Популяции могут быть различными группами людей или объектов, такими как «все люди, живущие в стране» или «каждый атом, составляющий кристалл». Статистика имеет дело со всеми аспектами данных, включая планирование сбора данных с точки зрения разработки обследований и экспериментов . [4]

Когда данные переписи не могут быть собраны, статистики собирают данные, разрабатывая специальные схемы экспериментов и выборки обследований . Репрезентативная выборка гарантирует, что выводы и выводы могут быть обоснованно распространены на выборку на совокупность в целом. Экспериментальное исследование включает в себя проведение измерений изучаемой системы, манипулирование системой, а затем проведение дополнительных измерений с использованием той же процедуры, чтобы определить, изменили ли манипуляции значения измерений. Напротив, обсервационное исследование не предполагает экспериментальных манипуляций.

При анализе данных используются два основных статистических метода : описательная статистика , которая обобщает данные из выборки с использованием таких показателей , как среднее значение или стандартное отклонение , и логическая статистика , которая делает выводы на основе данных, подверженных случайным колебаниям (например, ошибки наблюдения, вариация выборки). [5] Описательная статистика чаще всего связана с двумя наборами свойств распределения (выборки или генеральной совокупности): центральная тенденция (или местоположение ) стремится охарактеризовать центральное или типичное значение распределения, в то время как дисперсия (илиизменчивость ) характеризует степень отклонения членов распределения от его центра и друг от друга. Выводы по математической статистике делаются в рамках теории вероятностей , которая занимается анализом случайных явлений.

Стандартная статистическая процедура включает сбор данных, ведущих к проверке взаимосвязи между двумя наборами статистических данных или набором данных и синтетическими данными, взятыми из идеализированной модели. Предлагается гипотеза о статистической связи между двумя наборами данных, и она сравнивается как альтернатива идеализированной нулевой гипотезе об отсутствии связи между двумя наборами данных. Отклонение или опровержение нулевой гипотезы осуществляется с помощью статистических тестов, которые количественно определяют, в каком смысле можно доказать ложность нулевой гипотезы с учетом данных, которые используются в тесте. При работе с нулевой гипотезой распознаются две основные формы ошибок: ошибки типа I (нулевая гипотеза ложно отвергается, что дает «ложноположительный результат») иОшибки типа II (нулевая гипотеза не может быть отвергнута, а фактическая связь между популяциями упущена, что дает «ложноотрицательный результат»). [6] С этой структурой связано множество проблем, начиная от получения достаточного размера выборки и заканчивая определением адекватной нулевой гипотезы. [5]

Процессы измерения, которые генерируют статистические данные, также подвержены ошибкам. Многие из этих ошибок классифицируются как случайные (шум) или систематические ( предвзятость ), но могут возникать и другие типы ошибок (например, грубая ошибка, например, когда аналитик сообщает неправильные единицы измерения). Наличие отсутствующих данных или цензура могут привести к необъективным оценкам, и для решения этих проблем были разработаны специальные методы.

Введение

Статистика — это математическая наука, относящаяся к сбору, анализу, интерпретации или объяснению и представлению данных [ 7] или как раздел математики . [8] Некоторые считают статистику отдельной математической наукой, а не разделом математики. В то время как во многих научных исследованиях используются данные, статистика занимается использованием данных в контексте неопределенности и принятием решений в условиях неопределенности. [9] [10]

Применяя статистику к проблеме, обычно начинают с изучаемой совокупности или процесса. Популяции могут быть разными темами, такими как «все люди, живущие в стране» или «каждый атом, составляющий кристалл». В идеале статистики собирают данные обо всем населении (операция, называемая переписью ). Это может быть организовано государственными статистическими учреждениями. Описательную статистику можно использовать для обобщения данных о населении. Числовые дескрипторы включают среднее значение и стандартное отклонение для непрерывных данных (например, дохода), тогда как частота и процент более полезны с точки зрения описания категориальных данных (например, образования).

Когда перепись невозможна, изучается выбранное подмножество населения, называемое выборкой . Как только определена выборка, репрезентативная для генеральной совокупности, собираются данные для членов выборки в условиях наблюдения или эксперимента . Опять же, для обобщения выборочных данных можно использовать описательную статистику. Однако составление выборки содержит элемент случайности; следовательно, числовые дескрипторы из выборки также подвержены неопределенности. Чтобы сделать осмысленные выводы обо всей популяции, необходима дедуктивная статистика . Он использует шаблоны в выборочных данных, чтобы делать выводы о представленной совокупности с учетом случайности. Эти выводы могут принимать форму ответов да/нет на вопросы о данных (проверка гипотез ), оценивание числовых характеристик данных ( оценка ), описание связей внутри данных ( корреляция ) и моделирование отношений внутри данных (например, с помощью регрессионного анализа ). Вывод может распространяться на прогнозирование , предсказание и оценку ненаблюдаемых значений либо в изучаемой совокупности, либо в связи с ней. Он может включать экстраполяцию и интерполяцию временных рядов или пространственных данных , а также интеллектуальный анализ данных .

Математическая статистика

Математическая статистика — это приложение математики к статистике. Математические методы, используемые для этого, включают математический анализ , линейную алгебру , стохастический анализ , дифференциальные уравнения и теоретико-мерную теорию вероятностей . [11] [12]

История

Джероламо Кардано , пионер математики вероятностей.

Ранние работы по статистическому выводу восходят к арабским математикам и криптографам во время Золотого века ислама между 8 и 13 веками. Аль-Халил (717–786) написал Книгу криптографических сообщений , которая содержит первое использование перестановок и комбинаций , чтобы перечислить все возможные арабские слова с гласными и без них. [13] В своей книге « Рукопись по расшифровке криптографических сообщений» Аль-Кинди дал подробное описание того, как использовать частотный анализ для расшифровки зашифрованных сообщений. Аль-Кинди также сделал самое раннее известное использованиестатистический вывод , в то время как он и более поздние арабские криптографы разработали ранние статистические методы для декодирования зашифрованных сообщений. Ибн Адлан (1187–1268) позже внес важный вклад в использование размера выборки в частотном анализе. [13]

Самые ранние европейские публикации по статистике относятся к 1663 году, когда Джон Граунт опубликовал « Естественные и политические наблюдения за счетами смертности » . [14] Ранние приложения статистического мышления вращались вокруг потребностей государств в том, чтобы основывать политику на демографических и экономических данных, отсюда и его статистическая этимология . Объем дисциплины статистики расширился в начале 19 века, включив сбор и анализ данных в целом. Сегодня статистика широко используется в правительстве, бизнесе, естественных и социальных науках.

Математические основы современной статистики были заложены в 17 веке развитием теории вероятностей Джероламо Кардано , Блезом Паскалем и Пьером де Ферма . Математическая теория вероятности возникла из изучения азартных игр , хотя понятие вероятности уже рассматривалось в средневековом праве и такими философами, как Хуан Карамуэль . [15] Метод наименьших квадратов был впервые описан Адрианом-Мари Лежандром в 1805 году.

Карл Пирсон , основатель математической статистики.

Современная область статистики возникла в конце 19 - начале 20 века в три этапа. [16] Первую волну на рубеже веков возглавили работы Фрэнсиса Гальтона и Карла Пирсона , которые превратили статистику в строгую математическую дисциплину, используемую для анализа не только в науке, но также в промышленности и политике. . Вклад Гальтона включал введение понятий стандартного отклонения , корреляции , регрессионного анализа и применение этих методов к изучению различных характеристик человека — роста, веса, длины ресниц и других. [17] Пирсон разработалКоэффициент корреляции продукта-момента Пирсона , определяемый как момент-произведение, [18] метод моментов для подгонки распределений к выборкам и распределение Пирсона , среди многих других вещей. [19] Гальтон и Пирсон основали Biometrika как первый журнал по математической статистике и биостатистике (тогда называвшейся биометрией), а последний основал первый в мире университетский отдел статистики в Университетском колледже Лондона . [20]

Рональд Фишер ввел термин « нулевая гипотеза » во время эксперимента « Леди, дегустирующая чай », который «никогда не доказывается и не устанавливается, но, возможно, опровергается в ходе экспериментов». [21] [22]

Вторая волна 1910-х и 20-х годов была инициирована Уильямом Сили Госсетом и достигла своей кульминации в озарениях Рональда Фишера , написавшего учебники, которые должны были определить академическую дисциплину в университетах по всему миру. Самыми важными публикациями Фишера были его основополагающая статья 1918 года «Корреляция между родственниками на основе предположения о менделевском наследовании» (в которой впервые использовался статистический термин « дисперсия »), его классическая работа 1925 года « Статистические методы для исследователей » и его 1935 год . [23] [24] [25] где он разработал строгий план экспериментовмодели. Он создал понятия достаточности , вспомогательной статистики , линейного дискриминатора Фишера и информации Фишера . [26] В своей книге 1930 года «Генетическая теория естественного отбора » он применил статистику к различным биологическим концепциям, таким как принцип Фишера [27] (который А.В.Ф. Эдвардс назвал «вероятно, самым знаменитым аргументом в эволюционной биологии ») и побег Фишера [ 28] . ] [29] [30] [31] [32] [33] понятие вполовой отбор об обнаруженном в эволюции эффекте убегания с положительной обратной связью .

Последняя волна, в которой в основном были усовершенствованы и расширены более ранние разработки, возникла в результате совместной работы Эгона Пирсона и Ежи Неймана в 1930-х годах. Они ввели понятия ошибки « типа II », мощности теста и доверительных интервалов . Ежи Нейман в 1934 году показал, что стратифицированная случайная выборка в целом является лучшим методом оценки, чем целенаправленная (квотная) выборка. [34]

Сегодня статистические методы применяются во всех областях, связанных с принятием решений, для получения точных выводов из сопоставленного массива данных и для принятия решений в условиях неопределенности на основе статистической методологии. Использование современных компьютеров ускорило крупномасштабные статистические вычисления, а также сделало возможными новые методы, которые непрактично выполнять вручную. Статистика продолжает оставаться областью активных исследований, например, по проблеме анализа больших данных . [35]

Статистические данные

Сбор данных

Выборка

Когда полные данные переписи не могут быть собраны, статистики собирают выборочные данные, разрабатывая специальные схемы экспериментов и выборки обследований . Сама статистика также предоставляет инструменты для прогнозирования и прогнозирования с помощью статистических моделей .

Чтобы использовать выборку в качестве ориентира для всей совокупности, важно, чтобы она действительно представляла всю совокупность. Репрезентативная выборка гарантирует, что выводы и заключения могут быть безопасно распространены на выборку на совокупность в целом. Основная проблема заключается в определении степени репрезентативности выбранной выборки. Статистика предлагает методы для оценки и корректировки любых систематических ошибок в рамках процедур выборки и сбора данных. Существуют также методы экспериментального дизайна для экспериментов, которые могут уменьшить эти проблемы в начале исследования, усиливая его способность различать правду о населении.

Теория выборки является частью математической дисциплины теории вероятностей . Вероятность используется в математической статистике для изучения выборочных распределений выборочной статистики и, в более общем смысле, свойств статистических процедур . Использование любого статистического метода допустимо, когда рассматриваемая система или совокупность удовлетворяют допущениям метода. Разница в точках зрения между классической теорией вероятностей и теорией выборки, грубо говоря, заключается в том, что теория вероятностей начинает с заданных параметров общей совокупности, чтобы вывестивероятности, относящиеся к образцам. Статистический вывод, однако, движется в противоположном направлении, индуктивно выводя выборки из параметров большей или общей совокупности.

Экспериментальные и наблюдательные исследования

Общая цель проекта статистического исследования состоит в том, чтобы исследовать причинно -следственную связь и, в частности, сделать вывод о влиянии изменений значений предикторов или независимых переменных на зависимые переменные . Существует два основных типа причинно-следственных статистических исследований: экспериментальные исследования и наблюдательные исследования .. В обоих типах исследований наблюдается влияние различий независимой переменной (или переменных) на поведение зависимой переменной. Разница между двумя типами заключается в том, как фактически проводится исследование. Каждый из них может быть очень эффективным. Экспериментальное исследование включает в себя проведение измерений изучаемой системы, манипулирование системой, а затем проведение дополнительных измерений с использованием той же процедуры, чтобы определить, изменили ли манипуляции значения измерений. Напротив, обсервационное исследование не предполагает экспериментальных манипуляций . Вместо этого собираются данные и исследуются корреляции между предикторами и откликом. В то время как инструменты анализа данных лучше всего работают с данными из рандомизированных исследований ., они также применяются к другим видам данных, таким как естественные эксперименты и наблюдения [36] , для которых статистик будет использовать модифицированный, более структурированный метод оценки (например, оценку разницы в различиях и инструментальные переменные , среди многих других), который производить непротиворечивые оценки .

Эксперименты

Основные этапы статистического эксперимента:

  1. Планирование исследования, включая определение количества повторов исследования, с использованием следующей информации: предварительные оценки относительно размера эффектов лечения , альтернативные гипотезы и предполагаемая экспериментальная вариабельность . Необходимо учитывать выбор испытуемых и этику исследования. Статистики рекомендуют, чтобы эксперименты сравнивали (по крайней мере) одно новое лечение со стандартным лечением или контролем, чтобы можно было беспристрастно оценить разницу в эффектах лечения.
  2. Дизайн экспериментов с использованием блокировки для уменьшения влияния смешанных переменных и рандомизированного назначения лечения субъектам, чтобы обеспечить непредвзятую оценку эффектов лечения и экспериментальной ошибки. На этом этапе экспериментаторы и статистики пишут экспериментальный протокол , который будет определять выполнение эксперимента и определяет первичный анализ экспериментальных данных.
  3. Проведение эксперимента в соответствии с экспериментальным протоколом и анализ данных в соответствии с экспериментальным протоколом.
  4. Дальнейшее изучение набора данных вторичного анализа, чтобы предложить новые гипотезы для будущих исследований.
  5. Документирование и представление результатов исследования.

Особую озабоченность вызывают эксперименты над человеческим поведением. В известном Хоторнском исследовании изучались изменения в рабочей среде на Хоторнском заводе Western Electric Company . Исследователи были заинтересованы в том, чтобы определить, повысит ли повышенное освещение производительность рабочих сборочного конвейера . Исследователи сначала измерили продуктивность растения, затем изменили освещение на участке растения и проверили, повлияло ли изменение освещения на продуктивность. Оказалось, что продуктивность действительно улучшилась (в условиях эксперимента). Однако сегодня исследование подвергается резкой критике за ошибки в экспериментальных процедурах, в частности, за отсутствие контрольной группы ислепота . Эффект Хоторна заключается в обнаружении того, что результат (в данном случае производительность труда) изменился благодаря самому наблюдению. Участники исследования в Хоторне стали более продуктивными не потому, что изменилось освещение, а потому, что за ними наблюдали. [37]

Наблюдательное исследование

Примером обсервационного исследования является исследование связи между курением и раком легких. Этот тип исследования обычно использует опрос для сбора наблюдений об интересующей области, а затем выполняет статистический анализ. В этом случае исследователи собирали наблюдения как за курильщиками, так и за некурящими, возможно, посредством когортного исследования , а затем искали количество случаев рака легких в каждой группе. [38] Исследование « случай-контроль » — это еще один тип обсервационного исследования, в котором людей с интересующим исходом (например, раком легких) и без него приглашают принять участие, и собирают истории их воздействия.

Типы данных

Были предприняты различные попытки создать таксономию уровней измерения . Психофизик Стэнли Смит Стивенс определил номинальную, порядковую, интервальную и относительную шкалы. Номинальные измерения не имеют значимого рангового порядка среди значений и допускают любое однозначное (инъективное) преобразование. Порядковые измерения имеют неточные различия между последовательными значениями, но имеют значимый порядок этих значений и допускают любое преобразование, сохраняющее порядок. Интервальные измерения имеют значимые расстояния между измерениями, но нулевое значение является произвольным (как в случае с измерениями долготы и температуры в градусах Цельсия или Фаренгейта ).) и допускают любое линейное преобразование. Измерения отношений имеют как значимое нулевое значение, так и определенные расстояния между различными измерениями и допускают любые преобразования масштабирования.

Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда они группируются вместе как категориальные переменные , тогда как отношения и интервальные измерения группируются вместе как количественные переменные , которые могут быть дискретными или непрерывными из-за их числовой природы. Такие различия часто могут быть слабо связаны с типом данных в информатике, поскольку дихотомические категориальные переменные могут быть представлены с помощью логического типа данных , политомические категориальные переменные с произвольно назначенными целыми числами в целочисленном типе данных .и непрерывные переменные с реальным типом данных, включающим арифметику с плавающей запятой . Но сопоставление типов данных информатики с типами статистических данных зависит от того, какая категоризация последних применяется.

Были предложены и другие классификации. Например, Мостеллер и Тьюки (1977) [39] различали степени, ранги, подсчитанные дроби, подсчеты, суммы и балансы. Nelder (1990) [40] описал непрерывные подсчеты, непрерывные соотношения, коэффициенты подсчета и категориальные режимы данных. (См. также: Chrisman (1998), [41] van den Berg (1991). [42] )

Вопрос о целесообразности применения различных видов статистических методов к данным, полученным в результате различных процедур измерения, осложняется проблемами, связанными с преобразованием переменных и точной интерпретацией исследовательских вопросов. «Взаимосвязь между данными и тем, что они описывают, просто отражает тот факт, что определенные виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. Разумно ли рассматривать преобразование или нет, зависит от вопроса, на который пытаются ответить. ." [43] : 82 

Методы

Описательная статистика

Описательная статистика (в смысле исчисляемого существительного ) представляет собой сводную статистику , которая количественно описывает или обобщает особенности набора информации , [44] в то время как описательная статистика в массовом смысле существительного представляет собой процесс использования и анализа этой статистики. Описательная статистика отличается от выводной статистики (или индуктивной статистики) тем, что описательная статистика направлена ​​на обобщение выборки , а не на использование данных для изучения совокупности , которую, как считается, представляет выборка данных.

Выведенный статистика

Статистический вывод — это процесс использования анализа данных для вывода свойств основного распределения вероятностей . [45] Логический статистический анализ делает выводы о свойствах совокупности , например, путем проверки гипотез и получения оценок. Предполагается, что наблюдаемый набор данных является выборкой из большей совокупности. Логическую статистику можно противопоставить описательной статистике . Описательная статистика занимается исключительно свойствами наблюдаемых данных и не основывается на предположении, что данные поступают из большей совокупности.

Терминология и теория логической статистики

Статистика, оценки и основные величины

Рассмотрим независимые одинаково распределенные (IID) случайные величины с заданным распределением вероятностей : стандартная теория статистического вывода и оценки определяет случайную выборку как случайный вектор , заданный вектором- столбцом этих IID-переменных. [46] Исследуемая совокупность описывается вероятностным распределением, которое может иметь неизвестные параметры.

Статистика — это случайная величина, которая является функцией случайной выборки, но не функцией неизвестных параметров . Однако распределение вероятностей статистики может иметь неизвестные параметры. Рассмотрим теперь функцию неизвестного параметра: оценщик — это статистика, используемая для оценки такой функции. Обычно используемые оценки включают выборочное среднее , несмещенную выборочную дисперсию и выборочную ковариацию .

Случайная величина, которая является функцией случайной выборки и неизвестного параметра, но распределение вероятностей которой не зависит от неизвестного параметра , называется опорной величиной или опорной величиной. Широко используемые опорные точки включают z-оценку , статистику хи-квадрат и t-значение Стьюдента .

Из двух оценок данного параметра более эффективным считается тот, у которого меньше среднеквадратическая ошибка . Кроме того, оценщик называется несмещенным , если его ожидаемое значение равно истинному значению оцениваемого неизвестного параметра, и асимптотически несмещенным, если его ожидаемое значение сходится в пределе к истинному значению такого параметра.

Другие желательные свойства для оценщиков включают: оценщики UMVUE , которые имеют наименьшую дисперсию для всех возможных значений оцениваемого параметра (обычно это свойство легче проверить, чем эффективность) и согласованные оценщики , которые сходятся по вероятности к истинному значению такого параметра. .

Это все еще оставляет вопрос о том, как получить оценки в данной ситуации и провести расчет, было предложено несколько методов: метод моментов , метод максимального правдоподобия , метод наименьших квадратов и более новый метод оценки уравнений .

Нулевая гипотеза и альтернативная гипотеза

Интерпретация статистической информации часто может включать разработку нулевой гипотезы , которая обычно (но не обязательно) заключается в том, что между переменными не существует никакой связи или что с течением времени не произошло никаких изменений. [47] [48]

Лучшая иллюстрация для новичка — затруднительное положение, с которым столкнулся уголовный процесс. Нулевая гипотеза H 0 утверждает, что подсудимый невиновен, тогда как альтернативная гипотеза H 1 утверждает, что подсудимый виновен. Обвинение выдвигается из-за подозрения в виновности. H 0 (статус-кво) противостоит H 1 и сохраняется, если H 1 не подтверждается доказательствами «вне разумного сомнения». Однако «неотклонение H 0 » в данном случае не означает невиновности, а лишь то, что доказательств было недостаточно для осуждения. Таким образом, жюри не обязательно принимает H 0 , но не может отвергнуть H0 . Хотя нельзя «доказать» нулевую гипотезу, можно проверить, насколько она близка к истине, с помощью теста мощности , который проверяет ошибки типа II .

То , что статистики называют альтернативной гипотезой , на самом деле является просто гипотезой, противоречащей нулевой гипотезе .

Ошибка

При работе с нулевой гипотезой распознаются две широкие категории ошибок:

  • Ошибки типа I, когда нулевая гипотеза ложно отвергается, что дает «ложноположительный результат».
  • Ошибки типа II, когда нулевую гипотезу не удается отвергнуть и фактическое различие между популяциями упускается, что дает «ложноотрицательный результат».

Стандартное отклонение относится к степени, в которой отдельные наблюдения в выборке отличаются от центрального значения, такого как выборка или среднее значение генеральной совокупности, в то время как стандартная ошибка относится к оценке разницы между средним значением выборки и средним значением генеральной совокупности.

Статистическая ошибка — это величина, на которую наблюдение отличается от ожидаемого значения . Остаток - это величина , в которой наблюдение отличается от значения, которое оценщик ожидаемого значения предполагает для данной выборки (также называемое предсказанием).

Среднеквадратическая ошибка используется для получения эффективных оценок , широко используемого класса оценок. Среднеквадратическая ошибка — это просто квадратный корень из среднеквадратичной ошибки.

Подходят по методу наименьших квадратов: красным отмечены точки, подлежащие подгонке, синим — подогнанная линия.

Многие статистические методы стремятся минимизировать остаточную сумму квадратов , и они называются « методами наименьших квадратов » в отличие от метода наименьших абсолютных отклонений . Последний придает равный вес малым и большим ошибкам, в то время как первый придает больший вес большим ошибкам. Остаточная сумма квадратов также дифференцируема , что обеспечивает удобное свойство для проведения регрессии . Метод наименьших квадратов, применяемый к линейной регрессии , называется обычным методом наименьших квадратов , а метод наименьших квадратов, применяемый к нелинейной регрессии , называется нелинейным методом наименьших квадратов .. Также в модели линейной регрессии недетерминированная часть модели называется ошибкой, возмущением или, проще говоря, шумом. Как линейная регрессия, так и нелинейная регрессия рассматриваются в полиномиальных методах наименьших квадратов , которые также описывают дисперсию в прогнозе зависимой переменной (ось y) как функцию независимой переменной (ось x) и отклонения (ошибки, шум, возмущения) по расчетной (подобранной) кривой.

Процессы измерения, которые генерируют статистические данные, также подвержены ошибкам. Многие из этих ошибок классифицируются как случайные (шум) или систематические ( предвзятость ), но другие типы ошибок (например, грубая ошибка, например, когда аналитик сообщает неверные единицы измерения) также могут быть важны. Наличие отсутствующих данных или цензура могут привести к необъективным оценкам , и для решения этих проблем были разработаны специальные методы. [49]

Интервальная оценка
Доверительные интервалы : красная линия — истинное значение среднего значения в этом примере, синие линии — случайные доверительные интервалы для 100 реализаций.

Большинство исследований отбирают только часть населения, поэтому результаты не полностью отражают все население. Любые оценки, полученные из выборки, лишь приблизительно соответствуют значению генеральной совокупности. Доверительные интервалы позволяют статистикам выразить, насколько точно оценка выборки соответствует истинному значению для всей совокупности. Часто они выражаются в виде 95% доверительных интервалов. Формально 95-процентный доверительный интервал для значения представляет собой диапазон, в котором, если выборка и анализ повторяются в тех же условиях (получая другой набор данных), интервал будет включать истинное (популяционное) значение в 95 % всех возможных случаев. . Это не означает, что вероятность того, что истинное значение находится в доверительном интервале, составляет 95%. От частотникаС точки зрения перспективы такое утверждение даже не имеет смысла, так как истинное значение не является случайной величиной . Либо истинное значение находится в заданном интервале, либо нет. Однако верно то, что до того, как какие-либо данные будут отобраны и получен план построения доверительного интервала, вероятность того, что еще не рассчитанный интервал будет охватывать истинное значение, составляет 95%: в этот момент пределы интервала являются еще не наблюдаемыми случайными величинами . Один из подходов, который дает интервал, который можно интерпретировать как имеющий заданную вероятность содержания истинного значения, заключается в использовании достоверного интервала из байесовской статистики : этот подход зависит от другого способа интерпретации того, что подразумевается под «вероятностью»., то есть как байесовская вероятность .

В принципе доверительные интервалы могут быть симметричными или асимметричными. Интервал может быть асимметричным, поскольку он работает как нижняя или верхняя граница параметра (левосторонний интервал или правосторонний интервал), но он также может быть асимметричным, поскольку двусторонний интервал построен с нарушением симметрии вокруг оценки. Иногда границы доверительного интервала достигаются асимптотически, и они используются для аппроксимации истинных границ.

Значение

Статистика редко дает простой ответ типа «да/нет» на анализируемый вопрос. Интерпретация часто сводится к уровню статистической значимости, применяемому к числам, и часто относится к вероятности того, что значение точно отвергает нулевую гипотезу (иногда называемое p-значением ).

На этом графике черная линия представляет собой распределение вероятностей для тестовой статистики , критическая область представляет собой набор значений справа от наблюдаемой точки данных (наблюдаемое значение тестовой статистики), а p-значение представлено зеленой областью.

Стандартный подход [46] заключается в проверке нулевой гипотезы против альтернативной гипотезы. Критическая область — это набор значений оценщика, который приводит к опровержению нулевой гипотезы. Таким образом, вероятность ошибки I рода — это вероятность того, что оценка принадлежит критической области при условии, что нулевая гипотеза верна ( статистическая значимость ), а вероятность ошибки II рода — это вероятность того, что оценка не принадлежит заданной критической области. что альтернативная гипотеза верна. Статистическая мощность теста - это вероятность того, что он правильно отклонит нулевую гипотезу, когда нулевая гипотеза ложна.

Ссылка на статистическую значимость не обязательно означает, что общий результат значим в реальных условиях. Например, в большом исследовании лекарства может быть показано, что лекарство оказывает статистически значимое, но очень небольшое положительное действие, так что маловероятно, что лекарство заметно поможет пациенту.

Хотя в принципе приемлемый уровень статистической значимости может быть предметом споров, уровень значимости представляет собой наибольшее p-значение, которое позволяет тесту отклонить нулевую гипотезу. Этот тест логически эквивалентен утверждению, что p-значение — это вероятность, при условии, что нулевая гипотеза верна, наблюдения результата, по крайней мере столь же экстремального, как статистика теста . Следовательно, чем меньше уровень значимости, тем меньше вероятность совершения ошибки I рода.

С этим фреймворком обычно связаны некоторые проблемы (см. критику проверки гипотез ):

  • Разница, которая является высокостатистически значимой, все же может не иметь практического значения, но можно правильно сформулировать тесты, учитывающие это. Один ответ включает в себя выход за пределы сообщения только об уровне значимости , чтобы включить значение p при сообщении о том, отвергается или принимается гипотеза. Однако значение p не указывает на размер или важность наблюдаемого эффекта, а также может показаться, что оно преувеличивает важность незначительных различий в крупных исследованиях. Лучший и все более распространенный подход заключается в сообщении доверительных интервалов . Хотя они производятся на основе тех же расчетов, что и проверки гипотез или p-values, они описывают как размер эффекта, так и окружающую его неопределенность.
  • Ошибка транспонированного условного предложения, также известная как ошибка прокурора : критика возникает из-за того, что подход к проверке гипотезы заставляет отдавать предпочтение одной гипотезе ( нулевой гипотезе ), поскольку оценивается вероятность наблюдаемого результата при нулевой гипотезе, а не вероятность нулевая гипотеза с учетом наблюдаемого результата. Альтернативой этому подходу является байесовский вывод , хотя он требует установления априорной вероятности . [50]
  • Отказ от нулевой гипотезы не означает автоматического подтверждения альтернативной гипотезы.
  • Как и все в выводной статистике , она зависит от размера выборки, и поэтому при толстых хвостах p-значения могут быть серьезно рассчитаны неправильно. [ требуется уточнение ]
Примеры

Вот некоторые хорошо известные статистические тесты и процедуры:

  • Дисперсионный анализ (ANOVA)
  • критерий хи-квадрат
  • Корреляция
  • Факторный анализ
  • Манн-Уитни Ю.
  • Среднеквадратичное взвешенное отклонение (СКВО)
  • Коэффициент корреляции Пирсона произведение-момент
  • Регрессионный анализ
  • Коэффициент ранговой корреляции Спирмена
  • t - критерий Стьюдента
  • Анализ временных рядов
  • Совместный анализ

Исследовательский анализ данных

Исследовательский анализ данных ( EDA ) — это подход к анализу наборов данных для обобщения их основных характеристик, часто с использованием визуальных методов. Статистическая модель может использоваться или нет, но в первую очередь EDA предназначен для того, чтобы увидеть, что данные могут сказать нам помимо формального моделирования или задачи проверки гипотез .

Неправильное использование

Неправильное использование статистики может привести к тонким, но серьезным ошибкам в описании и интерпретации — тонким в том смысле, что даже опытные профессионалы допускают такие ошибки, и серьезным в том смысле, что они могут привести к разрушительным ошибкам в принятии решений. Например, социальная политика, медицинская практика и надежность таких сооружений, как мосты, зависят от правильного использования статистики.

Даже при правильном применении статистических методов результаты могут быть трудны для интерпретации теми, у кого нет опыта. Статистическая значимость тенденции в данных, которая измеряет степень, в которой тенденция может быть вызвана случайными изменениями в выборке, может согласовываться или не согласовываться с интуитивным ощущением ее значимости. Набор базовых статистических навыков (и скептицизма), необходимых людям для правильного обращения с информацией в повседневной жизни, называется статистической грамотностью .

Существует общее мнение, что статистические знания слишком часто преднамеренно используются неправильно , находя способы интерпретации только тех данных, которые благоприятны для выступающего. [51] Недоверие и непонимание статистики связано с цитатой: « Есть три вида лжи: ложь, наглая ложь и статистика ». Неправильное использование статистики может быть как непреднамеренным, так и преднамеренным, и в книге Даррелла Хаффа « Как лгать со статистикой » [ 51] излагается ряд соображений. В попытке пролить свет на использование и неправильное использование статистики проводятся обзоры статистических методов, используемых в определенных областях (например, Warne, Lazo, Ramos, and Ritter (2012)).[52]

Способы избежать неправильного использования статистики включают использование правильных диаграмм и недопущение предвзятости . [53] Неправильное использование может иметь место, когда выводы чрезмерно обобщаются и утверждают, что они репрезентативны для большего, чем они есть на самом деле, часто намеренно или неосознанно игнорируя предвзятость выборки. [54] Гистограммы, возможно, являются самыми простыми в использовании и понимании диаграммами, и их можно сделать либо вручную, либо с помощью простых компьютерных программ. [53] К сожалению, большинство людей не ищут предвзятости или ошибок, поэтому их не замечают. Таким образом, люди часто могут верить в то, что что-то верно, даже если это не очень хорошо представлено . [54]Чтобы данные, собранные из статистики, были правдоподобными и точными, взятая выборка должна быть репрезентативной в целом. [55] По словам Хаффа, «надежность образца может быть разрушена [предвзятостью]… позвольте себе некоторую степень скептицизма». [56]

Чтобы помочь в понимании статистики, Хафф предложил ряд вопросов, которые следует задавать в каждом случае: [51]

  • Кто так говорит? (Есть ли у него/нее топор, чтобы точить?)
  • Откуда он/она знает? (Есть ли у него/нее ресурсы, чтобы знать факты?)
  • Чего не хватает? (Дает ли он/она полную картину?)
  • Кто-то сменил тему? (Он/она предлагает нам правильный ответ на неправильную проблему?)
  • Имеет ли это смысл? (Является ли его/ее вывод логичным и согласуется с тем, что мы уже знаем?)
Проблема смешанных переменных : X и Y могут быть коррелированы не потому, что между ними существует причинно-следственная связь, а потому, что обе они зависят от третьей переменной Z. Z называется смешанным фактором.

Неверная интерпретация: корреляция

Концепция корреляции особенно примечательна из-за потенциальной путаницы, которую она может вызвать. Статистический анализ набора данных часто обнаруживает, что две переменные (свойства) рассматриваемой совокупности имеют тенденцию изменяться вместе, как если бы они были связаны. Например, исследование годового дохода, в котором также учитывается возраст смерти, может обнаружить, что бедные люди, как правило, живут короче, чем богатые. Говорят, что две переменные коррелированы; однако они могут быть или не быть причиной друг друга. Явления корреляции могут быть вызваны третьим, ранее не рассмотренным явлением, называемым скрытой переменной или смешанной переменной .. По этой причине невозможно сразу сделать вывод о наличии причинно-следственной связи между двумя переменными.

Приложения

Прикладная статистика, теоретическая статистика и математическая статистика

Прикладная статистика, иногда называемая статистической наукой, [57] включает описательную статистику и применение выводной статистики. [58] [59] Теоретическая статистика касается логических аргументов, лежащих в основе обоснования подходов к статистическому выводу , а также охватывает математическую статистику . Математическая статистика включает в себя не только манипулирование распределениями вероятностей, необходимое для получения результатов, связанных с методами оценки и вывода, но также различные аспекты вычислительной статистики и планирования экспериментов .

Консультанты по статистике могут помочь организациям и компаниям, у которых нет собственных специалистов, имеющих отношение к их конкретным вопросам.

Машинное обучение и интеллектуальный анализ данных

Модели машинного обучения — это статистические и вероятностные модели, которые фиксируют закономерности в данных с помощью вычислительных алгоритмов.

Статистика в академических кругах

Статистика применима к широкому кругу академических дисциплин , включая естественные и социальные науки , правительство и бизнес. Бизнес-статистика применяет статистические методы в эконометрике , аудите , производстве и операциях, включая улучшение услуг и маркетинговые исследования. [60] Исследование двух журналов по тропической биологии показало, что 12 наиболее часто используемых статистических тестов: дисперсионный анализ (ANOVA), критерий хи-квадрат , T-критерий Стьюдента , линейная регрессия , коэффициент корреляции Пирсона, U -критерий Манна-Уитни ., Критерий Крускала-Уоллиса , Индекс разнообразия Шеннона , Критерий Тьюки , Кластерный анализ , Критерий ранговой корреляции Спирмена и Анализ главных компонентов . [61]

Типичный курс статистики охватывает описательную статистику, вероятность, биномиальное и нормальное распределения , проверку гипотез и доверительных интервалов, линейную регрессию и корреляцию. [62] Современные курсы фундаментальной статистики для студентов бакалавриата сосредоточены на правильном выборе тестов, интерпретации результатов и использовании бесплатного программного обеспечения для статистики . [61]

Статистические вычисления

gretl , пример статистического пакета с открытым исходным кодом

Быстрый и устойчивый рост вычислительной мощности, начиная со второй половины 20-го века, оказал существенное влияние на практику статистической науки. Ранние статистические модели почти всегда были из класса линейных моделей , но мощные компьютеры вкупе с подходящими численными алгоритмами вызвали повышенный интерес к нелинейным моделям (таким как нейронные сети ), а также создание новых типов, таких как обобщенные линейные модели и многоуровневые модели .

Повышение вычислительной мощности также привело к росту популярности ресурсоемких методов, основанных на повторной выборке , таких как тесты перестановки и бутстрап , в то время как такие методы, как выборка Гиббса , сделали использование байесовских моделей более осуществимым. Компьютерная революция имеет последствия для будущего статистики с новым акцентом на «экспериментальную» и «эмпирическую» статистику. В настоящее время доступно большое количество статистического программного обеспечения как общего, так и специального назначения. Примеры доступного программного обеспечения, способного выполнять сложные статистические вычисления, включают такие программы, как Mathematica , SAS , SPSS иР .

Статистика бизнеса

В бизнесе «статистика» является широко используемым инструментом управления и поддержки принятия решений . Он особенно применяется в управлении финансами , управлении маркетингом , а также управлении производством , услугами и операциями . [63] [64] Статистика также широко используется в управленческом учете и аудите . Дисциплина науки управления формализует использование статистики и другой математики в бизнесе. ( Эконометрика — это применение статистических методов к экономическим данным .для того, чтобы дать эмпирическое содержание экономическим отношениям .)

Типичный курс «Бизнес-статистика» предназначен для специалистов по бизнесу и охватывает [65] описательную статистику ( сбор , описание, анализ и обобщение данных), вероятность (обычно биномиальное и нормальное распределения ), проверку гипотез и доверительные интервалы, линейная регрессия и корреляция; (последующие) курсы могут включать прогнозирование , временные ряды , деревья решений , множественную линейную регрессию и другие темы бизнес-аналитики в целом. См. также Бизнес-математика § Университетский уровень .Программы профессиональной сертификации , такие как CFA , часто включают темы статистики.

Статистика, применяемая к математике или искусству

Традиционно статистика занималась выводами с использованием полустандартизированной методологии, которая в большинстве наук была «требуемой для изучения». [ нужна цитата ] Эта традиция изменилась с использованием статистики в нелогическом контексте. То, что когда-то считалось сухим предметом, воспринимаемым во многих областях как требование для получения степени, теперь рассматривается с энтузиазмом. [ по мнению кого? ] Первоначально высмеиваемый некоторыми математическими пуристами, теперь он считается важной методологией в определенных областях.

  • В теории чисел графики рассеяния данных, сгенерированные функцией распределения, могут быть преобразованы с помощью знакомых инструментов, используемых в статистике, для выявления основных закономерностей, которые затем могут привести к гипотезам.
  • Предиктивные методы статистики в прогнозировании , сочетающие теорию хаоса и фрактальную геометрию , могут быть использованы для создания видеоработ. [66]
  • Технологическое искусство Джексона Поллока опиралось на художественные эксперименты, посредством которых художественно раскрывались лежащие в основе распределения в природе. [67] С появлением компьютеров статистические методы были применены для формализации таких естественных процессов, управляемых распространением, для создания и анализа движущегося видеоискусства. [ нужна ссылка ]
  • Методы статистики могут использоваться предикативно в исполнительском искусстве , например, в карточном фокусе, основанном на марковском процессе , который работает только некоторое время, случай которого можно предсказать с помощью статистической методологии.
  • Статистику можно использовать для предикативного создания искусства, как в статистической или стохастической музыке , изобретенной Яннисом Ксенакисом , где музыка зависит от исполнения. Хотя этот тип артистизма не всегда соответствует ожиданиям, его поведение предсказуемо и настраивается с помощью статистики.

Специализированные дисциплины

Статистические методы используются в широком спектре видов научных и социальных исследований, включая: биостатистику , вычислительную биологию , вычислительную социологию , сетевую биологию , социальные науки , социологию и социальные исследования . Некоторые области исследования так широко используют прикладную статистику, что имеют специальную терминологию . К таким дисциплинам относятся:

  • Актуарная наука (оценка рисков в страховой и финансовой отраслях)
  • Прикладная информационная экономика
  • Астростатистика (статистическая оценка астрономических данных)
  • Биостатистика
  • Хемометрика (для анализа данных из химии )
  • Интеллектуальный анализ данных (применение статистики и распознавания образов для извлечения знаний из данных)
  • Наука о данных
  • Демография (статистическое изучение населения)
  • Эконометрика (статистический анализ экономических данных)
  • Энергетическая статистика
  • Инженерная статистика
  • Эпидемиология (статистический анализ заболеваний)
  • География и геоинформационные системы , особенно в пространственном анализе
  • Обработка изображений
  • Юриметрика ( право )
  • Медицинская статистика
  • Политическая наука
  • Психологическая статистика
  • Инженерия надежности
  • Социальная статистика
  • Статистическая механика

Кроме того, существуют определенные виды статистического анализа, которые также разработали свою собственную специализированную терминологию и методологию:

  • Передискретизация Bootstrap  / складного ножа
  • Многомерная статистика
  • Статистическая классификация
  • Структурированный анализ данных
  • Моделирование структурными уравнениями
  • Методология опроса
  • Анализ выживания
  • Статистика в различных видах спорта, особенно в бейсболе (известном как саберметрия) и крикете.

Статистика также является ключевым инструментом в бизнесе и производстве. Он используется для понимания изменчивости систем измерения, процессов управления (как в статистическом управлении процессами или SPC), для обобщения данных и для принятия решений на основе данных. В этих ролях это ключевой инструмент и, пожалуй, единственный надежный инструмент. [ нужна ссылка ]

Смотрите также

  • Оценка численности
  • Глоссарий вероятности и статистики
  • Список академических статистических ассоциаций
  • Список важных публикаций по статистике
  • Список национальных и международных статистических служб
  • Список статистических пакетов (ПО)
  • Список статистических статей
  • Список университетских статистических консультационных центров
  • Обозначения в вероятности и статистике
  • Статистическое образование
  • Всемирный день статистики
Основы и основные области статистики
  • Основы статистики
  • Список статистиков
  • Официальная статистика
  • Многомерный дисперсионный анализ

использованная литература

  1. Викискладе есть медиафайлы по теме статистики . Оксфордский справочник . Издательство Оксфордского университета. Январь 2008 г. ISBN . 978-0-19-954145-4. Архивировано из оригинала 03.09.2020 . Проверено 14 августа 2019 г. .
  2. ^ Ромейн, Ян-Виллем (2014). «Философия статистики» . Стэнфордская энциклопедия философии . Архивировано из оригинала 19 октября 2021 г .. Проверено 3 ноября 2016 г. .
  3. ^ "Кембриджский словарь" . Архивировано из оригинала 22 ноября 2020 г .. Проверено 14 августа 2019 г. .
  4. ^ Додж, Ю. (2006) Оксфордский словарь статистических терминов , Oxford University Press. ISBN 0-19-920613-9 
  5. ^ a b Lund Research Ltd. "Описательная и выводная статистика" . stats.laerd.com. Архивировано из оригинала 26 октября 2020 г .. Проверено 23 марта 2014 г. .
  6. ^ «В чем разница между ошибками проверки гипотез типа I и типа II?» . Образование . Архивировано из оригинала 27 февраля 2017 г. Проверено 27 ноября 2015 г. .
  7. ^ Моисей, Линкольн Э. (1986) Думай и объясняй со статистикой , Addison-Wesley, ISBN 978-0-201-15619-5 . стр. 1–3 
  8. ^ Хейс, Уильям Ли, (1973) Статистика для социальных наук , Холт, Райнхарт и Уинстон, стр.xii, ISBN 978-0-03-077945-9 
  9. ^ Мур, Дэвид (1992). «Преподавание статистики как респектабельный предмет» . В Ф. Гордон; С. Гордон (ред.). Статистика двадцать первого века . Вашингтон, округ Колумбия: Математическая ассоциация Америки. стр.  14–25 . ISBN 978-0-88385-078-7.
  10. ^ Шанс, Бет Л .; Россман, Аллан Дж. (2005). «Предисловие» (PDF) . Исследование статистических концепций, приложений и методов . Даксбери Пресс. ISBN  978-0-495-05064-3. Архивировано (PDF) из оригинала 22 ноября 2020 г .. Проверено 6 декабря 2009 г. .
  11. ^ Лакшмикантам, Д .; Каннан, В. (2002). Справочник по стохастическому анализу и приложениям . Нью-Йорк: М. Деккер. ISBN 0824706609.
  12. ^ Шервиш, Марк Дж. (1995). Теория статистики (Испр. 2-е изд.). Нью-Йорк: Спрингер. ISBN 0387945466.
  13. ^ a b Бромелинг, Лайл Д. (1 ноября 2011 г.). «Отчет о ранних статистических выводах в арабской криптологии». Американский статистик . 65 (4): 255–257. doi : 10.1198/tas.2011.10191 . S2CID 123537702 . 
  14. ^ Уиллкокс, Уолтер (1938) «Основатель статистики». Обзор Международного статистического института 5(4): 321–328. JSTOR  1400906
  15. ^ Дж. Франклин, Наука о предположениях: доказательства и вероятности до Паскаля, Университет Джона Хопкинса, 2002 г.
  16. ^ Хелен Мэри Уокер (1975). Исследования по истории статистического метода . Арно Пресс. ISBN 9780405066283. Архивировано из оригинала 27 июля 2020 г. Проверено 27 июня 2015 г. .
  17. ^ Гальтон, Ф (1877). «Типичные законы наследственности» . Природа . 15 (388): 492–553. Бибкод : 1877Natur..15..492. . дои : 10.1038/015492a0 .
  18. ^ Стиглер, С.М. (1989). «Отчет Фрэнсиса Гальтона об изобретении корреляции» . Статистическая наука . 4 (2): 73–79. дои : 10.1214/сс/1177012580 .
  19. ^ Пирсон, К. (1900). «О критерии того, что данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» . Философский журнал . Серия 5. 50 (302): 157–175. дои : 10.1080/14786440009463897 . Архивировано из оригинала 18 августа 2020 г. Проверено 27 июня 2019 г. .
  20. ^ "Карл Пирсон (1857–1936)" . Департамент статистических наук – Университетский колледж Лондона . Архивировано из оригинала 25 сентября 2008 г.
  21. ^ Фишер | 1971 | loc = Глава II. Принципы экспериментирования, проиллюстрированные психофизическим экспериментом, раздел 8. Нулевая гипотеза
  22. ^ Цитата OED: 1935 RA Fisher, The Design of Experiments ii. 19: «Мы можем говорить об этой гипотезе как о «нулевой гипотезе», а нулевая гипотеза никогда не подтверждается и не устанавливается, но, возможно, опровергается в ходе экспериментов».
  23. Box, JF (февраль 1980 г.). «Р. А. Фишер и план экспериментов, 1922–1926». Американский статистик . 34 (1): 1–7. дои : 10.2307/2682986 . JSTOR 2682986 . 
  24. Йейтс, Ф. (июнь 1964 г.). «Сэр Рональд Фишер и план экспериментов». Биометрия . 20 (2): 307–321. дои : 10.2307/2528399 . JSTOR 2528399 . 
  25. ^ Стэнли, Джулиан С. (1966). «Влияние« Плана экспериментов »Фишера на исследования в области образования тридцать лет спустя». Американский журнал исследований в области образования . 3 (3): 223–229. дои : 10.3102/00028312003003223 . JSTOR 1161806 . S2CID 145725524 .  
  26. ^ Агрести, Алан; Дэвид Б. Хичкок (2005). «Байесовский вывод для категориального анализа данных» (PDF) . Статистические методы и приложения . 14 (3): 298. doi : 10.1007/s10260-005-0121-y . S2CID 18896230 . Архивировано (PDF) из оригинала 19 декабря 2013 г .. Проверено 19 декабря 2013 г. .  
  27. ^ Эдвардс, AWF (1998). «Естественный отбор и соотношение полов: источники Фишера». Американский натуралист . 151 (6): 564–569. дои : 10.1086/286141 . PMID 18811377 . S2CID 40540426 .  
  28. ^ Фишер, Р.А. (1915) Эволюция сексуальных предпочтений. Обзор евгеники (7) 184:192
  29. ^ Фишер, Р.А. (1930) Генетическая теория естественного отбора . ISBN 0-19-850440-3 
  30. ^ Эдвардс, AWF (2000) Перспективы: анекдотические, исторические и критические комментарии по генетике. Американское генетическое общество (154) 1419:1426
  31. ^ Андерссон, Мальте (1994). Половой отбор . Издательство Принстонского университета. ISBN 0-691-00057-3. Архивировано из оригинала 25 декабря 2019 года . Проверено 19 сентября 2019 г. .
  32. ^ Андерссон, М. и Симмонс, Л.В. (2006) Половой отбор и выбор партнера. Тенденции, экология и эволюция (21) 296:302
  33. ^ Gayon, J. (2010) Половой отбор: еще один дарвиновский процесс. Comptes Rendus Biologies (333) 134:144
  34. ^ Нейман, Дж. (1934). «О двух различных аспектах репрезентативного метода: метод стратифицированной выборки и метод целенаправленного отбора». Журнал Королевского статистического общества . 97 (4): 557–625. дои : 10.2307/2342192 . JSTOR 2342192 . 
  35. ^ «Наука в сложном мире — большие данные: возможность или угроза?» . Институт Санта-Фе . Архивировано из оригинала 30 мая 2016 г. Проверено 13 октября 2014 г. .
  36. ^ Фридман, Д.А. (2005) Статистические модели: теория и практика , издательство Кембриджского университета. ISBN 978-0-521-67105-7 
  37. ^ Маккарни Р., Уорнер Дж., Илифф С., ван Хаселен Р., Гриффин М., Фишер П. (2007). «Эффект Хоторна: рандомизированное контролируемое исследование» . БМС Мед Рез Методол . 7 (1): 30. doi : 10.1186/1471-2288-7-30 . ЧВК 1936999 . PMID 17608932 .  
  38. ^ Ротман, Кеннет Дж.; Гренландия, Сандер; Лэш, Тимоти, ред. (2008). "7". Современная эпидемиология (3-е изд.). Липпинкотт Уильямс и Уилкинс. п. 100 . ISBN 9780781755641.
  39. ^ Мостеллер, Ф .; Тьюки, Дж . В. (1977). Анализ данных и регрессия . Бостон: Аддисон-Уэсли.
  40. ^ Нелдер, Дж . А. (1990). Знания, необходимые для компьютеризации анализа и интерпретации статистической информации. В Экспертных системах и искусственном интеллекте: потребность в информации о данных . Отчет Библиотечной ассоциации, Лондон, 23–27 марта.
  41. ^ Крисман, Николас Р. (1998). «Переосмысление уровней измерения для картографии». Картография и географическая информатика . 25 (4): 231–242. дои : 10.1559/152304098782383043 .
  42. ^ Ван ден Берг, Г. (1991). Выбор метода анализа . Лейден: DSWO Press
  43. ^ Рука, ди-джей (2004). Теория и практика измерения: мир через количественную оценку. Лондон: Арнольд.
  44. ^ Манн, Прем С. (1995). Вводная статистика (2-е изд.). Уайли. ISBN 0-471-31009-3.
  45. ^ Аптон, Г., Кук, И. (2008) Оксфордский статистический словарь , OUP. ISBN 978-0-19-954145-4 . 
  46. ^ a b Piazza Elio, Probabilità e Statistica, Esculapio 2007
  47. ^ Эверитт, Брайан (1998). Кембриджский статистический словарь . Кембридж, Великобритания, Нью-Йорк: Издательство Кембриджского университета. ISBN 0521593468.
  48. ^ "Коэн (1994) Земля круглая (p <0,05)" . YourStatsGuru.com. Архивировано из оригинала 05.09.2015 . Проверено 20 июля 2015 г. .
  49. ^ Рубин, Дональд Б.; Литтл, Родерик Дж. А., Статистический анализ с отсутствующими данными, Нью-Йорк: Wiley, 2002 г.
  50. ^ Иоаннидис, JPA (2005). «Почему большинство опубликованных результатов исследований ложны» . ПЛОС Медицина . 2 (8): е124. doi : 10.1371/journal.pmed.0020124 . ПВК 1182327 . PMID 16060722 .  
  51. ^ a b c Хафф, Даррелл (1954) Как лгать со статистикой , WW Norton & Company, Inc., Нью-Йорк. ISBN 0-393-31072-8 
  52. ^ Уорн, Р. Лазо; Рамос, Т .; Риттер, Н. (2012). «Статистические методы, используемые в журналах по обучению одаренных, 2006–2010 гг.». Одаренный ребенок ежеквартально . 56 (3): 134–149. дои : 10.1177/0016986212444122 . S2CID 144168910 . 
  53. ^ a b Дреннан, Роберт Д. (2008). «Статистика в археологии». В Пирсолле, Дебора М. (ред.). Энциклопедия археологии . Elsevier Inc., стр.  2093–2100 . ISBN 978-0-12-373962-9.
  54. ^ a b Коэн, Джером Б. (декабрь 1938 г.). «Неправильное использование статистики». Журнал Американской статистической ассоциации . JSTOR. 33 (204): 657–674. дои : 10.1080/01621459.1938.10502344 .
  55. ^ Фройнд, Дж. Э. (1988). «Современная элементарная статистика». Ссылка на кредо .
  56. ^ Хафф, Даррелл; Ирвинг Гейс (1954). Как лгать со статистикой . Нью-Йорк: Нортон. Надежность образца может быть разрушена [предвзятостью]... позвольте себе некоторую степень скептицизма.
  57. ^ Нелдер, Джон А. (1999). «От статистики к статистической науке» . Журнал Королевского статистического общества. Серия D (Статистик) . 48 (2): 257–269. дои : 10.1111/1467-9884.00187 . ISSN 0039-0526 . JSTOR 2681191 . Архивировано из оригинала 15 января 2022 г .. Проверено 15 января 2022 г. .  
  58. ^ Николетсиас, М.М. (2014) «Статистика: концепции и примеры». ISBN 978-1500815684 
  59. ^ Андерсон, Д. Р.; Суини, ди-джей; Уильямс, Т.А. (1994) Введение в статистику: концепции и приложения , стр. 5–9. Западная группа. ISBN 978-0-314-03309-3 
  60. ^ "Журнал деловой и экономической статистики" . Журнал деловой и экономической статистики . Тейлор и Фрэнсис. Архивировано из оригинала 27 июля 2020 года . Проверено 16 марта 2020 г.
  61. ^ a b Наталья Лоайса Веласкес, Мария Изабель Гонсалес Лутц и Хулиан Монж-Нахера (2011). «Какую статистику следует изучать тропическим биологам?» (PDF) . Revista Biologia Tropical . 59 : 983–992. Архивировано (PDF) из оригинала 19 октября 2020 г .. Проверено 26 апреля 2020 г. .
  62. ^ Пекоз, Эрол (2009). Руководство менеджера по статистике . Эрол Пекоз. ISBN 9780979570438.
  63. ^ «Цели и объем» . Журнал деловой и экономической статистики . Тейлор и Фрэнсис. Архивировано из оригинала 23 июня 2021 года . Проверено 16 марта 2020 г.
  64. ^ "Журнал деловой и экономической статистики" . Журнал деловой и экономической статистики . Тейлор и Фрэнсис. Архивировано из оригинала 27 июля 2020 года . Проверено 16 марта 2020 г.
  65. ^ Доступны многочисленные тексты, отражающие масштабы и охват дисциплины в деловом мире:
    • Шарп, Н. (2014). Бизнес-статистика , Пирсон. ISBN 978-0134705217 
    • Вегнер, Т. (2010). Прикладная бизнес-статистика: методы и приложения на основе Excel, Juta Academic. ISBN 0702172863 
    Два открытых учебника :
    • Холмс, Л., Илловски, Б., Дин, С. (2017). Вводная бизнес-статистика , заархивированная 16 июня 2021 г. в Wayback Machine .
    • Ника, М. (2013). Принципы бизнес-статистики . Архивировано 18 мая 2021 г. в Wayback Machine .
  66. ^ Клайн, Грейсен (2019). Непараметрические статистические методы с использованием R . ЭДТЕХ. ISBN 978-1-83947-325-8. OCLC  1132348139 . Архивировано из оригинала 15 мая 2022 г. Проверено 16 сентября 2021 г. .
  67. ^ Паласиос, Бернардо; Росарио, Альфонсо; Вильгельмус, Моника М .; Зетина, Сандра; Зенит, Роберто (30 октября 2019 г.). «Поллок избегал гидродинамических нестабильностей, рисуя с помощью своей техники капель» . ПЛОС ОДИН . 14 (10): e0223706. Бибкод : 2019PLoSO..1423706P . doi : 10.1371/journal.pone.0223706 . ISSN 1932-6203 . ПМС 6821064 . PMID 31665191 .   

дальнейшее чтение

  • Лидия Денворт, «Серьезная проблема: стандартные научные методы подвергаются критике. Что-нибудь изменится?», Scientific American , vol. 321, нет. 4 (октябрь 2019 г.), стр. 62–67. «Использование значений p в течение почти столетия [с 1925 года] для определения статистической значимости экспериментальных результатов способствовало возникновению иллюзии определенности и [к] кризису воспроизводимости во многих научных областях . Растет решимость реформировать статистический анализ… Некоторые [исследователи] предлагают изменить статистические методы, в то время как другие откажутся от порога для определения «значимых» результатов». (стр. 63.)
  • Барбара Илловски; Сьюзан Дин (2014). Вводная статистика . OpenStax CNX. ISBN 9781938168208.
  • Стокбургер, Дэвид В. «Введение в статистику: концепции, модели и приложения» . Университет штата Миссури (3-е веб-изд.). Архивировано из оригинала 28 мая 2020 года.
  • Статистика OpenIntro. Архивировано 16 июня 2019 г. в Wayback Machine , 3-е издание, авторы Диез, Барр и Четинкая-Рундел.
  • Стивен Джонс, 2010. Статистика в психологии: объяснения без уравнений . Пэлгрейв Макмиллан. ISBN 9781137282392 . 
  • Коэн, Дж. (1990). «Что я узнал (на данный момент)» (PDF) . Американский психолог . 45 (12): 1304–1312. doi : 10.1037/0003-066x.45.12.1304 . Архивировано из оригинала (PDF) 18 октября 2017 г.
  • Гигеренцер, Г. (2004). «Безумная статистика». Журнал социально-экономических исследований . 33 (5): 587–606. doi : 10.1016/j.socec.2004.09.033 .
  • Иоаннидис, JPA (2005). «Почему большинство опубликованных результатов исследований ложны» . ПЛОС Медицина . 2 (4): 696–701. doi : 10.1371/journal.pmed.0040168 . ПВК 1855693  . PMID 17456002 . 

внешние ссылки

  • (Электронная версия): TIBCO Software Inc. (2020 г.). Учебник по науке о данных .
  • Онлайн-обучение статистике: интерактивный мультимедийный курс обучения . Разработано Университетом Райса (ведущий разработчик), Хьюстонским университетом Клир-Лейк, Университетом Тафтса и Национальным научным фондом.
  • Статистические вычислительные ресурсы Калифорнийского университета в Лос-Анджелесе
  • Философия статистики из Стэнфордской энциклопедии философии
Получено с " https://en.wikipedia.org/w/index.php?title=Statistics&oldid=1099541015 "