Статистика

Статистика — это дисциплина, которая занимается сбором, организацией, анализом, интерпретацией и представлением данных . ^[1]^[2]^[3] При применении статистики к научной, промышленной или социальной проблеме принято начинать с изучения статистической совокупности или статистической модели . Популяции могут быть различными группами людей или объектов, такими как «все люди, живущие в стране» или «каждый атом, составляющий кристалл». Статистика имеет дело со всеми аспектами данных, включая планирование сбора данных с точки зрения разработки обследований и экспериментов . ^[4]

Когда данные переписи не могут быть собраны, статистики собирают данные, разрабатывая специальные схемы экспериментов и выборки обследований . Репрезентативная выборка гарантирует, что выводы и заключения могут быть обоснованно распространены на выборку на совокупность в целом. Экспериментальное исследование включает в себя проведение измерений изучаемой системы, манипулирование системой, а затем выполнение дополнительных измерений с использованием той же процедуры, чтобы определить, изменили ли манипуляции значения измерений. Напротив, обсервационное исследование не предполагает экспериментальных манипуляций.

При анализе данных используются два основных статистических метода : описательная статистика , которая обобщает данные из выборки с использованием таких показателей , как среднее значение или стандартное отклонение , и логическая статистика , которая делает выводы на основе данных, подверженных случайным колебаниям (например, ошибки наблюдения, вариация выборки). ^[5] Описательная статистика чаще всего имеет дело с двумя наборами свойств распределения (выборки или генеральной совокупности): центральная тенденция (или местоположение ) стремится охарактеризовать центральное или типичное значение распределения, в то время как дисперсия (илиизменчивость ) характеризует степень отклонения членов распределения от его центра и друг от друга. Выводы по математической статистике делаются в рамках теории вероятностей , которая занимается анализом случайных явлений.

Стандартная статистическая процедура включает сбор данных, ведущих к проверке взаимосвязи между двумя наборами статистических данных или набором данных и синтетическими данными, взятыми из идеализированной модели. Предлагается гипотеза о статистической связи между двумя наборами данных, и она сравнивается как альтернатива идеализированной нулевой гипотезе об отсутствии связи между двумя наборами данных. Отклонение или опровержение нулевой гипотезы осуществляется с помощью статистических тестов, которые количественно определяют, в каком смысле нуль может быть признан ложным, с учетом данных, которые используются в тесте. При работе с нулевой гипотезой распознаются две основные формы ошибок: ошибки типа I (нулевая гипотеза ложно отвергается, что дает «ложноположительный результат») иОшибки типа II (нулевая гипотеза не может быть отвергнута, а фактическая связь между популяциями упускается, что дает «ложноотрицательный результат»). ^[6] С этой структурой связано множество проблем, начиная от получения достаточного размера выборки и заканчивая определением адекватной нулевой гипотезы. ^[5]

Процессы измерения, которые генерируют статистические данные, также подвержены ошибкам. Многие из этих ошибок классифицируются как случайные (шум) или систематические ( предвзятость ), но могут возникать и другие типы ошибок (например, грубая ошибка, например, когда аналитик сообщает неправильные единицы измерения). Наличие отсутствующих данных или цензура могут привести к необъективным оценкам, и для решения этих проблем были разработаны специальные методы.

Статистика — это математическая наука, относящаяся к сбору, анализу, интерпретации или объяснению и представлению данных [ ^7] или как раздел математики . ^[8] Некоторые считают статистику отдельной математической наукой, а не разделом математики. В то время как многие научные исследования используют данные, статистика занимается использованием данных в контексте неопределенности и принятием решений в условиях неопределенности. ^[9]^[10]

Нормальное распределение , очень распространенная плотность вероятности , полезная из-за центральной предельной теоремы .

Диаграммы рассеяния используются в описательной статистике, чтобы показать наблюдаемые взаимосвязи между различными переменными, здесь используется набор данных о цветке ириса .

Джероламо Кардано , пионер математики вероятностей.

Карл Пирсон , основатель математической статистики.

Подходят по методу наименьших квадратов: красным отмечены точки, подлежащие подгонке, синим — подогнанная линия.

Доверительные интервалы : красная линия — истинное значение среднего значения в этом примере, синие линии — случайные доверительные интервалы для 100 реализаций.

На этом графике черная линия представляет собой распределение вероятностей для тестовой статистики , критическая область представляет собой набор значений справа от наблюдаемой точки данных (наблюдаемое значение тестовой статистики), а p-значение представлено зеленой областью.

Проблема смешения переменных : X и Y могут коррелировать не потому, что между ними существует причинно-следственная связь, а потому, что обе они зависят от третьей переменной Z. Z называется смешанным фактором.

gretl , пример статистического пакета с открытым исходным кодом