Анализ данных

Анализ данных - это процесс проверки, очистки , преобразования и моделирования данных с целью обнаружения полезной информации, обоснования выводов и поддержки принятия решений. ^[1] Анализ данных имеет множество аспектов и подходов, охватывающих различные методы под разными названиями, и используется в различных областях бизнеса, науки и социальных наук. ^[2] В современном деловом мире анализ данных играет важную роль в принятии более научных решений и помогает предприятиям работать более эффективно. ^[3]

Интеллектуальный анализ данных - это особый метод анализа данных, который фокусируется на статистическом моделировании и обнаружении знаний для прогнозных, а не чисто описательных целей, в то время как бизнес-аналитика охватывает анализ данных, который в значительной степени опирается на агрегирование, уделяя основное внимание бизнес-информации. ^[4] В статистических приложениях анализ данных можно разделить на описательную статистику , исследовательский анализ данных (EDA) и подтверждающий анализ данных (CDA). ^[5] EDA фокусируется на обнаружении новых характеристик в данных, в то время как CDA фокусируется на подтверждении или опровержении существующих гипотез . ^[6]^[7] Прогнозная аналитикафокусируется на применении статистических моделей для прогнозирования или классификации, в то время как текстовая аналитика применяет статистические, лингвистические и структурные методы для извлечения и классификации информации из текстовых источников, разновидностей неструктурированных данных . Все вышеперечисленное - разновидности анализа данных. ^[8]

Интеграция данных является предшественником анализа данных, а анализ данных тесно связан с визуализацией данных и их распространением. ^[9]

Процесс анализа данных

Блок-схема процесса обработки и анализа данных из журнала Doing Data Science , авторы Schutt & O'Neil (2013 г.)

Под анализом понимается разделение целого на отдельные компоненты для индивидуального изучения. ^[10] Анализ данных - это процесс получения необработанных данных и последующего преобразования их в информацию, полезную для принятия решений пользователями. ^[1] Данные собираются и анализируются, чтобы ответить на вопросы, проверить гипотезы или опровергнуть теории. ^[11]

Статистик Джон Тьюки определил анализ данных в 1961 году следующим образом:

"Процедуры анализа данных, методы интерпретации результатов таких процедур, способы планирования сбора данных, чтобы сделать их анализ более простым, точным или более точным, а также все механизмы и результаты (математической) статистики, которые применяются к анализу данных . " ^[12]

Можно выделить несколько этапов, описанных ниже. Этапы являются итеративными , поскольку обратная связь с более поздними этапами может привести к дополнительной работе на более ранних этапах. ^[13] рамка КРИСПА , используемая в горнодобывающей промышленности данных , имеет аналогичные шаги.

Требования к данным

Данные необходимы в качестве входных данных для анализа, который определяется на основе требований тех, кто руководит анализом, или клиентов (которые будут использовать готовый продукт анализа). ^[14]^[15] Общий тип объекта, по которому будут собираться данные, называется экспериментальной единицей (например, человек или совокупность людей). Могут быть указаны и получены конкретные переменные, относящиеся к населению (например, возраст и доход). Данные могут быть числовыми или категориальными (например, текстовая метка для чисел). ^[13]

Сбор информации

Данные собираются из различных источников. ^[16]^[17] Аналитики могут сообщать о требованиях хранителям данных; например, персонал информационных технологий в организации. ^[18] Данные также могут быть получены с датчиков в окружающей среде, включая камеры трафика, спутники, записывающие устройства и т. Д. Они также могут быть получены посредством интервью, загрузки из онлайн-источников или чтения документации. ^[13]

Обработка данных

Фазы интеллектуального цикла, используемые для преобразования необработанной информации в полезные сведения или знания, концептуально аналогичны этапам анализа данных.

Данные, когда они изначально получены, должны быть обработаны или организованы для анализа. ^[19]^[20] Например, они могут включать размещение данных в строках и столбцах в табличном формате ( известном как структурированные данные ) для дальнейшего анализа, часто с использованием электронных таблиц или статистического программного обеспечения. ^[13]

Очистка данных

После обработки и организации данные могут быть неполными, содержать дубликаты или содержать ошибки. ^[21]^[22] Необходимость очистки данных возникнет из-за проблем в способе ввода и хранения данных. ^[21] Очистка данных - это процесс предотвращения и исправления этих ошибок. Общие задачи включают сопоставление записей, выявление неточности данных, общее качество существующих данных, дедупликацию и сегментацию столбцов. ^[23] Такие проблемы с данными также можно выявить с помощью различных аналитических методов. Например, с финансовой информацией, итоговые значения для определенных переменных могут сравниваться с отдельно опубликованными цифрами, которые считаются надежными. ^[24]^[25] Также могут быть рассмотрены необычные суммы, превышающие или ниже заранее определенных пороговых значений. Существует несколько типов очистки данных, которые зависят от типа данных в наборе; это могут быть номера телефонов, адреса электронной почты, работодатели или другие значения. ^[26]^[27] Методы количественных данных для обнаружения выбросов могут использоваться, чтобы избавиться от данных, которые имеют более высокую вероятность неправильного ввода. ^[28] Средства проверки орфографии текстовых данных могут использоваться для уменьшения количества неправильно набранных слов, однако труднее определить, правильны ли сами слова. ^[29]

Исследовательский анализ данных

После очистки наборов данных их можно проанализировать. Аналитики могут применять различные методы, называемые исследовательским анализом данных , чтобы начать понимать сообщения, содержащиеся в полученных данных. ^[30] Процесс исследования данных может привести к дополнительной очистке данных или дополнительным запросам данных; таким образом, инициализация итерационных фаз, упомянутых в первом абзаце этого раздела. ^[31] Описательная статистика , такая как среднее или медианное значение, может быть сгенерирована, чтобы помочь в понимании данных. ^[32]^[33] Визуализация данных - это также используемый метод, при котором аналитик может исследовать данные в графическом формате, чтобы получить дополнительную информацию о сообщениях в данных. ^[13]

Моделирование и алгоритмы

Математические формулы или модели (известные как алгоритмы ) могут применяться к данным, чтобы определить отношения между переменными; например, используя корреляцию или причинно-следственную связь . ^[34]^[35] В общих чертах, модели могут быть разработаны для оценки конкретной переменной на основе других переменных, содержащихся в наборе данных, с некоторой остаточной ошибкой, зависящей от точности реализованной модели ( например , Данные = Модель + Ошибка) . ^[36]^[11]

Логическая статистика включает использование методов, которые измеряют отношения между конкретными переменными. ^[37] Например, регрессионный анализ может использоваться для моделирования того , дает ли изменение в рекламе ( независимая переменная X ) объяснение изменения продаж ( зависимая переменная Y ). ^[38] С математической точки зрения Y (продажи) является функцией X (рекламы). ^[39] Она может быть описана как ( Y = аХ + Ь + ошибку), где модель разработана таким образом, что ( ) и ( б ) свести к минимуму ошибки , когда модель предсказывает Y для заданного диапазона значений X . ^[40] Аналитики также могут попытаться построить модели, описывающие данные, с целью упрощения анализа и передачи результатов. ^[11]

Информационный продукт

Продукт данных , представляет собой компьютер приложение , которое принимает входные данные и генерирует выходные сигналы , подавая их обратно в окружающую среду. ^[41] Он может быть основан на модели или алгоритме. Например, приложение, которое анализирует данные об истории покупок клиента и использует результаты, чтобы рекомендовать другие покупки, которые могут понравиться покупателю. ^[42]^[13]

Коммуникация

Визуализация данных для понимания результатов анализа данных. ^[43]

Как только данные проанализированы, они могут быть представлены во многих форматах пользователям анализа для поддержки их требований. ^[44] Пользователи могут оставлять отзывы, которые требуют дополнительного анализа. Таким образом, большая часть аналитического цикла является итеративной. ^[13]

При определении того, как передать результаты, аналитик может рассмотреть возможность применения различных методов визуализации данных, чтобы помочь ясно и эффективно донести сообщение до аудитории. ^[45] Визуализация данных использует информационные дисплеи (графики, такие как таблицы и диаграммы), чтобы помочь передать ключевые сообщения, содержащиеся в данных. ^[46] Таблицы - ценный инструмент, позволяющий пользователю запрашивать и сосредотачиваться на конкретных числах; а диаграммы (например, гистограммы или линейные диаграммы) могут помочь объяснить количественные сообщения, содержащиеся в данных. ^[47]

Количественные сообщения

Временной ряд, проиллюстрированный линейной диаграммой, демонстрирующей тенденции в федеральных расходах и доходах США с течением времени.

Диаграмма рассеяния, иллюстрирующая корреляцию между двумя переменными (инфляция и безработица), измеренными в определенные моменты времени.

Стивен Фью описал восемь типов количественных сообщений, которые пользователи могут попытаться понять или передать на основе набора данных и связанных графиков, используемых для передачи сообщения. ^[48] Заказчики, определяющие требования, и аналитики, выполняющие анализ данных, могут рассматривать эти сообщения в ходе процесса. ^[49]

Временной ряд: одна переменная фиксируется за период времени, например, уровень безработицы за 10-летний период. Для демонстрации тренда можно использовать линейный график . ^[50]
Ранжирование: категориальные подразделения ранжируются в порядке возрастания или убывания, например, рейтинг эффективности продаж ( показатель ) по продавцам ( категория , где каждый продавец является категориальным подразделением ) в течение одного периода. ^[51] Для сравнения продавцов можно использовать столбчатую диаграмму . ^[52]
От части к целому: категориальные подразделения измеряются как отношение к целому (т. Е. Процент от 100%). Круговая диаграмма или гистограмма может показать сравнение коэффициентов, таких как доля рынка в лице конкурентов на рынке. ^[53]
Отклонение: категориальные подразделения сравниваются с эталоном, например, сравнение фактических и бюджетных расходов для нескольких отделов бизнеса за определенный период времени. Гистограмма может показать сравнение фактической суммы с контрольной. ^[54]
Частотное распределение: показывает количество наблюдений определенной переменной для данного интервала, например, количество лет, в течение которых доходность фондового рынка находится между такими интервалами, как 0–10%, 11–20% и т. Д. Гистограмма , тип гистограммы, может использоваться для этого анализа. ^[55]
Корреляция: сравнение между наблюдениями, представленными двумя переменными (X, Y), чтобы определить, имеют ли они тенденцию двигаться в одном или противоположных направлениях. Например, построение графика безработицы (X) и инфляции (Y) для выборки месяцев. Для этого сообщения обычно используется диаграмма рассеяния . ^[56]
Номинальное сравнение: сравнение категорийных подразделений без определенного порядка, например, объем продаж по коду продукта. Для этого сравнения можно использовать гистограмму. ^[57]
Географические или геопространственные: сравнение переменной на карте или макете, например, уровень безработицы по штатам или количество людей на разных этажах здания. Картограмма представляет собой типичный графический используется. ^[58]^[59]

Методы анализа количественных данных

Автор Джонатан Кумей рекомендовал ряд лучших практик для понимания количественных данных. ^[60] К ним относятся:

Перед выполнением анализа проверьте исходные данные на наличие аномалий;
Повторно выполните важные вычисления, такие как проверка столбцов данных, которые управляются формулами;
Подтвердите, что основные итоги являются суммой промежуточных итогов;
Проверьте отношения между числами, которые должны быть связаны предсказуемым образом, например, отношения во времени;
Нормализовать числа, чтобы упростить сравнения, например, анализировать суммы на человека или относительно ВВП или в качестве значения индекса относительно базового года;
Разбивайте проблемы на составные части, анализируя факторы, которые привели к результатам, например, анализ DuPont рентабельности собственного капитала. ^[25]

Для исследуемых переменных аналитики обычно получают для них описательную статистику , такую как среднее (среднее), медиана и стандартное отклонение . ^[61] Они также могут анализировать распределение ключевых переменных, чтобы увидеть, как отдельные значения группируются вокруг среднего. ^[62]

Иллюстрация принципа MECE, используемого для анализа данных.

Консультанты McKinsey and Company назвали метод разделения количественной задачи на составные части, названный принципом MECE . ^[63] Каждый слой можно разбить на составляющие; каждый из подкомпонентов должен быть взаимоисключающим друг друга и вместе составлять слой над ними. ^[64] Отношения называются «взаимоисключающими и коллективно исчерпывающими» или MECE. Например, прибыль по определению можно разделить на общий доход и общие затраты. ^[65] В свою очередь, общий доход может быть проанализирован по его компонентам, таким как доход подразделений A, B и C (которые исключают друг друга), и должен добавляться к общему доходу (в совокупности исчерпывающий). ^[66]

Аналитики могут использовать надежные статистические измерения для решения определенных аналитических задач. ^[67] Проверка гипотез используется, когда аналитик выдвигает определенную гипотезу об истинном положении дел и собирает данные, чтобы определить, является ли это положение дел истинным или ложным. ^[68]^[69] Например, гипотеза может заключаться в том, что «Безработица не влияет на инфляцию», что относится к экономической концепции, называемой кривой Филлипса . ^[70] Проверка гипотез включает рассмотрение вероятности ошибок типа I и типа II , которые связаны с тем, поддерживают ли данные принятие или отклонение гипотезы. ^[71]^[72]

Регрессионный анализ может использоваться, когда аналитик пытается определить степень, в которой независимая переменная X влияет на зависимую переменную Y (например, «В какой степени изменения уровня безработицы (X) влияют на уровень инфляции (Y)?»). ^[73] Это попытка смоделировать или подогнать уравнение линии или кривой к данным, так что Y является функцией X. ^[74]^[75]

Анализ необходимых условий (NCA) может использоваться, когда аналитик пытается определить, в какой степени независимая переменная X допускает переменную Y (например, «В какой степени определенный уровень безработицы (X) необходим для определенного уровня инфляции (Y)» ? "). ^[73] В то время как (множественный) регрессионный анализ использует аддитивную логику, где каждая X-переменная может давать результат, а X могут компенсировать друг друга (их достаточно, но не обязательно), ^[76] анализ необходимых условий (NCA) использует логику необходимости. , где одна или несколько X-переменных позволяют результату существовать, но могут не дать его (они необходимы, но недостаточны). Должны быть выполнены все необходимые условия, компенсация невозможна. ^[77]

Аналитическая деятельность пользователей данных

Пользователи могут иметь определенные точки интереса в наборе данных, в отличие от общего обмена сообщениями, описанного выше. Такие низкоуровневые аналитические действия пользователей представлены в следующей таблице. Таксономия также может быть организована по трем направлениям деятельности: получение значений, поиск точек данных и упорядочение точек данных. ^[78]^[79]^[80]^[81]

#	Задача	Общее описание	Pro Forma Abstract	Примеры
1	Получить значение	Учитывая набор конкретных случаев, найдите атрибуты этих случаев.	Каковы значения атрибутов {X, Y, Z, ...} в случаях данных {A, B, C, ...}?	- Какой пробег на галлон у Ford Mondeo? - Как долго длится фильм «Унесенные ветром»?
2	Фильтр	Учитывая некоторые конкретные условия для значений атрибутов, найдите варианты данных, удовлетворяющие этим условиям.	Какие варианты данных удовлетворяют условиям {A, B, C ...}?	- Какие злаки Kellogg имеют высокое содержание клетчатки? - Какие комедии отмечены наградами? - Какие фонды уступили SP-500?
3	Вычислить производное значение	Учитывая набор кейсов данных, вычислите агрегированное числовое представление этих кейсов данных.	Каково значение функции агрегирования F для данного набора S случаев данных?	- Какая в среднем калорийность хлопьев Post? - Каков валовой доход всех магазинов вместе взятых? - Сколько сейчас производителей автомобилей?
4	Найдите экстремум	Найдите в наборе данных кейсы с экстремальным значением атрибута в его диапазоне.	Каковы верхние / нижние N случаев данных по отношению к атрибуту A?	- Какая машина с максимальным расходом топлива? - Какой режиссер / фильм получил больше всего наград? - У какого фильма Marvel Studios самая последняя дата выхода?
5	Сортировать	Учитывая набор вариантов данных, ранжируйте их в соответствии с некоторой порядковой метрикой.	Каков порядок сортировки набора S наблюдений данных в соответствии с их значением атрибута A?	- Заказ автомобилей по весу. - Оцените крупы по калорийности.
6	Определить диапазон	Учитывая набор вариантов данных и интересующий атрибут, найдите диапазон значений в наборе.	Каков диапазон значений атрибута A в наборе S кейсов данных?	- Какой диапазон длин фильмов? - Какая у машины мощность в лошадиных силах? - Какие актрисы есть в наборе данных?
7	Охарактеризуйте распространение	Учитывая набор случаев данных и интересующий количественный атрибут, охарактеризуйте распределение значений этого атрибута по набору.	Каково распределение значений атрибута A в наборе S случаев данных?	- Каково распределение углеводов в злаках? - Каков возрастной состав покупателей?
8	Найдите аномалии	Идентифицируйте любые аномалии в данном наборе случаев данных относительно данной взаимосвязи или ожидания, например, статистические выбросы.	Какие кейсы данных в наборе S кейсов данных имеют неожиданные / исключительные значения?	- Есть ли исключения в соотношении мощности и ускорения? - Есть ли выбросы в белке?
9	Кластер	По заданному набору случаев данных найдите кластеры с похожими значениями атрибутов.	Какие варианты данных в наборе S наборов данных аналогичны по значению для атрибутов {X, Y, Z, ...}?	- Существуют ли группы злаков с одинаковым содержанием жира / калорий / сахара? - Есть ли кластер типичной длины пленки?
10	Соотносить	Учитывая набор вариантов данных и два атрибута, определите полезные отношения между значениями этих атрибутов.	Какова корреляция между атрибутами X и Y для данного набора S случаев данных?	- Есть ли корреляция между углеводами и жирами? - Есть ли корреляция между страной происхождения и MPG? - Есть ли у разных полов предпочтительный способ оплаты? - Есть ли тенденция увеличения продолжительности фильмов с годами?
11	Контекстуализация ^[81]	Учитывая набор кейсов данных, найдите контекстную релевантность данных для пользователей.	Какие кейсы данных в наборе S кейсов данных релевантны контексту текущего пользователя?	- Существуют ли группы ресторанов, в которых есть продукты, основанные на моем текущем потреблении калорий?

Препятствия на пути к эффективному анализу

Препятствия на пути к эффективному анализу могут существовать среди аналитиков, выполняющих анализ данных, или среди аудитории. Отличить факты от мнения, когнитивные предубеждения и неумелость - все это проблемы для надежного анализа данных. ^[82]

Сбивающие с толку факт и мнение

Вы имеете право на собственное мнение, но не имеете права на собственные факты.

Дэниел Патрик Мойнихан

Эффективный анализ требует получения соответствующих фактов, чтобы ответить на вопросы, поддержать вывод или официальное мнение или проверить гипотезы . ^[83]^[84] Факты по определению неопровержимы, а это означает, что любой человек, участвующий в анализе, должен иметь возможность согласиться с ними. ^[85] Например, в августе 2010 года Бюджетное управление Конгресса (CBO) подсчитало, что продление налоговых сокращений Буша 2001 и 2003 годов на период 2011–2020 годов добавит к государственному долгу примерно 3,3 триллиона долларов. ^[86] Каждый должен быть в состоянии согласиться с тем, что действительно это то, что сообщила CBO; они все могут изучить отчет. Это факт. Согласны или не согласны люди с CBO - их собственное мнение. ^[87]

Другой пример: аудитор публичной компании должен прийти к официальному мнению о том, является ли финансовая отчетность публично торгуемых корпораций «достоверной во всех существенных отношениях». ^[88] Это требует обширного анализа фактических данных и доказательств в поддержку их мнения. При переходе от фактов к мнениям всегда существует вероятность того, что мнение ошибочно . ^[89]

Когнитивные предубеждения

Существует множество когнитивных искажений, которые могут отрицательно повлиять на анализ. Например, предвзятость подтверждения - это тенденция искать или интерпретировать информацию таким образом, чтобы подтвердить свои предубеждения. ^[90] Кроме того, люди могут дискредитировать информацию, не подтверждающую их взгляды. ^[91]

Аналитики могут быть специально обучены тому, чтобы знать об этих предубеждениях и способах их преодоления. ^[92] В своей книге « Психология анализа интеллекта» бывший аналитик ЦРУ Ричардс Хойер написал, что аналитикам следует четко очерчивать свои предположения и цепочки умозаключений и указывать степень и источник неопределенности, связанной с выводами. ^[93] Он подчеркнул процедуры, помогающие выявлять и обсуждать альтернативные точки зрения. ^[94]

Безграмотность

Эффективные аналитики, как правило, владеют множеством численных методов. Однако аудитория может не обладать такой грамотностью с числами или счетом ; их называют бесчисленными. ^[95] Лица, передающие данные, также могут пытаться ввести в заблуждение или дезинформировать, умышленно используя неверные числовые методы. ^[96]

Например, рост или падение числа не может быть ключевым фактором. Более важным может быть число относительно другого числа, например, размер государственных доходов или расходов относительно размера экономики (ВВП) или сумма затрат относительно доходов в корпоративной финансовой отчетности. ^[97] Этот численный метод называется нормализацией ^[25] или общим размером. Аналитики используют множество таких методов, будь то поправка на инфляцию (например, сравнение реальных и номинальных данных) или с учетом прироста населения, демографии и т. Д. ^[98] Аналитики применяют различные методы для решения различных количественных сообщений, описанных в раздел выше. ^[99]

Аналитики также могут анализировать данные при различных предположениях или сценариях. Например, когда аналитики проводят анализ финансовой отчетности , они часто пересматривают финансовую отчетность с учетом различных допущений, чтобы помочь прийти к оценке будущего денежного потока, который затем они дисконтируют до приведенной стоимости на основе некоторой процентной ставки, чтобы определить оценку компания или ее акции. ^[100]^[101] Точно так же CBO анализирует влияние различных вариантов политики на государственные доходы, расходы и дефицит, создавая альтернативные сценарии будущего для ключевых мер. ^[102]

Другие темы

Умные здания

Подход с аналитикой данных можно использовать для прогнозирования энергопотребления в зданиях. ^[103] Различные этапы процесса анализа данных выполняются для реализации интеллектуальных зданий, где операции по управлению и контролю здания, включая отопление, вентиляцию, кондиционирование, освещение и безопасность, выполняются автоматически, имитируя потребности пользователей здания. и оптимизация таких ресурсов, как энергия и время. ^[104]

Аналитика и бизнес-аналитика

Аналитика - это «широкое использование данных, статистического и количественного анализа, объяснительных и прогнозных моделей и управления на основе фактов для принятия решений и действий». Это подмножество бизнес-аналитики , которая представляет собой набор технологий и процессов, использующих данные для понимания и анализа эффективности бизнеса для принятия решений. ^[105]

Образование

Аналитическая деятельность пользователей визуализации данных

В сфере образования большинство преподавателей имеют доступ к системе данных для анализа данных об учащихся. ^[106] Эти системы данных представляют данные преподавателям в формате данных, отпускаемых без рецепта (встраивание этикеток, дополнительная документация и справочная система, а также принятие ключевых решений по упаковке / отображению и содержанию) для повышения точности анализа данных преподавателями. ^[107]

Заметки для практикующих

Этот раздел содержит довольно технические объяснения, которые могут помочь практикам, но выходят за рамки типичной статьи в Википедии. ^[108]

Анализ исходных данных

Наиболее важное различие между этапом анализа исходных данных и этапом основного анализа заключается в том, что во время анализа исходных данных человек воздерживается от любого анализа, который направлен на ответ на исходный вопрос исследования. ^[109] На этапе анализа исходных данных руководствуются следующими четырьмя вопросами: ^[110]

Качество данных

Качество данных следует проверять как можно раньше. Качество данных можно оценить несколькими способами с использованием различных типов анализа: подсчет частоты, описательная статистика (среднее значение, стандартное отклонение, медиана), нормальность (асимметрия, эксцесс, частотные гистограммы), требуется нормальное вменение . ^[111]

Анализ экстремальных наблюдений : отдельные наблюдения в данных анализируются, чтобы увидеть, не нарушают ли они распределение. ^[112]
Сравнение и исправление различий в схемах кодирования: переменные сравниваются со схемами кодирования переменных, внешних по отношению к набору данных, и, возможно, исправляются, если схемы кодирования не сопоставимы. ^[113]
Тест на дисперсию общепринятого метода .

Выбор анализов для оценки качества данных на этапе первоначального анализа данных зависит от анализа, который будет проводиться на этапе основного анализа. ^[114]

Качество измерений

Качество измерительных инструментов следует проверять только на этапе анализа исходных данных, когда это не является предметом внимания или исследовательским вопросом исследования. ^[115]^[116] Следует проверить, соответствует ли структура средств измерений структуре, указанной в литературе.

Есть два способа оценить качество измерения:

Подтверждающий факторный анализ
Анализ однородности ( внутренней согласованности ), который дает представление о надежности измерительного прибора. ^[117] В ходе этого анализа проверяются отклонения элементов и шкал, α Кронбаха шкал и изменение альфы Кронбаха, когда элемент будет удален из шкалы ^[118]

Начальные преобразования

После оценки качества данных и измерений можно принять решение о вменении недостающих данных или о выполнении начальных преобразований одной или нескольких переменных, хотя это также можно сделать на этапе основного анализа. ^[119]
Возможные преобразования переменных: ^[120]

Преобразование квадратного корня (если распределение умеренно отличается от нормального)
Лог-преобразование (если распределение существенно отличается от нормального)
Обратное преобразование (если распределение сильно отличается от нормального)
Сделать категориальным (порядковым / дихотомическим) (если распределение сильно отличается от нормального и никакие преобразования не помогают)

Выполнение исследования соответствовало намерениям дизайна исследования?

Следует проверить успешность процедуры рандомизации , например, проверив, одинаково ли распределены фоновые и основные переменные внутри и между группами. ^[121]
Если в исследовании не требовалось или не использовалась процедура рандомизации, следует проверить успешность неслучайной выборки, например, путем проверки того, все ли подгруппы представляющей интерес совокупности представлены в выборке. ^[122]
Другие возможные искажения данных, которые следует проверить:

отсев (это должно быть выявлено на этапе анализа исходных данных)
Отсутствие ответа по заданию (независимо от того, является ли это случайным или нет, следует оценить на этапе первоначального анализа данных)
Качество лечения (с помощью манипуляционных проверок ). ^[123]

Характеристики выборки данных

В любом отчете или статье должна быть точно описана структура выборки. ^[124]^[125] Особенно важно точно определить структуру выборки (и, в частности, размер подгрупп), когда анализ подгрупп будет выполняться на этапе основного анализа. ^[126]
Характеристики выборки данных можно оценить, посмотрев на:

Базовая статистика важных переменных
Диаграммы разброса
Корреляции и ассоциации
Перекрестные таблицы ^[127]

Завершающий этап анализа исходных данных

На заключительном этапе результаты анализа исходных данных документируются, и принимаются необходимые, предпочтительные и возможные корректирующие действия. ^[128]
Кроме того, исходный план анализа основных данных может и должен быть уточнен или переписан. ^[129]^[130]
Для этого можно и нужно принять несколько решений относительно анализа основных данных:

В случае ненормальных : следует преобразовывать переменные; сделать переменные категориальными (порядковыми / дихотомическими); адаптировать метод анализа?
В случае отсутствия данных : следует пренебречь или вменять недостающие данные; какой метод вменения следует использовать?
В случае выбросов : следует ли использовать надежные методы анализа?
В случае, если элементы не соответствуют масштабу: следует ли адаптировать измерительный инструмент, исключив элементы, или, скорее, обеспечить сопоставимость с другими (видами использования) измерительным инструментом (-ами)?
В случае (слишком) малых подгрупп: следует ли отказаться от гипотезы о межгрупповых различиях или использовать методы малых выборок, такие как точные тесты или бутстреппинг ?
В случае, если процедура рандомизации кажется неправильной: можно и нужно ли рассчитывать оценки склонности и включать их в качестве ковариат в основной анализ? ^[131]

Анализ

На этапе анализа исходных данных можно использовать несколько анализов: ^[132]

Одномерная статистика (одна переменная)
Двумерные ассоциации (корреляции)
Графические методы (точечные диаграммы)

При анализе важно принимать во внимание уровни измерения переменных, поскольку для каждого уровня доступны специальные статистические методы: ^[133]

Номинальные и порядковые переменные
- Подсчет частоты (числа и проценты)
- Ассоциации
  - обходы (перекрестные таблицы)
  - иерархический логлинейный анализ (максимум 8 переменных)
  - логлинейный анализ (для выявления релевантных / важных переменных и возможных искажающих факторов)
- Точные тесты или начальная загрузка (в случае небольших подгрупп)
- Вычисление новых переменных
Непрерывные переменные
- Распределение
  - Статистика (M, SD, дисперсия, асимметрия, эксцесс)
  - Стволовые и листовые дисплеи
  - Коробчатые диаграммы

Нелинейный анализ

Нелинейный анализ часто необходим, когда данные записываются из нелинейной системы . Нелинейные системы могут проявлять сложные динамические эффекты, включая бифуркации , хаос , гармоники и субгармоники, которые невозможно проанализировать с помощью простых линейных методов. Нелинейный анализ данных тесно связан с идентификацией нелинейных систем . ^[134]

Анализ основных данных

На этапе основного анализа выполняются анализы, направленные на ответ на вопрос исследования, а также любой другой соответствующий анализ, необходимый для написания первого проекта отчета об исследовании. ^[135]

Исследовательский и подтверждающий подходы

На этапе основного анализа может быть использован исследовательский или подтверждающий подход. Обычно подход определяется до сбора данных. ^[136] При исследовательском анализе перед анализом данных не формулируется четкая гипотеза, и в данных проводится поиск моделей, которые хорошо описывают данные. ^[137] В подтверждающем анализе проверяются четкие гипотезы о данных. ^[138]

Исследовательский анализ данных следует интерпретировать осторожно. При одновременном тестировании нескольких моделей высока вероятность того, что хотя бы одна из них будет значимой, но это может быть связано с ошибкой 1-го типа . ^[139] Важно всегда корректировать уровень значимости при тестировании нескольких моделей, например, с поправкой Бонферрони . ^[140] Кроме того, не следует сопровождать исследовательский анализ подтверждающим анализом в том же наборе данных. ^[141] Исследовательский анализ используется для поиска идей для теории, но не для проверки этой теории. ^[141] Если в наборе данных обнаружена исследовательская модель, то последующий за этим анализом подтверждающий анализ в том же наборе данных может просто означать, что результаты подтверждающего анализа связаны с той же ошибкой 1-го типа, которая привела к исследовательской модели. в первую очередь. ^[141] Таким образом, подтверждающий анализ не будет более информативным, чем исходный исследовательский анализ. ^[142]

Стабильность результатов

Важно получить некоторое представление о том, насколько обобщаемы результаты. ^[143] Хотя это часто бывает трудно проверить, можно посмотреть на стабильность результатов. Являются ли результаты надежными и воспроизводимыми? Это можно сделать двумя основными способами. ^[144]

Перекрестная проверка . Разделив данные на несколько частей, мы можем проверить, распространяется ли анализ (например, подобранная модель), основанный на одной части данных, на другую часть данных. ^[145] Перекрестная проверка, как правило, неуместна, если есть корреляции в данных, например, с панельными данными . ^[146] Следовательно, иногда необходимо использовать другие методы проверки. Для получения дополнительной информации по этой теме см. Проверка статистической модели . ^[147]
Анализ чувствительности . Процедура для изучения поведения системы или модели при (систематическом) изменении глобальных параметров. Один из способов сделать это - самозагрузить . ^[148]

Бесплатное программное обеспечение для анализа данных

Среди известных бесплатных программ для анализа данных:

DevInfo - система баз данных, одобренная Группой развития Организации Объединенных Наций для мониторинга и анализа человеческого развития. ^[149]
ELKI - фреймворк интеллектуального анализа данных на Java с функциями визуализации, ориентированными на интеллектуальный анализ данных.
KNIME - Konstanz Information Miner, удобный и комплексный фреймворк для анализа данных.
Orange - инструмент визуального программирования с интерактивной визуализацией данных и методами статистического анализа данных, интеллектуального анализа данных и машинного обучения .
Pandas - библиотека Python для анализа данных.
PAW - Фреймворк для анализа данных FORTRAN / C, разработанный в ЦЕРНе .
R - язык программирования и программная среда для статистических вычислений и графики. ^[150]
ROOT - фреймворк для анализа данных C ++, разработанный в CERN .
SciPy - библиотека Python для анализа данных.
Джулия - язык программирования, хорошо подходящий для численного анализа и вычислений.

Международные конкурсы по анализу данных

Различные компании или организации проводят конкурсы по анализу данных, чтобы побудить исследователей использовать свои данные или решить конкретный вопрос с помощью анализа данных. ^[151]^[152] Вот несколько примеров известных международных конкурсов по анализу данных. ^[153]

Конкурс Kaggle, проводимый Kaggle ^[154]
Конкурс анализа данных LTPP, проводимый FHWA и ASCE . ^[155]^[156]

Смотрите также

Актуарная наука
Аналитика
Большое количество данных
Бизнес-аналитика
Цензура (статистика)
Вычислительная физика
Получение данных
Смешивание данных
Управление данными
Сбор данных
Архитектура представления данных
Наука о данных
Цифровая обработка сигналов
Уменьшение размеров
Ранняя оценка случая
Исследовательский анализ данных
Фурье-анализ
Машинное обучение
Многолинейный PCA
Мультилинейное подпространственное обучение
Многосторонний анализ данных
Поиск ближайшего соседа
Идентификация нелинейной системы
Прогнозная аналитика
Анализ главных компонентов
Качественное исследование
Научные вычисления
Анализ структурированных данных (статистика)
Идентификация системы
Метод испытания
Текстовая аналитика
Неструктурированные данные
Вейвлет
Список компаний, занимающихся большими данными

дальнейшее чтение

Адер, HJ и Мелленберг, GJ (с участием DJ Hand) (2008). Консультации по методам исследования: помощник консультанта . Huizen, Нидерланды: Johannes van Kessel Publishing.
Чемберс, Джон М .; Кливленд, Уильям С .; Кляйнер, Бит; Тьюки, Пол А. (1983). Графические методы анализа данных , Wadsworth / Duxbury Press. ISBN 0-534-98052-X
Фанданго, Армандо (2008). Анализ данных Python, 2-е издание . Packt Publishers.
Джуран, Джозеф М .; Годфри, А. Блэнтон (1999). Справочник Джурана по качеству, 5-е издание. Нью-Йорк: Макгроу Хилл. ISBN 0-07-034003-X
Льюис-Бек, Майкл С. (1995). Анализ данных: введение , Sage Publications Inc, ISBN 0-8039-5772-6
NIST / SEMATECH (2008) Справочник по статистическим методам ,
Пыздек, Т. (2003). Справочник по качеству , ISBN 0-8247-4614-7
Ричард Верьярд (1984). Прагматический анализ данных . Оксфорд: Научные публикации Блэквелла. ISBN 0-632-01311-7
Табачник, Б.Г.; Фиделл, LS (2007). Использование многомерной статистики, 5-е издание . Бостон: Pearson Education, Inc. / Аллин и Бэкон, ISBN 978-0-205-45938-4

[Auerbach_Publications-1] «Преобразование неструктурированных данных в полезную информацию» , Big Data, Mining, and Analytics , Auerbach Publications, стр. 227–246, 2014-03-12, doi : 10.1201 / b16666-14 , ISBN 978-0-429-09529-0, получено 2021-05-29

[2] «Многогранность корреляционных функций» , анализ данных Методы физических ученых , Cambridge University Press, стр 526-576, 2017 год,. Да : 10,1017 / +9781108241922,013 , ISBN 978-1-108-41678-8, получено 2021-05-29

[3] Перейти ↑ Xia, BS, & Gong, P. (2015). Обзор бизнес-аналитики посредством анализа данных. Бенчмаркинг , 21 (2), 300-311. DOI: 10.1108 / BIJ-08-2012-0050

[4] Изучение анализа данных

[5] «Правила кодирования данных и исследовательского анализа (EDA) для статистических допущений исследовательского анализа данных (EDA)» , SPSS для промежуточной статистики , Routledge, стр. 42–67, 2004-08-16, doi : 10.4324 / 9781410611420-6 , ISBN 978-1-4106-1142-0, получено 2021-05-29

[6] SPIE (2014-10-01). «Новый европейский вызов ИКТ фокусируется на PIC, лазерах, передаче данных» . SPIE Professional . DOI : 10.1117 / 2.4201410.10 . ISSN 1994-4403 .

[7] Самандар, Петерссон, София Свантессон (2017). Skapandet av förtroende inom eWOM: En studie av profilbildensffekt ur ett könsperspektiv . Högskolan i Gävle, Företagsekonomi. OCLC 1233454128 .

[8] Спокойной ночи, Джеймс (13.01.2011). «Прогноз для предиктивной аналитики: все горячее и горячее» . Статистический анализ и интеллектуальный анализ данных: журнал ASA Data Science . 4 (1): 9–10. DOI : 10.1002 / sam.10106 . ISSN 1932-1864 .

[9] Шерман, Рик (4 ноября 2014 г.). Руководство по бизнес-аналитике: от интеграции данных до аналитики . Амстердам. ISBN 978-0-12-411528-6. OCLC 894555128 .

[10] Поле, Джон (2009), "Деление прослушивания на его компоненту" , Прослушивание языка класс , Кембридж:. Cambridge University Press, стр 96-109, DOI : 10,1017 / cbo9780511575945.008 , ISBN 978-0-511-57594-5, получено 2021-05-29

[Judd_and_McClelland_1989-11] а б в Джадд, Чарльз и Макклеланд, Гэри (1989). Анализ данных . Харкорт Брейс Йованович. ISBN 0-15-516765-0.

[12] Джон Тьюки-Будущее анализа данных-июль 1961 г.

[Schutt_&_O'Neil-13] Б с д е е г Шутт, Рэйчел; О'Нил, Кэти (2013). Занимаемся наукой о данных . O'Reilly Media . ISBN 978-1-449-35865-5.

[14] «ИСПОЛЬЗОВАНИЕ ДАННЫХ» , Справочник по анализу нефтепродуктов , Хобокен, Нью-Джерси: John Wiley & Sons, Inc, стр. 296–303, 2015-02-06, doi : 10.1002 / 9781118986370.ch18 , ISBN 978-1-118-98637-0, получено 2021-05-29

[15] автор., Эйнсворт, Пенн (20 мая 2019 г.). Введение в бухгалтерский учет: комплексный подход . ISBN 978-1-119-60014-5. OCLC 1097366032 .

[16] 1954-, Марго, Роберт А. (Роберт Эндрю) (2000). Заработная плата и рынки труда в США, 1820-1860 гг . Издательство Чикагского университета. ISBN 0-226-50507-3. OCLC 41285104 .CS1 maint: числовые имена: список авторов ( ссылка )

[17] Олусола, Джонсон Адедеджи; Шот, Адебола Адекунле; Уигман, Абделлах; Исайфан, Рима Дж. (7 мая 2021 г.). «Таблица 1: Тип данных и источники данных, собранных для этого исследования» . PeerJ . 9 : e11387. DOI : 10,7717 / peerj.11387 / таблица-1 . Проверено 29 мая 2021 .

[18] МакФерсон, Дерек (2019-10-16), "Перспектива в области информационных технологий аналитики" , стратегия данных в колледжах и университетах , Routledge, стр 168-183,. DOI : 10,4324 / 9780429437564-12 , ISBN 978-0-429-43756-4, получено 2021-05-29

[19] 1959-, Нельсон, Стивен Л. (2014). Анализ данных Excel для чайников . Вайли. ISBN 978-1-118-89810-9. OCLC 877772392 .CS1 maint: числовые имена: список авторов ( ссылка )

[20] «Рисунок 3 - исходные данные 1. Необработанные и обработанные значения, полученные с помощью qPCR» . dx.doi.org . 30 августа 2017 г. doi : 10.7554 / elife.28468.029 . Проверено 29 мая 2021 .

[Bohannon-21] а б Боханнон, Джон (24.02.2016). «Многие опросы, примерно каждый пятый, могут содержать мошеннические данные» . Наука . DOI : 10.1126 / science.aaf4104 . ISSN 0036-8075 .

[22] Д., Гарбер, Джинни Скраггс. Гросс, Монти. Слоним, Энтони (2010). Избегайте распространенных ошибок медсестер . Wolters Kluwer Health / Lippincott Williams & Wilkins. ISBN 978-1-60547-087-0. OCLC 338288678 .

[23] «Очистка данных» . Microsoft Research . Проверено 26 октября 2013 года .

[24] Хэнкок, RGV; Картер, Тристан (февраль 2010 г.). «Насколько надежны наши опубликованные археометрические анализы? Влияние аналитических методов во времени на элементный анализ обсидианов» . Журнал археологической науки . 37 (2): 243–250. DOI : 10.1016 / j.jas.2009.10.004 . ISSN 0305-4403 .

[Koomey1-25] Perceptual Edge - Джонатан Куми - Лучшие практики для понимания количественных данных - 14 февраля 2006 г.

[26] Пелег, Рони; Авдалимов, Анжелика; Фрейд, Тамар (23 марта 2011 г.). «Предоставление пациентам номеров сотовых телефонов и адресов электронной почты: взгляд врача» . BMC Research Notes . 4 (1): 76. DOI : 10,1186 / 1756-0500-4-76 . ISSN 1756-0500 . PMC 3076270 . PMID 21426591 .

[27] 1944-, Гудман, Ленн Эван (1998). Иудаизм, права человека и общечеловеческие ценности . Издательство Оксфордского университета. ISBN 0-585-24568-1. OCLC 45733915 .CS1 maint: числовые имена: список авторов ( ссылка )

[28] Ханзо, Лайош. dx.doi.org . DOI : 10,1049 / МТВ-tv.44.786 http://dx.doi.org/10.1049/iet-tv.44.786 . Проверено 29 мая 2021 . Отсутствует или пусто |title=( справка )

[29] Хеллерштейн, Джозеф (27 февраля 2008 г.). «Количественная очистка данных для больших баз данных» (PDF) . Отдел компьютерных наук EECS : 3 . Проверено 26 октября 2013 года .

[30] Дэвис, Стив; Петтенгилл, Джеймс Б.; Ло, Ян; Пейн, Джастин; Шпунтов, Ал; Рэнд, Хью; Штамм, Эррол (26 августа 2015 г.). «CFSAN SNP Pipeline: автоматизированный метод построения матриц SNP из данных последовательности следующего поколения» . PeerJ Computer Science . 1 : e20. DOI : 10,7717 / peerj-cs.20 / Supp-1 . Проверено 31 мая 2021 .

[31] «FTC запрашивает дополнительные данные» . Аналитик насосной отрасли . 1999 (48): 12 декабря 1999 DOI : 10.1016 / s1359-6128 (99) 90509-8 . ISSN 1359-6128 .

[32] «Изучение данных с помощью визуализации данных и описательной статистики: общая описательная статистика для количественных данных» . 2017. DOI : 10,4135 / 9781529732795 . Цитировать журнал требует |journal=( помощь )

[33] Г., Мюррей, Дэниел (2013). Табличка ваших данных! : быстрый и простой визуальный анализ с помощью программного обеспечения Tableau . J. Wiley & Sons. ISBN 978-1-118-61204-0. OCLC 873810654 .

[34] Бен-Ари, Мордехай (2012), «Логика первого порядка: формулы, модели, таблицы» , « Математическая логика для компьютерных наук» , Лондон: Springer London, стр. 131–154, DOI : 10.1007 / 978-1-4471-4129 -7_7 , ISBN 978-1-4471-4128-0, получено 2021-05-31

[35] Эрнест., Соса (2011). Причинная связь . Oxford Univ. Нажмите. ISBN 978-0-19-875094-9. OCLC 767569031 .

[36] «Рисунок 2. Важность переменной путем перестановки, усредненная по 25 моделям» . dx.doi.org . DOI : 10.7554 / elife.22053.004 . Проверено 31 мая 2021 .

[37] «Таблица 3: Описательная (среднее ± стандартное отклонение), выводная (95% ДИ) и качественная статистика (ES) всех переменных между самовыбранными и заранее определенными условиями» . dx.doi.org . DOI : 10,7717 / peerj.10361 / стол-3 . Проверено 31 мая 2021 .

[38] «Таблица 3: Лучшие модели регрессии между данными LIDAR (независимая переменная) и полевыми данными Forestereo (зависимая переменная), используемые для картирования пространственного распределения основных переменных структуры леса» . dx.doi.org . DOI : 10,7717 / peerj.10158 / стол-3 . Проверено 31 мая 2021 .

[39] Международные условия продаж , Beck / Hart, 2014 г., doi : 10.5040 / 9781472561671.ch-003 , ISBN 978-1-4725-6167-1, получено 2021-05-31

[40] Нвабуезе, JC (2008-05-21). «Характеристики оценщиков линейной модели с автокоррелированными членами ошибки, когда независимая переменная нормальна» . Журнал Нигерийской ассоциации математической физики . 9 (1). DOI : 10,4314 / jonamp.v9i1.40071 . ISSN 1116-4336 .

[41] Конвей, Стив (2012-07-04). «Предупреждение о вводе данных и визуальных выводах в анализе социальных сетей» . Британский журнал менеджмента . 25 (1): 102–117. DOI : 10.1111 / j.1467-8551.2012.00835.x . ЛВП : 2381/36068 . ISSN 1045-3172 . S2CID 154347514 .

[42] «Покупки клиентов и другие повторяющиеся события» , Анализ данных с использованием SQL и Excel® , Индианаполис, Индиана: John Wiley & Sons, Inc., стр. 367–420, 2016-01-29, doi : 10.1002 / 9781119183419.ch8 , ISBN 978-1-119-18341-9, получено 2021-05-31

[43] Гранджин, Мартин (2014). "La connaissance est un réseau" (PDF) . Les Cahiers du Numérique . 10 (3): 37–54. DOI : 10,3166 / lcn.10.3.37-54 .

[44] Требования к данным для полупроводникового кристалла. Форматы и данные ОБМЕН ДАННЫМИ словарь , BSI British Standards, DOI : 10,3403 / 02271298 , извлекаются 2021-05-31

[45] Йи, Д. (1 апреля 1985 г.). «Как эффективно донести ваше сообщение до аудитории» . Геронтолог . 25 (2): 209. DOI : 10,1093 / geront / 25.2.209 . ISSN 0016-9013 .

[46] Дополнительная информация 1: необработанные данные для диаграмм и таблиц . DOI : 10,7287 / peerj.preprints.27793v1 / Supp-1 http://dx.doi.org/10.7287/peerj.preprints.27793v1/supp-1 . Проверено 31 мая 2021 . Отсутствует или пусто |title=( справка )

[47] Визуализация данных о музеях Великобритании: гистограммы, линейные диаграммы и тепловые карты . 2021 DOI : 10,4135 / 9781529768749 . ISBN 9781529768749.

[48] Тунки Нейра, Хосе Мануэль (19.09.2019). «Спасибо за ваш обзор. В прилагаемом pdf-файле вы найдете подробный ответ на поднятые вами вопросы» . dx.doi.org . DOI : 10,5194 / Hess-2019-325-AC2 . Проверено 1 июня 2021 .

[49] Брэкетт, Джон В. (1989), «Проведение курсов по проектам анализа требований для внешних заказчиков» , Проблемы образования в области разработки программного обеспечения , Нью-Йорк, Нью-Йорк: Springer New York, стр. 276–285, doi : 10.1007 / 978-1-4613 -9614-7_20 , ISBN 978-1-4613-9616-1, получено 2021-06-03

[50] «Рисунок 2: Двухмесячные колебания популяции мучнистого червеца на юге Вьетнама за двухлетний период» . dx.doi.org . DOI : 10,7717 / peerj.5796 / рис-2 . Источник 2021-06-03 .

[51] Риль, Эмили (2014), "Выборка 2-категориальных аспектов теории квази-категория" , категоричная Гомотопическая Теория , Кембридж. Cambridge University Press, стр 318-336, DOI : 10,1017 / cbo9781107261457.019 , ISBN 978-1-107-26145-7, получено 2021-06-03

[52] «X-BAR CHART» , SpringerReference , Berlin / Heidelberg: Springer-Verlag, 2011, doi : 10.1007 / springerreference_7402 , получено 3 июня 2021 г.

[53] «Диаграмма C5.3. Доля людей в возрасте 15-19 лет, не получающих образование, по статусу на рынке труда (2012 г.)» . dx.doi.org . DOI : 10.1787 / 888933119055 . Источник 2021-06-03 .

[54] «Диаграмма 7: Домохозяйства: расходы на конечное потребление в сравнении с фактическим индивидуальным потреблением» . dx.doi.org . DOI : 10.1787 / 665527077310 . Источник 2021-06-03 .

[55] «Рисунок 4. Частота гемифузии (измеренная как ослабление флуоресценции DiD) как функция количества связанных молекул Alexa-fluor-555 / 3-110-22» . dx.doi.org . DOI : 10.7554 / elife.36461.006 . Источник 2021-06-03 .

[56] «Таблица 2: Сравнение графиков между графиком разброса, графиком скрипки + разброса, тепловой картой и графиком ViSiElse» . dx.doi.org . DOI : 10,7717 / peerj.8341 / столик-2 . Источник 2021-06-03 .

[57] «Таблица сравнения продуктов: носимые устройства» . Набор данных PsycEXTRA . 2009. DOI : 10,1037 / e539162010-006 . Источник 2021-06-03 .

[58] Стивен Фью-Perceptual Edge-Выбор правильного графика для вашего сообщения-2004

[59] Стивен Фью-Перцепционная матрица выбора граничного графа

[60] «Рекомендуемые лучшие практики» . dx.doi.org . 2008-10-01. DOI : 10,14217 / 9781848590151-8-ен . Источник 2021-06-03 .

[61] «Таблица 1: Описательная статистика (среднее ± стандартное отклонение) для соматических переменных и элементов физической подготовки для мужчин и женщин» . dx.doi.org . DOI : 10,7717 / peerj.4032 / таблица-1 . Источник 2021-06-03 .

[62] «Таблица 2: Кластерный анализ, представляющий средние значения психологических переменных для каждой кластерной группы» . dx.doi.org . DOI : 10,7717 / peerj.2421 / столик-2 . Источник 2021-06-03 .

[63] "Консультантов , работающих в McKinsey & Company" , организационное поведение 5 , Routledge, стр 77-82, 2008-07-30,. Дои : 10,4324 / 9781315701974-15 , ISBN 978-1-315-70197-4, получено 2021-06-03

[64] Antiphanes (2007), Olson, S. Douglas (ed.), «H6 Antiphanes fr.172.1-4, из« Женщин, которые были похожи друг на друга » ,« Сломанный смех: избранные фрагменты греческой комедии » , Оксфорд University Press, DOI : 10,1093 / OSEO / instance.00232915 , ISBN 978-0-19-928785-7, получено 2021-06-03

[65] Кэри, Мэлаки (ноябрь 1981). «О взаимоисключающих и коллективно исчерпывающих свойствах функций спроса» . Economica . 48 (192): 407–415. DOI : 10.2307 / 2553697 . ISSN 0013-0427 . JSTOR 2553697 .

[66] «Общие налоговые поступления» . dx.doi.org . DOI : 10.1787 / 352874835867 . Источник 2021-06-03 .

[67] «Автомобиль двойного назначения может решить транспортные проблемы» . Архив новостей химии и машиностроения . 46 (24): 44.1968-06-03. DOI : 10.1021 / СЕН-v046n024.p044 . ISSN 0009-2347 .

[68] Хекман (1978). «Простые статистические модели для дискретных панельных данных, разработанные и применяемые для проверки гипотезы истинной государственной зависимости от гипотезы ложной государственной зависимости» . Annales de l'inséé (30/31): 227–269. DOI : 10.2307 / 20075292 . ISSN 0019-0209 . JSTOR 20075292 .

[69] DEAN., KOONTZ (2017). ЛОЖНАЯ ПАМЯТЬ . ЗАГОЛОВОК Книгоиздание. ISBN 978-1-4722-4830-5. OCLC 966253202 .

[70] Munday, Стивен CR (1996), "безработица, инфляция и кривая Филлипса" , Современные достижения в области экономики , Лондон: Macmillan. Education UK, стр 186-218, DOI : 10.1007 / 978-1-349-24986-2_11 , ISBN 978-0-333-64444-7, получено 2021-06-03

[71] Луанграт, Пол I. (2013). «Альфа и бета-тесты для определения ошибок вывода типа I и типа II при проверке гипотез» . Электронный журнал ССРН . DOI : 10.2139 / ssrn.2332756 . ISSN 1556-5068 .

[72] Энн, Уолко, М. (2006). Отказ от гипотезы второго поколения: сохранение эстонской этнической принадлежности в Лейквуде, штат Нью-Джерси . AMS Press. ISBN 0-404-19454-0. OCLC 467107876 .

[Yanamandra_57–68-73] а б Янамандра, Венкатарамана (сентябрь 2015 г.). «Изменения обменного курса и инфляция в Индии: какова степень воздействия обменного курса на импорт?» . Экономический анализ и политика . 47 : 57–68. DOI : 10.1016 / j.eap.2015.07.004 . ISSN 0313-5926 .

[74] автор., Nawarathna Mudiyanselage, Pubudu Manoj Nawarathna. Характеристика эпигенетических изменений и их связи с аномалиями экспрессии генов при светлоклеточном почечно-клеточном раке . OCLC 1190697848 .

[75] «Приложение 1 - рисунок 5. Данные кривой включены в приложение 1 - таблица 4 (сплошные точки) и теоретическая кривая с использованием параметров уравнения Хилла из приложения 1 - таблица 5 (кривая линия)» . dx.doi.org . DOI : 10.7554 / elife.25233.027 . Источник 2021-06-03 .

[76] Файнманн, Джейн. dx.doi.org . DOI : 10,1049 / МТВ-tv.48.859 http://dx.doi.org/10.1049/iet-tv.48.859 . Источник 2021-06-03 . Отсутствует или пусто |title=( справка )

[77] Дул, янв (2015). «Анализ необходимых условий (NCA): логика и методология« необходимой, но недостаточной »причинности» . Электронный журнал ССРН . DOI : 10.2139 / ssrn.2588480 . hdl : 1765/77890 . ISSN 1556-5068 . S2CID 219380122 .

[78] Роберт Амар, Джеймс Иган и Джон Стаско (2005) «Низкоуровневые компоненты аналитической деятельности в визуализации информации»

[79] Уильям Ньюман (1994) "Предварительный анализ результатов исследований HCI, с использованием аннотаций Pro Forma"

[80] Мэри Шоу (2002) "Что делает хорошие исследования в области разработки программного обеспечения?"

[ConTaaS-81] а б «ConTaaS: подход к контекстуализации в масштабе Интернета для разработки эффективных приложений Интернета вещей» . ScholarSpace . HICSS50. hdl : 10125/41879 . Проверено 24 мая 2017 года .

[82] «Инструмент связи передает данные между базами данных и статистическими продуктами» . Вычислительная статистика и анализ данных . 8 (2): 224. июля 1989. DOI : 10.1016 / 0167-9473 (89) 90021-2 . ISSN 0167-9473 .

[83] «Информация , имеющая отношение к вашей работе» , Получение информации для эффективного управления , Routledge, стр. 48–54, 2007-07-11, doi : 10.4324 / 9780080544304-16 , ISBN 978-0-08-054430-4, получено 2021-06-03

[84] 1917-, Леманн, Э.Л. (Эрих Лео) (2010). Проверка статистических гипотез . Springer. ISBN 978-1-4419-3178-8. OCLC 757477004 .CS1 maint: числовые имена: список авторов ( ссылка )

[85] Филдинг Генри (2008-08-14), "Состоящий частично из фактов, а отчасти из наблюдений над ними" , Том Джонс , Oxford University Press, DOI : 10,1093 / OWC / 9780199536993.003.0193 , ISBN 978-0-19-953699-3, получено 2021-06-03

[86] «Бюджетное управление Конгресса - Бюджет и экономические перспективы - август 2010 - Таблица 1.7 на стр. 24» (PDF) . Проверено 31 марта 2011 .

[87] «Чувство принадлежности студентов по иммигрантскому происхождению» . Результаты PISA 2015 (Том III) . PISA. 2017-04-19. DOI : 10,1787 / 9789264273856-table125-ен . ISBN 9789264273818. ISSN 1996-3777 .

[88] Гордон, Роджер (март 1990). "Действуют ли публично торгуемые корпорации в интересах общества?" . Кембридж, Массачусетс. DOI : 10,3386 / w3303 . Цитировать журнал требует |journal=( помощь )

[89] Минарди, Марго (24 сентября 2010 г.), «Факты и мнения» , « Создание истории рабства» , Oxford University Press, стр. 13–42, DOI : 10.1093 / acprof: oso / 9780195379372.003.0003 , ISBN 978-0-19-537937-2, получено 2021-06-03

[90] Ривард, Джиллиан Р. Предвзятость подтверждения при опросе свидетелей: могут ли интервьюеры игнорировать свои предубеждения? (Тезис). Международный университет Флориды. DOI : 10.25148 / etd.fi14071109 .

[91] Папино, Дэвид (1988), "Дискредитирует ли социология науки науку?" , Релятивизм и реализм в науке , Дордрехт: Springer, Нидерланды, стр. 37–57, DOI : 10.1007 / 978-94-009-2877-0_2 , ISBN 978-94-010-7795-8, получено 2021-06-03

[92] Бромм, Райнер; Гессен, Фридрих В .; Спада, Ханс, ред. (2005). Барьеры и предубеждения в компьютерной передаче знаний . DOI : 10.1007 / b105100 . ISBN 978-0-387-24317-7.

[93] Хойер, Ричардс (10.06.2019). Heuer, Ричардс Дж (ред.). Количественные подходы к политическому анализу . DOI : 10.4324 / 9780429303647 . ISBN 9780429303647.

[Heuer1-94] «Введение» . cia.gov .

[95] «Диаграмма 6.7. Различия в показателях грамотности в странах ОЭСР в целом отражают различия в оценке навыков счета» . dx.doi.org . DOI : 10.1787 / 888934081549 . Источник 2021-06-03 .

[96] Блумберг-Барри Ritholz-Bad Math , который проходит 28 Инсайт-октября 2014 года

[97] Гуснаини, Нуриска; Андесто, Рони; Ермавати,. (2020-12-15). «Влияние размера регионального правительства, размера законодательной базы, численности населения и доходов межправительственных органов на раскрытие финансовой отчетности» . Европейский журнал исследований в области бизнеса и управления . 5 (6). DOI : 10.24018 / ejbmr.2020.5.6.651 . ISSN 2507-1076 .CS1 maint: числовые имена: список авторов ( ссылка )

[98] Линси, Джули С .; Беккер, Блейк (2011), «Эффективность методов мозгового письма: сравнение номинальных групп с реальными командами» , Design Creativity 2010 , Лондон: Springer London, стр. 165–171, doi : 10.1007 / 978-0-85729-224-7_22 , ISBN 978-0-85729-223-0, получено 2021-06-03

[99] Лион, Дж. (Апрель 2006 г.). «Предполагаемый ответственный адрес в сообщениях электронной почты» . DOI : 10.17487 / rfc4407 . Цитировать журнал требует |journal=( помощь )

[100] Верфассер, Шток, Евгений (10 июня 2017 г.). История церковного миссионерского общества, его окружение, его люди и его работа . ISBN 978-3-337-18120-8. OCLC 1189626777 .

[101] Гросс, Уильям Х. (июль 1979 г.). «Циклы купонной оценки и процентной ставки» . Журнал финансовых аналитиков . 35 (4): 68–71. DOI : 10.2469 / faj.v35.n4.68 . ISSN 0015-198X .

[102] «25. Общие расходы органов государственного управления» . dx.doi.org . DOI : 10.1787 / 888932348795 . Источник 2021-06-03 .

[Towards_energy_efficiency_smart_buildings_models_based_on_intelligent_data_analytics-103] Гонсалес-Видаль, Аврора; Морено-Кано, Виктория (2016). «На пути к энергоэффективным моделям умных зданий на основе интеллектуальной аналитики данных» . Процедуры информатики . 83 (Elsevier): 994–999. DOI : 10.1016 / j.procs.2016.04.213 .

[104] "Low-Energy Air Conditioning и управления освещением" , системы управления Строительство Энергия , Routledge, стр 406-439, 2013-07-04,. Дои : 10,4324 / 9780203477342-18 , ISBN 978-0-203-47734-2, получено 2021-06-03

[Competing_on_Analytics_2007-105] Давенпорт, Томас и Харрис, Жанна (2007). Конкуренция в Google Analytics . О'Рейли. ISBN 978-1-4221-0332-6.

[106] Ааронс, D. (2009). Отчет находит состояния на курсе для создания систем данных об учениках. Неделя образования, 29 (13), 6.

[107] Перейти ↑ Rankin, J. (2013, 28 марта). Как системы данных и отчеты могут бороться или распространять эпидемию ошибок анализа данных и как руководители учебных заведений могут помочь. Презентация проведена на Саммите школы лидерства Технологического информационного центра административного лидерства (TICAL).

[108] Бредерманн, Эккарт Дж. (2018), «Статья 2.2.1 (Объем раздела)» , Коммерческое право , Nomos Verlagsgesellschaft mbH & Co. KG, стр. 525, DOI : 10,5771 / 9783845276564-525 , ISBN 978-3-8452-7656-4, получено 2021-06-03

[109] Jaech, JL (1960-04-21). «Анализ данных о размерных искажениях исходных 24 трубок для сертификации качества» . DOI : 10.2172 / 10170345 . Цитировать журнал требует |journal=( помощь )

[FOOTNOTEAdèr2008a337-110] Адер 2008а , стр. 337.

[111] dx.doi.org . DOI : 10,7717 / peerj.231 / таблица 1- http://dx.doi.org/10.7717/peerj.231/table-1 . Источник 2021-06-03 . Отсутствует или пусто |title=( справка )

[112] Практика работы с внешними наблюдениями , ASTM International, doi : 10.1520 / e0178-16a , получено 2021-06-03

[113] "Альтернативные схем кодирования для фиктивных переменных" , регрессия с фиктивными переменными , 2455 Теллер Road, Ньюбери Парк Калифорния 91320 Соединенные Штаты Америки:. SAGE Publications, Inc., стр 64-75, 1993, DOI : 10.4135 / 9781412985628.n5 , ISBN 978-0-8039-5128-0, получено 2021-06-03CS1 maint: location ( ссылка )

[FOOTNOTEAdèr2008a338-341-114] Адер 2008а , стр. 338-341.

[115] Данилюк П.М. (июль 1960 г.). «Расчет смещения начального контура шестерен при их проверке шариками» . Методы измерения . 3 (7): 585–587. DOI : 10.1007 / bf00977716 . ISSN 0543-1972 . S2CID 121058145 .

[116] Исадор., Ньюман (1998). Методология качественно-количественного исследования: изучение интерактивного континуума . Издательство Южного Иллинойского университета. ISBN 0-585-17889-5. OCLC 44962443 .

[117] ТЕРВИЛЛИГЕР, ДЖЕЙМС С .; ЛЕЛЕ, КАУСТУБ (июнь 1979 г.). «Некоторые отношения между внутренней согласованностью, воспроизводимостью и однородностью» . Журнал педагогических измерений . 16 (2): 101–108. DOI : 10.1111 / j.1745-3984.1979.tb00091.x . ISSN 0022-0655 .

[FOOTNOTEAdèr2008a341-342-118] Адер 2008а , стр. 341-342.

[FOOTNOTEAdèr2008a344-119] Адер 2008а , стр. 344.

[120] Tabachnick & Файделл, 2007, стр. 87-88.

[121] Чакарова, Калина (октябрь 2020 г.). «2020/31 Сравнение должностных инструкций недостаточно для проверки того, является ли работа одинаково ценной (BG)» . Европейское трудовое право . 5 (3): 168–170. DOI : 10.5553 / eelc / 187791072020005003006 . ISSN 1877-9107 .

[122] Процедуры отбора проб и рандомизации Случайные , BSI British Standards, DOI : 10.3403 / 30137438 , извлекаться 2021-06-03

[FOOTNOTEAdèr2008a344-345-123] Адер 2008а , стр. 344-345.

[124] Сандберг, Маргарета (июнь 2006 г.). «Процедуры иглоукалывания должны быть точно описаны» . Иглоукалывание в медицине . 24 (2): 92–94. DOI : 10.1136 / aim.24.2.92 . ISSN 0964-5284 . PMID 16783285 . S2CID 30286074 .

[125] F., Jaarsma, C. Verkeer in een landelijk gebied: waarnemingen en analysis van het verkeer in zuidwest Friesland en ontwikkeling van een verkeersmodel . OCLC 1016575584 .

[126] «Рисунок 4: Регрессионный анализ размера центроидов для основной выборки» . dx.doi.org . DOI : 10,7717 / peerj.1589 / рис-4 . Источник 2021-06-03 .

[FOOTNOTEAdèr2008a345-127] Адер 2008а , стр. 345.

[128] «Последние годы (1975-84)» , The Road Not Taken , Boydell & Brewer, стр. 853–922, 2018-06-18, doi : 10.2307 / j.ctv6cfncp.26 , ISBN 978-1-57647-332-0, получено 2021-06-03

[129] Кэтрин, Фицморис (17 марта 2015 г.). Судьба, переписанная . ISBN 978-0-06-162503-9. OCLC 905090570 .

[130] «Дополнительный файл 4. Необработанные данные и анализ на основе R» . dx.doi.org . DOI : 10.7554 / elife.24102.023 . Источник 2021-06-03 .

[FOOTNOTEAdèr2008a345-346-131] Адер 2008а , стр. 345-346.

[FOOTNOTEAdèr2008a346-347-132] Адер 2008а , стр. 346-347.

[FOOTNOTEAdèr2008a349-353-133] Адер 2008а , стр. 349-353.

[SAB1-134] Биллингс С.А. "Нелинейная идентификация систем: методы NARMAX во временной, частотной и пространственно-временной областях". Вайли, 2013

[FOOTNOTEAdèr2008b363-135] Адер 2008b , стр. 363.

[136] «Исследовательский анализ данных» , Python® для пользователей R , Хобокен, Нью-Джерси, США: John Wiley & Sons, Inc., стр. 119–138, 2017-10-13, doi : 10.1002 / 9781119126805.ch4 , hdl : 11380 / 971504 , ISBN 978-1-119-12680-5, получено 2021-06-03

[137] «Участие в исследовательском анализе данных, визуализации и проверке гипотез ...................................... .................................................. ..... разведочного анализа данных, Geovisualization и данных» , Пространственный анализ ., CRC Press, стр 106-139, 2015-07-28, DOI : 10,1201 / b18808-8 , ISBN 978-0-429-06936-9, получено 2021-06-03

[138] «Гипотезы о категориях» , Начальная статистика: краткое, четкое руководство , 1 Oliver's Yard, 55 City Road, London EC1Y 1SP Соединенное Королевство: SAGE Publications Ltd, стр. 138–151, 2010 г., doi : 10.4135 / 9781446287873.n14 , ISBN 978-1-84920-098-1, получено 2021-06-03CS1 maint: location ( ссылка )

[139] Сордо, Рэйчел Дель; Сидони, Анджело (декабрь 2008 г.). «Реактивность клеточной мембраны MIB-1: открытие, которое следует интерпретировать с осторожностью» . Прикладная иммуногистохимия и молекулярная морфология . 16 (6): 568. DOI : 10,1097 / pai.0b013e31817af2cf . ISSN 1541-2016 . PMID 18800001 .

[140] Лике, Бенуа; Риу, Жереми (08.06.2013). «Корректировка уровня значимости при попытке множественных преобразований независимой переменной в обобщенных линейных моделях» . BMC Medical Research Methodology . 13 (1): 75. DOI : 10,1186 / 1471-2288-13-75 . ISSN 1471-2288 . PMC 3699399 . PMID 23758852 .

[Mcardle_2008-141] а б в Макардл, Джон Дж. (2008). «Некоторые этические вопросы в подтверждающем и исследовательском анализе» . Набор данных PsycEXTRA . DOI : 10.1037 / e503312008-001 . Источник 2021-06-03 .

[FOOTNOTEAdèr2008b361-362-142] Адер 2008b , стр. 361-362.

[FOOTNOTEAdèr2008b361-371-143] Адер 2008b , стр. 361-371.

[144] Трусуэлл IV, Уильям Х., изд. (2009), "3 Facelift: Руководство для безопасного, надежного и воспроизводимых результатов" , Хирургическое омоложение лица , Штутгарт: Georg Thieme Verlag, DOI : 10,1055 / б-0034-73436 , ISBN 978-1-58890-491-1, получено 2021-06-03

[145] «Дополнительный файл 1. Схема перекрестной проверки» . dx.doi.org . DOI : 10.7554 / elife.40224.014 . Источник 2021-06-03 .

[146] Сяо Чэн (2014), "Кросс-секционно зависимые данные Группы" , анализ панельных данных , Кембридж: Cambridge University Press, стр 327-368,. DOI : 10,1017 / cbo9781139839327.012 , ISBN 978-1-139-83932-7, получено 2021-06-03

[147] Hjorth, JS Urban (2017-10-19), "Cross проверка" , Компьютерные Интенсивные Статистические методы , Chapman и Hall / CRC, С. 24-56,. Дои : 10,1201 / 9781315140056-3 , ISBN 978-1-315-14005-6, получено 2021-06-03

[148] Шейхолеслами, Рази; Разави, Саман; Агнегахдар, Амин (10.10.2019). «Что нам делать, когда модель выходит из строя? Рекомендации по анализу глобальной чувствительности моделей Земли и экологических систем» . Разработка геонаучных моделей . 12 (10): 4275–4296. Bibcode : 2019GMD .... 12.4275S . DOI : 10.5194 / GMD-12-4275-2019 . ISSN 1991-9603 .

[149] «Сводные индексы человеческого развития» . dx.doi.org . 2018-09-19. DOI : 10,18356 / ce6f8e92-ен . Источник 2021-06-03 .

[150] Вили, Мэтт; Вили, Джошуа Ф. (2019), «Многомерная визуализация данных» , Advanced R Statistical Programming and Data Models , Беркли, Калифорния: Apress, стр. 33–59, DOI : 10.1007 / 978-1-4842-2872-2_2 , ISBN 978-1-4842-2871-5, получено 2021-06-03

[151] Ордуна-Малеа, Энрике; Алонсо-Арройо, Адольфо (2018), "А cybermetric модель анализа для оценки частных компаний" , Cybermetric методы для оценки организации Использование Web-Based данных , Elsevier, стр 63-76,. Дои : 10.1016 / b978-0-08-101877 -4.00003-х , ISBN 978-0-08-101877-4, получено 2021-06-03

[152] Р., Лин, А. Потребитель в австрийской экономике и австрийский взгляд на потребительскую политику . ISBN 90-5808-102-8. OCLC 1016689036 .

[153] Примеры анализа данных о выживании , серия Wiley по вероятности и статистике, Хобокен, штат Нью-Джерси, США: John Wiley & Sons, Inc., 2003-06-30, стр. 19–63, doi : 10.1002 / 0471458546.ch3 , ISBN 978-0-471-45854-8, получено 2021-06-03

[154] «Сообщество машинного обучения берет верх над Хиггсом» . Журнал Симметрия . 15 июля 2014 . Проверено 14 января 2015 года .

[Nehme_2016-09-29-155] Нехме, Жан (29 сентября 2016 г.). «Международный конкурс анализа данных LTPP» . Федеральное управление автомобильных дорог . Проверено 22 октября 2017 года .

[156] "Data.Gov: Долговременные характеристики дорожного покрытия (LTPP)" . 26 мая 2016 года . Проверено 10 ноября 2017 года .

[1]