Аккуратные данные


Аккуратные данные — это альтернативное название общепринятой статистической формы, называемой модельной матрицей или матрицей данных . Матрица данных определена в [1] следующим образом:

Стандартным методом отображения многомерного набора данных является форма матрицы данных, в которой строки соответствуют выборке индивидуумов, а столбцы — переменным, так что запись в i -й строке и j -м столбце дает значение j -го варьироваться, как измеряется или наблюдается у i -го индивидуума.

Позже Хэдли Уикхэм определил «аккуратные данные» как наборы данных , организованные таким образом, что каждая переменная представляет собой столбец, а каждое наблюдение (или случай ) представляет собой строку. [2] (Первоначально с дополнительными условиями для каждой таблицы, которые делали определение эквивалентным 3-й нормальной форме Бойса-Кодда .)

Организация данных является важным аспектом обработки данных, но ее не следует путать с важной задачей очистки данных .

Другие соответствующие формулировки включают денормализацию до моделирования машинного обучения (неофициально обозначающую перемещение данных в «широкую форму», где все возможные измерения находятся в данной строке) и использование семантических троек в качестве промежуточного представления (неофициально «высокий» или «длинный» форма, в которой измерения одного экземпляра распределены по многим строкам).