Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Набор данных (или набор данных ) - это набор данных . В случае табличных данных набор данных соответствует одной или нескольким таблицам базы данных , где каждый столбец таблицы представляет конкретную переменную, а каждая строка соответствует данной записи рассматриваемого набора данных. В наборе данных перечислены значения для каждой из переменных, таких как высота и вес объекта, для каждого члена набора данных. Каждое значение называется датумом. Наборы данных также могут состоять из набора документов или файлов. [1]

В дисциплине открытых данных набор данных - это единица измерения информации, публикуемой в общедоступном репозитории открытых данных. Европейский портал открытых данных объединяет более полумиллиона наборов данных. [2] В этой области были предложены другие определения, [3] но в настоящее время нет официального. Некоторые другие проблемы (источники данных в реальном времени, [4] нереляционные наборы данных и т. Д.) Усложняют достижение консенсуса по этому поводу.

Свойства [ править ]

Несколько характеристик определяют структуру и свойства набора данных. К ним относятся количество и типы атрибутов или переменных, а также различные применимые к ним статистические показатели , такие как стандартное отклонение и эксцесс . [5]

Значения могут быть числами, такими как действительные числа или целые числа , например, представляющие рост человека в сантиметрах, но также могут быть номинальными данными (т.е. не состоящими из числовых значений), например, представляющими этническую принадлежность человека. В более общем смысле, значения могут быть любого из видов, описанных как уровень измерения . Для каждой переменной обычно все значения одного вида. Однако могут быть и пропущенные значения , которые нужно каким-то образом указать.

В статистических данных , наборы данных , как правило , происходят из фактических наблюдений , полученных путем отбора проб в статистической совокупности , и каждая строка соответствует наблюдениям на один из элементов этой популяции. Наборы данных могут быть дополнительно созданы с помощью алгоритмов с целью тестирования определенных видов программного обеспечения . Некоторые современные программы статистического анализа, такие как SPSS, по- прежнему представляют свои данные в классической форме набора данных. Если данные отсутствуют или вызывают подозрение, можно использовать метод вменения для завершения набора данных. [6]

Классические наборы данных [ править ]

В статистической литературе широко используются несколько классических наборов данных :

  • Набор данных о цветках ириса - многомерный набор данных, представленный Рональдом Фишером (1936). [7]
  • База данных MNIST - изображения рукописных цифр, обычно используемые для проверки алгоритмов классификации, кластеризации и обработки изображений.
  • Категориальный анализ данных - наборы данных, используемые в книге Введение в категориальный анализ данных .
  • Надежная статистика - наборы данных, используемые в робастной регрессии и обнаружении выбросов ( Rousseeuw and Leroy, 1986). Предоставляется он-лайн в Кельнском университете.
  • Временные ряды - данные, используемые в книге Чатфилда «Анализ временных рядов» , предоставляются StatLib в режиме онлайн.
  • Экстремальные значения - данные, используемые в книге «Введение в статистическое моделирование экстремальных значений», представляют собой снимок данных, предоставленных в режиме онлайн Стюартом Коулсом , автором книги.
  • Байесовский анализ данных - Данные , используемые в книге, при условии , он-лайн по Эндрю Гельман , один из авторов книги.
  • Данные о печени Bupa - используются в нескольких статьях в литературе по машинному обучению (интеллектуальный анализ данных).
  • Квартет Анскомба - небольшой набор данных, иллюстрирующий важность графического представления данных во избежание статистических ошибок.

См. Также [ править ]

  • Данные
  • Смешивание данных
  • Данные (вычисления)
  • Образец данных
  • Хранилище данных
  • Совместимость
  • Система сбора данных

Ссылки [ править ]

  1. ^ Snijders, C .; Matzat, U .; Reips, U.-D. (2012). « « Большие данные »: большие пробелы в знаниях в области Интернета» . Международный журнал интернет-науки . 7 : 1–5.
  2. ^ "Европейский портал открытых данных" . Европейский портал открытых данных . Европейская комиссия . Проверено 23 сентября 2016 .
  3. ^ "Определение набора данных - МЕЛОДА" . www.meloda.org . Проверено 17 августа 2016 .
  4. ^ Atz, U (2014). «Тау данных: новая метрика для оценки своевременности данных в каталогах» (PDF) . CEDEM 2014 Труды . Проверено 1 августа 2016 .
  5. ^ Jan M. Żytkow, Ян Раух (1999). Принципы интеллектуального анализа данных и обнаружения знаний . ISBN 978-3-540-66490-1.
  6. ^ Статистическая комиссия ООН; Европейская экономическая комиссия ООН (2007 г.). Редактирование статистических данных: влияние на качество данных: Том 3 «Редактирование статистических данных», Конференция европейских статистиков Статистические стандарты и исследования . Публикации Организации Объединенных Наций. п. 20. ISBN 978-9211169522. Проверено 19 июля 2015 года .
  7. Перейти ↑ Fisher, RA (1936). «Использование множественных измерений в таксономических задачах» (PDF) . Летопись евгеники . 7 (2): 179–188. DOI : 10.1111 / j.1469-1809.1936.tb02137.x . ЛВП : 2440/15227 .

Внешние ссылки [ править ]

  • Datahub - управляемый сообществом дом для наборов открытых данных
  • Data.gov - открытые данные правительства США
  • data.world
  • GCMD - Главный каталог глобальных изменений, содержащий более 34 000 описаний наборов данных и услуг в области наук о Земле и окружающей среде.
  • Обмен гуманитарными данными (HDX) - Обмен гуманитарными данными (HDX) - это открытая платформа для обмена гуманитарными данными, управляемая Управлением Организации Объединенных Наций по координации гуманитарных вопросов .
  • Открытые данные Нью-Йорка - бесплатные общедоступные данные, публикуемые агентствами Нью-Йорка и другими партнерами.
  • Репозиторий реляционных наборов данных
  • Research Pipeline - вики / веб-сайт со ссылками на наборы данных по разным темам.
  • StatLib – Архив данных JASA
  • UCI - репозиторий машинного обучения
  • Публичные данные правительства Великобритании
  • Открытые данные Всемирного банка - свободный и открытый доступ Всемирного банка к данным о мировом развитии
  • Коллекция простых 2D-наборов данных