Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Некоторые из различных типов данных.

Данные - это характеристики или информация , обычно числовые, которые собираются путем наблюдения. [1] В более техническом смысле данные - это набор значений качественных или количественных переменных об одном или нескольких людях или объектах, в то время как данные (единичные данные) - это одно значение одной переменной. [2]

Хотя термины «данные» и «информация» часто используются как синонимы, эти термины имеют разные значения. В некоторых популярных публикациях иногда говорится, что данные преобразуются в информацию, когда они рассматриваются в контексте или в ходе постанализа. [3] Однако в академической трактовке предмета данные - это просто единицы информации. Данные используются в научных исследованиях , управлении бизнесом (например, данные о продажах, доходах, прибылях, курсах акций ), финансах , управлении (например, уровень преступности , уровень безработицы , уровень грамотности ) и практически во всех других формах организационной деятельности человека ( например, перепись бездомных некоммерческими организациями).

Данные измеряются , собираются, сообщаются и анализируются , после чего их можно визуализировать с помощью графиков, изображений или других инструментов анализа. Данные , как общее понятие относится к тому факту , что некоторые существующей информации или знания в представленных или закодированной в некоторой форме , пригодной для лучшего использования или переработки . Необработанные данные («необработанные данные») - это набор чисел или символов до того, как они будут «очищены» и исправлены исследователями. Необработанные данные необходимо исправить, чтобы удалить выбросыили очевидные ошибки прибора или ввода данных (например, показания термометра на открытом воздухе в Арктике, регистрирующие тропическую температуру). Обработка данных обычно происходит поэтапно, и «обработанные данные» одного этапа могут считаться «необработанными данными» следующего этапа. Полевые данные - это необработанные данные, которые собираются в неконтролируемой среде « на месте ». Экспериментальные данные - это данные, которые генерируются в рамках научного исследования путем наблюдения и записи.

Данные были описаны в качестве нового масла в цифровой экономике . [4] [5]

Этимология и терминология [ править ]

Первое английское употребление слова «данные» относится к 1640-м годам. Слово «данные» впервые было использовано для обозначения «передаваемой и сохраняемой компьютерной информации» в 1946 году. Выражение «обработка данных» было впервые использовано в 1954 году [6].

Латинское слово data - это множественное число от datum , «(вещь) данный», причастие прошедшего времени среднего рода от dare «давать». [6] Данные могут использоваться как существительное во множественном числе в этом смысле, причем некоторые писатели - обычно научные писатели - в 20 веке использовали данные в единственном числе и данные во множественном числе. Однако в повседневном языке «данные» чаще всего используются в единственном числе как неисчислимое существительное (например, «песок» или «дождь»). Руководство по стилю APA требует, чтобы слово «данные» было множественным числом. [7]

Значение [ править ]

«ТАБЛИЦА отверстий в очках-предметах» Адриена Озу из статьи 1665 года в Philosophical Transactions.

Данные, информация , знания и мудрость - это тесно связанные понятия, но каждое из них играет свою роль по отношению к другому, и каждый термин имеет собственное значение. Согласно общему мнению, данные собираются и анализируются; данные становятся информацией, пригодной для принятия решений, только после того, как они были проанализированы определенным образом. [8] Можно сказать, что степень информативности набора данных для кого-либо зависит от степени, в которой он является неожиданным для этого человека. Количество информации, содержащейся в потоке данных, может быть охарактеризовано его энтропией Шеннона .

Знание - это понимание, основанное на обширном опыте работы с информацией по предмету. Например, данными принято считать высоту Эвереста . Высотомер можно точно измерить высоту.и занесен в базу данных. Эти данные могут быть включены в книгу вместе с другими данными об Эвересте, чтобы описать гору в манере, полезной для тех, кто хочет принять решение о наилучшем методе восхождения на нее. Понимание, основанное на опыте восхождения на горы, которое могло бы посоветовать людям путь к вершине Эвереста, можно рассматривать как «знание». Практическое восхождение на пик Эвереста, основанное на этих знаниях, можно рассматривать как «мудрость». Другими словами, мудрость относится к практическому применению знаний человека в тех обстоятельствах, которые могут привести к добру. Таким образом, мудрость дополняет и дополняет ряды «данные», «информация» и «знание» все более абстрактных понятий.

Часто считается, что данные являются наименее абстрактным понятием, на втором месте - информация, а наиболее абстрактным - знания. [9] С этой точки зрения данные становятся информацией путем интерпретации; например, высота горы Эверест обычно считается "данными", книга о геологических характеристиках горы Эверест может считаться "информацией", а руководство альпиниста, содержащим практическую информацию о наилучшем способе достижения пика Эвереста, может считаться "знанием" . «Информация» имеет множество значений, которые варьируются от повседневного до технического. Эта точка зрения, однако, также утверждается, чтобы изменить способ, которым данные возникают из информации, а информация из знаний. [10]Вообще говоря, концепция информации тесно связана с понятиями ограничения, коммуникации, контроля, данных, формы, инструкции, знания, значения, умственного стимула, паттерна, восприятия и представления. Бейнон-Дэвис использует понятие знака, чтобы различать данные и информацию; данные представляют собой серию символов, а информация возникает, когда символы используются для обозначения чего-либо. [11] [12]

До появления вычислительных устройств и машин людям приходилось вручную собирать данные и накладывать на них шаблоны. С момента развития вычислительных устройств и машин эти устройства также могут собирать данные. В 2010-х годах компьютеры широко использовались во многих областях для сбора и сортировки или обработки данных, в самых разных дисциплинах - от маркетинга , анализа использования социальных услуг гражданами до научных исследований. Эти закономерности в данных рассматриваются как информация, которую можно использовать для расширения знаний. Эти закономерности можно интерпретировать как " истина"(хотя" истина "может быть субъективным понятием) и может быть признана эстетическим и этическим критерием в некоторых дисциплинах или культурах. События, которые оставляют после себя ощутимые физические или виртуальные останки, можно проследить с помощью данных. Знаки больше не считаются данными как только связь между отметкой и наблюдением прервана. [13]

Механические вычислительные устройства классифицируются в зависимости от средств, с помощью которых они представляют данные. Аналоговый компьютер представляет собой опорную точку в качестве напряжения, расстояния, положения или другой физической величины. Цифровой компьютер представляет собой фрагмент данных в виде последовательности символов, из фиксированного алфавита . Наиболее распространенные цифровые компьютеры используют двоичный алфавит, то есть алфавит из двух символов, обычно обозначаемых «0» и «1». Затем из двоичного алфавита строятся более знакомые представления, такие как числа или буквы. Различают некоторые особые формы данных. Компьютерная программапредставляет собой набор данных, которые можно интерпретировать как инструкции. В большинстве компьютерных языков проводится различие между программами и другими данными, с которыми работают программы, но в некоторых языках, особенно в Лиспе и подобных языках, программы по существу неотличимы от других данных. Также полезно различать метаданные , то есть описание других данных. Аналогичный, но более ранний термин для метаданных - «вспомогательные данные». Типичным примером метаданных является каталог библиотеки, который представляет собой описание содержания книг.

Документы с данными [ править ]

Когда данные должны быть зарегистрированы, данные существуют в виде документов данных . Виды документов с данными включают:

  • хранилище данных
  • исследование данных
  • набор данных
  • программного обеспечения
  • документ с данными
  • база данных
  • справочник данных
  • журнал данных

Некоторые из этих документов с данными (репозитории данных, исследования данных, наборы данных и программное обеспечение) индексируются в индексах цитирования данных , а документы с данными индексируются в традиционных библиографических базах данных, например, в индексе научного цитирования . Смотрите дальше. [14]

Сбор данных [ править ]

Сбор данных может осуществляться через первичный источник (исследователь является первым, кто получает данные) или вторичный источник (исследователь получает данные, которые уже были собраны из других источников, таких как данные, распространенные в научном журнале). Методологии анализа данных различаются и включают триангуляцию данных и перколяцию данных. [15]Последний предлагает четко сформулированный метод сбора, классификации и анализа данных с использованием пяти возможных углов анализа (по крайней мере, трех), чтобы максимизировать объективность исследования и позволить как можно полнее понять изучаемые явления: качественные и количественные методы, обзоры литературы (включая научные статьи), интервью с экспертами и компьютерное моделирование. После этого данные «просачиваются» с использованием ряда заранее определенных шагов, чтобы извлечь наиболее релевантную информацию.

В других полях [ править ]

Хотя данные также все чаще используются в других областях, было высказано предположение, что их высокая интерпретирующая природа может противоречить этике данных как «заданных». Питер Чекленд ввел термин capta (от латинского capere , «брать»), чтобы различать огромное количество возможных данных и их подмножество, на которое обращено внимание. [16] Джоанна Друкер утверждала, что, поскольку гуманитарные науки утверждают, что производство знания «обусловлено, частичным и конститутивным», использование данных может привести к контрпродуктивным предположениям, например, что явления дискретны или не зависят от наблюдателя. [17] Термин capta, который подчеркивает акт наблюдения как конститутивный, предлагается в качестве альтернативы данным для визуальных представлений в гуманитарных науках.

См. Также [ править ]

  • Биологические данные
  • Память компьютера
  • Данные (Звездный путь)
  • Получение данных
  • Анализ данных
  • Кабель для передачи данных
  • Курирование данных
  • Темные данные
  • Область данных
  • Элемент данных
  • Обработка данных
  • Управление данными
  • Целостность данных
  • Обслуживание данных
  • Управление данными
  • Сбор данных
  • Моделирование данных
  • Точка данных
  • Визуализация данных
  • Компьютерная обработка данных
  • Сохранение данных
  • Публикация данных
  • Защита данных
  • Остаточная информация
  • Наука о данных
  • Набор данных
  • Структура данных
  • Хранилище данных
  • База данных
  • Техническая спецификация
  • Спасение экологических данных
  • Полевые работы
  • Информационная инженерия
  • Машинное обучение
  • Открытые данные
  • Архивирование научных данных
  • Статистика
  • Вторичные данные

Ссылки [ править ]

Эта статья основана на материалах, взятых из Free On-line Dictionary of Computing до 1 ноября 2008 г. и включенных в соответствии с условиями «перелицензирования» GFDL версии 1.3 или новее.

  1. ^ Глоссарий статистических терминов ОЭСР . ОЭСР. 2008. с. 119. ISBN 978-92-64-025561.
  2. ^ "Статистический язык - что такое данные?" . Австралийское статистическое бюро . 2013-07-13. Архивировано 19 апреля 2019 года . Проверено 9 марта 2020 .
  3. ^ "Данные против информации - разница и сравнение | Diffen" . www.diffen.com . Проверено 11 декабря 2018 .
  4. ^ Yonego, Джорис Toonders (23 июля 2014). «Данные - новая нефть цифровой экономики» - через www.wired.com.
  5. ^ «Данные - новое масло» . 16 июля, 2018. Архивировано из оригинала на 2018-07-16.
  6. ^ a b "данные | Происхождение и значение данных по онлайн-этимологическому словарю" . www.etymonline.com .
  7. ^ "Блог 6-го издания в стиле APA: данные есть или данные есть?" . blog.apastyle.org .
  8. ^ «Совместная публикация 2-0, Объединенная разведка» (PDF) . Объединенный комитет начальников штабов, Joint Doctrine Publications . Министерство обороны. 23 октября 2013. С. I-1 . Проверено 17 июля 2018 года .
  9. ^ Акаши Митра (2011). «Классификация данных для успешного моделирования» .
  10. ^ Tuomi Илкка (2000). «Данные - это больше, чем знания». Журнал информационных систем управления . 6 (3): 103–117. DOI : 10.1080 / 07421222.1999.11518258 .
  11. ^ П. Бейнон-Дэвис (2002). Информационные системы: Введение в информатику в организациях . Бейзингсток, Великобритания: Palgrave Macmillan . ISBN 0-333-96390-3.
  12. ^ П. Бейнон-Дэвис (2009). Информационные системы для бизнеса . Бейзингсток, Великобритания: Palgrave. ISBN 978-0-230-20368-6.
  13. ^ Шэрон Дэниэл. База данных: эстетика достоинства .
  14. ^ Schöpfel et al. 2020. «Информационные документы». Энциклопедия организации знаний ISKO https://www.isko.org/cyclo/data_documents
  15. ^ Месли, Оливье (2015). Создание моделей в психологических исследованиях. États-Unis: Springer Psychology: 126 страниц. ISBN 978-3-319-15752-8 
  16. ^ П. Чекленд и С. Холвелл (1998). Информация, системы и информационные системы: понимание поля . Чичестер, Западный Сассекс: John Wiley & Sons. С. 86–89. ISBN 0-471-95820-4.
  17. ^ Джоанна Друкер (2011). «Гуманитарные подходы к графическому отображению» .

Внешние ссылки [ править ]

  • Данные - существительное в единственном числе (подробная оценка)