Данные - это единицы информации , часто числовые, которые собираются посредством наблюдения . [1] В более техническом смысле данные представляют собой набор значений качественных или количественных переменных об одном или нескольких людях или объектах [1], в то время как данные (единичные данные ) - это одно значение одной переменной. [2]
Хотя термины «данные» и «информация» часто используются как синонимы, эти термины имеют разные значения. В некоторых популярных публикациях иногда говорится, что данные преобразуются в информацию, когда они рассматриваются в контексте или в ходе постанализа. [3] Однако в академической трактовке предмета данные - это просто единицы информации. Данные используются в научных исследованиях , управлении бизнесом (например, данные о продажах, доходах, прибылях, курсах акций ), финансах , управлении (например, уровень преступности , уровень безработицы , уровень грамотности ) и практически во всех других формах организационной деятельности человека ( например, переписи бездомных некоммерческими организациями).
Данные измеряются , собираются, сообщаются и анализируются , а на основе визуализации данных создаются графики, таблицы или изображения. Данные , как общее понятие относится к тому факту , что некоторые существующей информации или знания в представленных или закодированной в некоторой форме , пригодной для лучшего использования или переработки . Необработанные данные («необработанные данные») - это набор чисел или символов до того, как они будут «очищены» и исправлены исследователями. Необработанные данные необходимо исправить, чтобы удалить выбросы или очевидные ошибки прибора или ввода данных (например, показания термометра из открытого арктического местоположения, фиксирующие тропическую температуру). Обработка данных обычно происходит поэтапно, и «обработанные данные» одного этапа могут считаться «необработанными данными» следующего этапа. Полевые данные - это необработанные данные, которые собираются в неконтролируемой среде « на месте ». Экспериментальные данные - это данные, которые генерируются в контексте научного исследования путем наблюдения и записи.
Данные были описаны в качестве нового масла в цифровой экономике . [4] [5]
Этимология и терминология
Первое английское употребление слова «данные» относится к 1640-м годам. Слово «данные» впервые было использовано для обозначения «передаваемой и сохраняемой компьютерной информации» в 1946 году. Выражение «обработка данных» было впервые использовано в 1954 году [6].
Латинское слово data - это множественное число от datum , «(вещь) данный», причастие прошедшего времени среднего рода от dare «давать». [6] В английском языке слово data может использоваться как существительное во множественном числе в этом смысле, причем некоторые авторы - обычно те, кто работает в естественных, медико-биологических и социальных науках - используют данные в единственном числе и данные во множественном числе, особенно в 20-й век, а во многих случаях также и 21-й (например, стиль APA с 7-го издания по-прежнему требует, чтобы слово «данные» было множественным числом [7] ). Однако в повседневном языке и в большей части использования в разработке программного обеспечения и информатике «данные» чаще всего используются в единственном числе как неисчислимое существительное (например, «песок» или «дождь»). Термин « большие данные» употребляется в единственном числе.
Имея в виду
Данные, информация , знания и мудрость - это тесно связанные понятия, но каждое из них играет свою роль по отношению к другому, и каждый термин имеет собственное значение. Согласно общему мнению, данные собираются и анализируются; данные становятся информацией, пригодной для принятия решений, только после того, как они были проанализированы определенным образом. [8] Можно сказать, что степень информативности набора данных для кого-либо зависит от того, в какой степени он является неожиданным для этого человека. Количество информации, содержащейся в потоке данных, может быть охарактеризовано его энтропией Шеннона .
Знание - это понимание, основанное на обширном опыте работы с информацией по предмету. Например, данными принято считать высоту Эвереста . Высоту можно точно измерить высотомером и занести в базу данных. Эти данные могут быть включены в книгу вместе с другими данными об Эвересте, чтобы описать гору в манере, полезной для тех, кто хочет принять решение о наилучшем способе восхождения на нее. Понимание, основанное на опыте восхождения на горы, которое могло бы посоветовать людям путь к вершине Эвереста, может рассматриваться как «знание». Практическое восхождение на пик Эвереста, основанное на этих знаниях, можно рассматривать как «мудрость». Другими словами, мудрость относится к практическому применению знаний человека в тех обстоятельствах, которые могут привести к добру. Таким образом, мудрость дополняет и завершает серию «данные», «информация» и «знание» все более абстрактных понятий.
Часто считается, что данные являются наименее абстрактным понятием, на втором месте - информация, а наиболее абстрактным - знания. [9] С этой точки зрения данные становятся информацией путем интерпретации; например, высота горы Эверест обычно считается «данными», книга о геологических характеристиках горы Эверест может считаться «информацией», а руководство альпиниста, содержащим практическую информацию о наилучшем способе достижения пика Эвереста, может считаться «знанием». . «Информация» имеет множество значений, которые варьируются от повседневного до технического. Эта точка зрения, однако, также была утверждена, чтобы изменить способ, которым данные возникают из информации, а информация - из знаний. [10] Вообще говоря, понятие информации тесно связано с понятиями ограничения, коммуникации, контроля, данных, формы, инструкции, знания, значения, умственного стимула, паттерна, восприятия и представления. Бейнон-Дэвис использует понятие знака, чтобы различать данные и информацию; данные представляют собой серию символов, а информация возникает, когда символы используются для обозначения чего-либо. [11] [12]
До появления вычислительных устройств и машин людям приходилось вручную собирать данные и накладывать на них шаблоны. С момента развития вычислительных устройств и машин эти устройства также могут собирать данные. В 2010-х годах компьютеры широко использовались во многих областях для сбора и сортировки или обработки данных, в самых разных дисциплинах - от маркетинга , анализа использования социальных услуг гражданами до научных исследований. Эти закономерности в данных рассматриваются как информация, которую можно использовать для расширения знаний. Эти паттерны могут быть интерпретированы как « истина » (хотя «истина» может быть субъективным понятием) и могут быть признаны эстетическими и этическими критериями в некоторых дисциплинах или культурах. События, которые оставляют ощутимые физические или виртуальные останки, можно проследить с помощью данных. Метки больше не считаются данными после разрыва связи между меткой и наблюдением. [13]
Механические вычислительные устройства классифицируются по способам представления данных. Аналоговый компьютер представляет собой опорную точку в качестве напряжения, расстояния, положения или другой физической величины. Цифровой компьютер представляет собой фрагмент данных в виде последовательности символов, из фиксированного алфавита . Наиболее распространенные цифровые компьютеры используют двоичный алфавит, то есть алфавит из двух символов, обычно обозначаемых «0» и «1». Затем из двоичного алфавита строятся более знакомые представления, такие как числа или буквы. Различают некоторые особые формы данных. Компьютерная программа представляет собой набор данных, которые могут быть истолкованы как инструкция. В большинстве компьютерных языков проводится различие между программами и другими данными, с которыми работают программы, но в некоторых языках, особенно в Лиспе и подобных языках, программы по существу неотличимы от других данных. Также полезно различать метаданные , то есть описание других данных. Аналогичный, но более ранний термин для метаданных - «вспомогательные данные». Типичным примером метаданных является каталог библиотеки, который представляет собой описание содержания книг.
Документы данных
Когда данные должны быть зарегистрированы, данные существуют в виде документов данных . Виды документов с данными включают:
- хранилище данных
- исследование данных
- набор данных
- программное обеспечение
- документ с данными
- база данных
- справочник данных
- журнал данных
Некоторые из этих документов с данными (репозитории данных, исследования данных, наборы данных и программное обеспечение) индексируются в индексах цитирования данных , тогда как документы с данными индексируются в традиционных библиографических базах данных, например, в индексе научного цитирования . Смотрите дальше. [14]
Сбор информации
Сбор данных может осуществляться через первичный источник (исследователь является первым, кто получает данные) или вторичный источник (исследователь получает данные, которые уже были собраны из других источников, таких как данные, распространенные в научном журнале). Методологии анализа данных различаются и включают триангуляцию данных и перколяцию данных. [15] Последний предлагает четко сформулированный метод сбора, классификации и анализа данных с использованием пяти возможных углов анализа (по крайней мере, трех), чтобы максимизировать объективность исследования и дать возможность понять исследуемые явления как можно более полно: качественные и количественные методы, обзоры литературы (включая научные статьи), интервью с экспертами и компьютерное моделирование. После этого данные «просачиваются» с использованием ряда заранее определенных шагов для извлечения наиболее релевантной информации.
В других сферах
Хотя данные также все чаще используются в других областях, было высказано предположение, что их высокая интерпретирующая природа может противоречить этике данных как «данных». Питер Чекленд ввел термин capta (от латинского capere , «брать»), чтобы различать огромное количество возможных данных и их подмножество, на которое обращено внимание. [16] Джоанна Друкер утверждала, что, поскольку гуманитарные науки утверждают, что производство знаний «обусловлено, частичным и конститутивным», использование данных может вводить контрпродуктивные допущения, например, что явления дискретны или независимы от наблюдателя. [17] Термин capta , который подчеркивает акт наблюдения как конститутивный, предлагается в качестве альтернативы данным для визуальных представлений в гуманитарных науках.
Смотрите также
- Биологические данные
- Компьютерная память
- Данные (Звездный путь)
- Получение данных
- Анализ данных
- Кабель для передачи данных
- Курирование данных
- Темные данные
- Область данных
- Элемент данных
- Обработка данных
- Управление данными
- Целостность данных
- Обслуживание данных
- Управление данными
- Сбор данных
- Моделирование данных
- Точка данных
- Визуализация данных
- Компьютерная обработка данных
- Сохранение данных
- Публикация данных
- Защита данных
- Остаточная информация
- Наука о данных
- Набор данных
- Структура данных
- Хранилище данных
- База данных
- Техническая спецификация
- Спасение экологических данных
- Полевые работы
- Информационная инженерия
- Машинное обучение
- Открытые данные
- Архивирование научных данных
- Статистика
- Вторичные данные
Рекомендации
Эта статья основана на материалах, взятых из Free On-line Dictionary of Computing до 1 ноября 2008 г. и включенных в соответствии с условиями «перелицензирования» GFDL версии 1.3 или новее.
- ^ a b Глоссарий статистических терминов ОЭСР . ОЭСР. 2008. с. 119. ISBN 978-92-64-025561.
- ^ «Статистический язык - что такое данные?» . Австралийское статистическое бюро . 2013-07-13. Архивировано 19 апреля 2019 года . Проверено 9 марта 2020 .
- ^ «Данные против информации - разница и сравнение | Diffen» . www.diffen.com . Проверено 11 декабря 2018 .
- ^ Йонего, Джорис Тундерс (23 июля 2014 г.). «Данные - новая нефть цифровой экономики» - через www.wired.com.
- ^ «Данные - новая нефть» . 16 июля, 2018. Архивировано из оригинала на 2018-07-16.
- ^ а б "данные | Происхождение и значение данных по онлайн-этимологическому словарю" . www.etymonline.com .
- ^ Американская психологическая ассоциация (2020). «6.11». Публикационное руководство Американской психологической ассоциации: официальное руководство по стилю APA . Американская психологическая ассоциация. ISBN 9781433832161.
- ^ «Совместная публикация 2-0, Объединенная разведка» (PDF) . Объединенный комитет начальников штабов, Joint Doctrine Publications . Министерство обороны. 23 октября 2013. С. I-1 . Проверено 17 июля 2018 года .
- ^ Акаш Митра (2011). «Классификация данных для успешного моделирования» .
- ^ Туоми, Илкка (2000). «Данные - это больше, чем знания». Журнал информационных систем управления . 6 (3): 103–117. DOI : 10.1080 / 07421222.1999.11518258 .
- ^ П. Бейнон-Дэвис (2002). Информационные системы: Введение в информатику в организациях . Бейзингсток, Великобритания: Palgrave Macmillan . ISBN 0-333-96390-3.
- ^ П. Бейнон-Дэвис (2009). Информационные системы для бизнеса . Бейзингсток, Великобритания: Palgrave. ISBN 978-0-230-20368-6.
- ^ Шэрон Дэниэл. База данных: эстетика достоинства .
- ^ Schöpfel et al. 2020. «Информационные документы». Энциклопедия организации знаний ISKO https://www.isko.org/cyclo/data_documents
- ^ Месли, Оливье (2015). Создание моделей в психологических исследованиях. États-Unis: Springer Psychology: 126 страниц. ISBN 978-3-319-15752-8
- ^ П. Чекленд и С. Холуэлл (1998). Информация, системы и информационные системы: понимание поля . Чичестер, Западный Сассекс: John Wiley & Sons. С. 86–89. ISBN 0-471-95820-4.
- ^ Джоанна Друкер (2011). «Гуманитарные подходы к графическому отображению» .
Внешние ссылки
- Данные - существительное в единственном числе (подробная оценка)