Необработанные данные , также известные как первичные данные , представляют собой данные (например, числа, показания приборов, цифры и т. Д.), Собранные из источника. В контексте экзаменов необработанные данные могут быть описаны как необработанные баллы .
Если ученый устанавливает компьютеризированный термометр, который каждую минуту регистрирует температуру химической смеси в пробирке, список значений температуры за каждую минуту, распечатанный в электронной таблице или просматриваемый на экране компьютера, будет «необработанными данными». Необработанные данные не подвергались обработке, «очистке» исследователями для удаления выбросов , очевидных ошибок считывания показаний прибора или ошибок ввода данных или какого-либо анализа (например, определения основных аспектов тенденции, таких как средний или средний результат). Кроме того, необработанные данные не подвергались никаким другим манипуляциям со стороны программного обеспечения или человека-исследователя, аналитика или технического специалиста. Их также называют первичнымиданные. Необработанные данные - это относительный термин (см. Данные ), потому что даже после того, как необработанные данные были «очищены» и обработаны одной группой исследователей, другая группа может рассматривать эти обработанные данные как «сырые данные» для другого этапа исследования. Исходные данные могут быть введены в компьютерную программу или использовать в ручных процедур , таких как анализ статистических данных из опроса . Термин «необработанные данные» может относиться к двоичным данным на электронных запоминающих устройствах, таких как жесткие диски (также называемые «низкоуровневыми данными»).
Создание данных
Данные могут быть созданы или созданы двумя способами. Первый - это то, что называется «собранными данными» [1], и обнаруживается путем целенаправленного расследования или анализа. Второй называется «выхлопные данные» [1] и обычно собирается машинами или терминалами в качестве вторичной функции. Например, кассовые аппараты, смартфоны и спидометры выполняют основную функцию, но могут собирать данные в качестве второстепенной задачи. Исчерпывающие данные обычно слишком велики или бесполезны для обработки и становятся «временными» или выбрасываются. [1]
Примеры
При вычислениях необработанные данные могут иметь следующие атрибуты: они могут содержать человеческие, машинные или инструментальные ошибки, они не могут быть проверены; он может быть в разных языковых ( разговорных ) форматах; некодированные или неформатированные; или некоторые записи могут быть «подозрительными» (например, выбросами ), требующими подтверждения или цитирования . Например, лист ввода данных может содержать даты в виде необработанных данных во многих формах: «31 января 1999 года», «31 января 1999 года», «31 января 1999 года», «31 января» или «сегодня». После захвата эти необработанные данные могут быть обработаны и сохранены в нормализованном формате, например в юлианской дате , чтобы облегчить интерпретацию компьютерами и людьми во время последующей обработки. Необработанные данные (иногда в просторечии называемые «исходными» данными или «яичными» данными, последние относятся к «сырым» данным, то есть «необработанным», как сырое яйцо ) являются данными, вводимыми для обработки. Различают данные и информацию в том смысле, что информация является конечным продуктом обработки данных . Необработанные данные, которые подверглись обработке, иногда в просторечии называют «приготовленными» данными. [ сомнительно ] Хотя необработанные данные могут быть преобразованы в « информацию », прежде чем исходные данные можно будет преобразовать в полезную информацию, требуются извлечение, организация, анализ и форматирование для представления.
Например, кассовый терминал (POS-терминал, компьютеризированный кассовый аппарат ) в загруженном супермаркете каждый день собирает огромные объемы необработанных данных о покупках клиентов. Однако этот список продуктовых товаров и их цены, а также время и дата покупки не дают много информации, пока он не будет обработан. Эти необработанные данные, обработанные и проанализированные программным обеспечением или даже исследователем, использующим ручку, бумагу и калькулятор , могут указывать на конкретные товары, которые покупает каждый клиент, когда он их покупает и по какой цене; кроме того, аналитик или менеджер могут рассчитать средние общие продажи на одного клиента или средние расходы в день недели по часам. Эти обработанные и проанализированные данные предоставляют менеджеру информацию, которую он затем может использовать, чтобы помочь ему определить, например, сколько кассиров нанять и в какое время. Такая информация может затем стать данными для дальнейшей обработки, например, в рамках прогнозной маркетинговой кампании. В результате обработки необработанные данные иногда попадают в базу данных , что позволяет необработанным данным стать доступными для дальнейшей обработки и анализа любым количеством различных способов.
Тим Бернерс-Ли (изобретатель Всемирной паутины ) утверждает, что обмен необработанными данными важен для общества. Вдохновленный от должности по Руфусу Поллок из Фонда Открытых знаний его призыв к действию «Raw Data Now» , а это означает , что каждый должен требовать , чтобы правительства и предприятия разделяют данные , которые они собирают в качестве исходных данных. Он указывает, что «данные определяют огромное количество того, что происходит в нашей жизни… потому что кто-то берет данные и что-то с ними делает». По мнению Бернерса-Ли, научный прогресс будет способствовать развитию науки. Сторонники открытых данных утверждают, что, как только граждане и организации гражданского общества получат доступ к данным от предприятий и правительств, это позволит гражданам и НПО проводить собственный анализ данных, что может расширить возможности людей и гражданского общества. Например, правительство может утверждать, что его политика снижает уровень безработицы , но группа по защите интересов бедности может иметь возможность попросить своих штатных эконометристов провести собственный анализ необработанных данных, что может привести к тому, что эта группа сделает разные выводы о данных. набор.
дальнейшее чтение
- Дайте нам сырые данные и дайте их нам сейчас - сообщение в блоге Руфуса Поллока, вдохновившее Тима Бернерса-Ли
- Тим Бернерс-Ли дает новое определение сети