Данные (вычисления)

Различные типы данных, которые можно визуализировать с помощью компьютерного устройства.

Данные (рассматриваемые как единственное, множественное число или как неисчерпаемое существительное ) - это любая последовательность из одного или нескольких символов . Датаум - это единственный символ данных. Данные требуют интерпретации, чтобы стать информацией .

Цифровые данные - это данные, представленные с использованием двоичной системы счисления единиц (1) и нулей (0), в отличие от аналогового представления. В современных (после 1960 г.) компьютерных системах все данные являются цифровыми. Данные внутри компьютера в большинстве случаев перемещаются как параллельные данные . Данные, перемещаемые на компьютер или с компьютера, в большинстве случаев перемещаются как последовательные данные . Данные, полученные от аналогового устройства, такого как датчик температуры, могут быть преобразованы в цифровую форму с помощью аналого-цифрового преобразователя .

Данные, представляющие количества , символы или символы, с которыми операции выполняются компьютером , хранятся и записываются на магнитных , оптических , электронных или механических носителях записи и передаются в форме цифровых электрических или оптических сигналов. ^[1]

Программа представляет данные в виде закодированных инструкций для управления работой компьютера или другого устройства. ^[2] Элементы памяти физического компьютера состоят из адреса и байта / слова хранения данных. Цифровые данные часто хранятся в реляционных базах данных , таких как таблицы или базы данных SQL, и обычно могут быть представлены в виде абстрактных пар ключ / значение.

Данные могут быть организованы во множество различных типов структур данных , включая массивы, графики и объекты . Структуры данных могут хранить данные самых разных типов , включая числа , строки и даже другие структуры данных . Данные передаются на компьютер и выводятся из него через периферийные устройства .

При альтернативном использовании двоичные файлы (которые не читаются человеком ) иногда называют «данными» в отличие от « текста », удобочитаемого человеком . ^[3] Общий объем цифровых данных в 2007 году оценивался в 281 миллиард гигабайт (= 281 эксабайт ). ^[4]^[5] Цифровые данные находятся в трех состояниях: данные в состоянии покоя , данные в пути и данные в использовании .

Характеристики [ править ]

Чтобы преобразовать данные в информацию, необходимо учитывать несколько известных факторов. Вовлеченные факторы определяются создателем данных и желаемой информацией. Метаданные - это данные о данных. Метаданные могут быть подразумеваемыми, указанными или предоставленными. Данные, относящиеся к физическим событиям или процессам, также будут иметь временную составляющую. Практически во всех случаях подразумевается этот временной компонент. Это тот случай, когда такое устройство, как регистратор температуры, получает данные от датчика температуры . Когда температура получена, предполагается, что данные имеют временную привязку к настоящему моменту . Таким образом, устройство записывает дату, время и температуру вместе. Когда регистратор данных сообщает температуру, он также должен сообщать дату и время ( метаданные) для каждого показания температуры.

В самом важном случае единичные данные - это значение, хранящееся в определенном месте.

По сути, компьютеры следуют последовательности инструкций, которые им даны в форме данных. Набор инструкций для выполнения данной задачи (или задач) называется « программой ». В номинальном случае программа, выполняемая компьютером, будет состоять из двоичного машинного кода . Элементы хранилища, которыми манипулирует программа, но фактически не выполняет ЦП , также являются данными. Инструкции программы и данные, которыми она манипулирует, хранятся одинаково. Следовательно, компьютерные программы могут работать с другими компьютерными программами, манипулируя их программными данными.

Граница между программой и данными может стать размытой. Например, интерпретатор - это программа. Входные данные для интерпретатора - это сама программа, а не программа, выраженная на собственном машинном языке . Во многих случаях интерпретируемая программа будет представлять собой читаемый человеком текстовый файл , который обрабатывается с помощью программы текстового редактора (более обычно связанной с текстовыми данными). Метапрограммирование аналогичным образом включает программы, манипулирующие другими программами как данными. Такие программы, как компиляторы , компоновщики , отладчики , средства обновления программ , антивирусные сканеры. и такие используют другие программы в качестве своих данных.

Чтобы хранить байты данных в файле, они должны быть сериализованы в « файловый формат ». Обычно программы хранятся в файлах особых типов , отличных от тех, которые используются для других данных. Исполняемые файлы содержат программы; все остальные файлы также являются файлами данных . Однако исполняемые файлы могут также содержать «встроенные» данные, встроенные в программу. В частности, некоторые исполняемые файлы имеют сегмент данных , который номинально содержит константы и начальные значения (оба данных).

Например: пользователь может сначала проинструктировать операционную систему загрузить программу текстового процессора из одного файла, а затем отредактировать документ, хранящийся в другом файле, с помощью программы текстового процессора. В этом примере документ будет считаться данными. Если в текстовом процессоре также есть средство проверки орфографии , то словарь (список слов) для средства проверки орфографии также будет считаться данными. Эти алгоритмы , используемые проверки орфографии , чтобы предложить поправки будут либо машинный код данные или текст в некотором интерпретируемом языке программирования .

Ключи и значения данных, структуры и постоянство [ править ]

Ключи в данных обеспечивают контекст для значений. Независимо от структуры данных всегда присутствует ключевой компонент. Ключи данных в данных и структурах данных важны для придания значения значениям данных. Без ключа, который прямо или косвенно связан со значением или набором значений в структуре, значения теряют смысл и перестают быть данными. То есть должен быть по крайней мере ключевой компонент, связанный с компонентом значения, чтобы он считался данными. Данные могут быть представлены на компьютерах разными способами, как показано в следующих примерах:

RAM [ править ]

Оперативная память хранит данные, к которым процессор (ы) компьютера имеет прямой доступ. Компьютерный процессор ( ЦП ) может управлять данными только внутри себя ( регистр процессора ) или в памяти. Это отличается от хранилища данных, когда процессор (ы) должен перемещать данные между устройством хранения (диск, лента ...) и памятью. RAM - это массив из одного (1) или более блоков линейных смежных местоположений, которые процессор может читать или записывать, предоставляя адрес для операции чтения или записи. «Случайная» часть ОЗУ означает, что процессор может работать в любом месте памяти в любое время в любом порядке. (См. Также модуль управления памятью ). В ОЗУ самым маленьким элементом данных является «двоичный бит.". Возможности и ограничения доступа к ОЗУ зависят от процессора. Как правило, основная память или ОЗУ организована как массив« наборов электронных переключателей включения / выключения »или ячеек, начинающихся с адреса 0 ( шестнадцатеричный 0). Обычно в каждой ячейке может храниться 8, 16, 32 или 64 параллельных бита в зависимости от архитектуры процессора ( ЦП ). Следовательно, любое значение, хранящееся в байте в ОЗУ, имеет совпадающую ячейку, выраженную как смещение от первой ячейки памяти в массиве памяти, то есть 0 + n, где n - смещение в массиве ячеек памяти.

Ключи [ править ]

Ключи данных не обязательно должны быть прямым аппаратным адресом в памяти. Коды косвенных , абстрактных и логических ключей могут храниться в ассоциации со значениями для формирования структуры данных . Структуры данных имеют заранее определенные смещения (или ссылки или пути) от начала структуры, в которой хранятся значения данных. Следовательно, ключ данных состоит из ключа структуры и смещения (или ссылок, или путей) в структуре. Когда такая структура повторяется, сохраняя вариации [значений данных и ключей данных] в одной и той же повторяющейся структуре, результат можно рассматривать как похожий на таблицу, в котором каждый элемент повторяющейся структуры рассматривается как столбец, а каждое повторение структуры рассматривается как строка таблицы. При такой организации данных ключ данных обычно представляет собой значение в одном (или совокупность значений в нескольких) столбцах.

Организованные повторяющиеся структуры данных [ править ]

Табличный вид повторяющихся структур данных является только одна из многих возможностей. Повторяющиеся структуры данных могут быть организованы иерархически , так что узлы связаны друг с другом в виде каскада родительско-дочерних отношений. С узлами связаны значения и потенциально более сложные структуры данных. Таким образом, узловая иерархия обеспечивает ключ для адресации структур данных, связанных с узлами. Это представление можно рассматривать как перевернутое дерево . Например, файловые системы современных компьютерных операционных систем являются типичным примером; и XML - другое.

Отсортированные или упорядоченные данные [ редактировать ]

При сортировке данных по ключу присущи некоторые особенности . Все значения для подмножеств ключа отображаются вместе. При последовательном прохождении групп данных с одним и тем же ключом или подмножества ключевых изменений это называется в кругах обработки данных разрывом или контрольным разрывом . Это особенно облегчает агрегирование значений данных по подмножествам ключа.

Периферийное хранилище [ править ]

До появления энергонезависимой памяти компьютера, такой как USB-накопители , постоянное хранение данных традиционно достигалось путем записи данных на внешние блочные устройства, такие как магнитная лента и дисководы . Эти устройства обычно ищут место на магнитном носителе, а затем читают или записывают блоки данных заданного размера. В этом случае местом поиска на носителе является ключ данных, а блоки - значения данных. Ранние файловые системы данных или дисковые операционные системы, используемые для резервирования непрерывных блоков на диске для файлов данных. В этих системах файлы могли быть заполнены, не имея места для данных до того, как в них были записаны все данные. Таким образом, много неиспользуемого пространства данных было зарезервировано непродуктивно, чтобы избежать возникновения такой ситуации. Это было известно как необработанный диск. Позже файловые системы представили разделы. Они зарезервировали блоки дискового пространства данных для разделов и более экономно использовали выделенные блоки, динамически назначая блоки раздела для файла по мере необходимости. Чтобы достичь этого, файловая система должна была отслеживать, какие блоки использовались или не использовались файлами данных в каталоге или таблице размещения файлов. Хотя это позволило лучше использовать пространство данных диска, это привело к фрагментации файлов на диске и сопутствующим накладным расходам производительности из-за задержки. Современные файловые системы динамически реорганизуют фрагментированные файлы для оптимизации времени доступа к файлам. Дальнейшее развитие файловых систем привело к виртуализации дисководов, то есть логический диск можно определить как разделы из нескольких физических дисков.

Индексированные данные [ править ]

Получение небольшого подмножества данных из гораздо большего набора подразумевает поиск данных последовательно. Это неэкономично. Индексы - это способ скопировать ключи и адреса местоположения из структур данных в файлах, таблицах и наборах данных, а затем организовать их с помощью инвертированных древовидных структур, чтобы сократить время, необходимое для извлечения подмножества исходных данных. Для этого ключ подмножества извлекаемых данных должен быть известен до начала извлечения. Самые популярные индексы - это B-дерево и динамический хеш.ключевые методы индексации. Индексирование - это еще одна дорогостоящая операция по хранению и извлечению данных. Существуют и другие способы организации индексов, например, сортировка ключей или корректировка количеств (или даже ключа и данных вместе) и использование двоичного поиска по ним.

Абстракция и косвенность [ править ]

Объектная ориентация использует две основные концепции для понимания данных и программного обеспечения: 1) таксономическая ранговая структура классов программного кода , которая является примером иерархической структуры данных; и 2) Во время выполнения создание ссылок ключа данных на структуры данных в памяти объектов, экземпляры которых были созданы из библиотеки классов . Только после создания экземпляра существует исполняемый объект указанного класса. После того, как ссылка на ключ объекта обнуляется, данные, на которые ссылается этот объект, перестают быть данными, поскольку ссылка на ключ данных имеет значение null; и поэтому объект также перестает существовать. Ячейки памяти, в которых хранились данные объекта, затем называются мусором и переклассифицируются как неиспользуемая память, доступная для повторного использования.

Данные базы данных [ править ]

С появлением баз данных появился дополнительный уровень абстракции для постоянного хранения данных. Базы данных используют метаданные и протокол структурированного языка запросов между клиентскими и серверными системами, обмениваются данными по сети, используя двухфазную систему регистрации фиксации для обеспечения полноты транзакций при сохранении данных.

Параллельная распределенная обработка данных [ править ]

Современные масштабируемые / высокопроизводительные технологии сохранения данных полагаются на массовую параллельную распределенную обработку данных на многих обычных компьютерах в сети с высокой пропускной способностью. Примером одного из них является Apache Hadoop . В таких системах данные распределяются между несколькими компьютерами, и поэтому любой конкретный компьютер в системе должен быть представлен в ключе данных, прямо или косвенно. Это позволяет различать два идентичных набора данных, каждый из которых одновременно обрабатывается на другом компьютере.

См. Также [ править ]

язык ассемблера
Большое количество данных
Автобус (вычисления)
Байт
Память компьютера
ЦПУ
Кэш процессора
Данные
Словарь с данными
Моделирование данных
Сеть передачи данных
Устройство хранения данных
Поток данных
Тип данных
База данных
Шина данных
Набор данных
Цифровые данные
Иностранный ключ
Хеш-ключ
Информационный процессор
Набор инструкций
Адрес / место в памяти / ключ
Смещение (информатика)
Первичный / уникальный ключ
Регистр процессора
Регистр сдвига
Государство (информатика)
Кортеж
Ценность (информатика)
Архитектура фон Неймана

Ссылки [ править ]

^ "данные" . Оксфордские словари . Архивировано 06.10.2012 . Проверено 11 октября 2012 .
^ "компьютерная программа" . Оксфордский карманный словарь современного английского языка . Архивировано 28 ноября 2011 года . Проверено 11 октября 2012 .
^ "файл (1)" . Страницы руководства OpenBSD . 2015-12-24. Архивировано 05 февраля 2018 года . Проверено 4 февраля 2018 .
↑ Пол, Райан (12 марта 2008 г.). «Исследование: количество цифровой информации> емкость глобального хранилища» . Ars Technics. Архивировано 13 марта 2008 года . Проверено 12 марта 2008 .
^ Ганц, Джон Ф .; и другие. (2008). «Разнообразная и развивающаяся цифровая вселенная» . Международная корпорация данных через EMC. Архивировано из оригинала на 2008-03-11 . Проверено 12 марта 2008 .

[1] "данные" . Оксфордские словари . Архивировано 06.10.2012 . Проверено 11 октября 2012 .

[2] "компьютерная программа" . Оксфордский карманный словарь современного английского языка . Архивировано 28 ноября 2011 года . Проверено 11 октября 2012 .

[3] "файл (1)" . Страницы руководства OpenBSD . 2015-12-24. Архивировано 05 февраля 2018 года . Проверено 4 февраля 2018 .

[4] Пол, Райан (12 марта 2008 г.). «Исследование: количество цифровой информации> емкость глобального хранилища» . Ars Technics. Архивировано 13 марта 2008 года . Проверено 12 марта 2008 .

[5] Ганц, Джон Ф .; и другие. (2008). «Разнообразная и развивающаяся цифровая вселенная» . Международная корпорация данных через EMC. Архивировано из оригинала на 2008-03-11 . Проверено 12 марта 2008 .

[1]