Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Машиночитаемые данные или машиночитаемые данные - это данные в формате, который может обрабатывать компьютер . Машиночитаемые данные должны быть структурированными данными . [1]

В Соединенных Штатах Закон об открытых правительственных данных от 14 января 2019 года определяет машиночитаемые данные как «данные в формате, который может легко обрабатываться компьютером без вмешательства человека, при этом не теряется семантическое значение». Закон предписывает федеральным агентствам США публиковать общедоступные данные таким образом [2], гарантируя, что «любые общедоступные данные агентства являются машиночитаемыми». [3]

Машиночитаемые данные можно разделить на две группы: удобочитаемые данные, размеченные так, чтобы их могли читать машины (например, микроформаты , RDFa , HTML ), и форматы файлов данных, предназначенные в основном для машинной обработки ( CSV , RDF , XML , JSON ). Эти форматы машиночитаемы только в том случае, если содержащиеся в них данные формально структурированы; экспорт CSV-файла из плохо структурированной электронной таблицы не соответствует определению.

Машиносчитываемый не является синонимом цифрового доступа . Документ, доступный в цифровом виде, может быть в сети, что облегчает доступ людей через компьютеры, но его содержимое гораздо сложнее извлекать, преобразовывать и обрабатывать с помощью логики компьютерного программирования, если он не является машиночитаемым. [4]

Расширяемый язык разметки (XML) предназначен для чтения как человеком, так и машиной, а преобразование расширяемого языка таблиц стилей (XSLT) используется для улучшения представления данных для удобства чтения человеком. Например, XSLT можно использовать для автоматической визуализации XML в формате переносимого документа (PDF). Машиночитаемые данные могут быть автоматически преобразованы для удобства чтения человеком, но, вообще говоря, обратное неверно.

В целях реализации Закона о модернизации государственного управления и результатов (GPRA), Управление управления и бюджета(OMB) определяет «машиночитаемый формат» следующим образом: «Формат на стандартном компьютерном языке (не английский текст), который может быть автоматически прочитан веб-браузером или компьютерной системой (например, xml). Традиционные текстовые документы и переносимые документы файлы формата (PDF) легко читаются людьми, но обычно их трудно интерпретировать на машинах. Другие форматы, такие как расширяемый язык разметки (XML), (JSON) или электронные таблицы со столбцами заголовков, которые можно экспортировать как значения, разделенные запятыми (CSV) являются машиночитаемыми форматами.Поскольку HTML является языком структурной разметки, незаметно маркирующим части документа, компьютеры могут собирать компоненты документа для составления оглавлений, схем, библиографий для поиска литературы и т.Можно сделать традиционные текстовые документы и другие форматы машиночитаемыми, но документы должны включать улучшенные структурные элементы ».[5]

См. Также [ править ]

Ссылки [ править ]

  1. ^ "Машиночитаемый" . opendatahandbook.org . Проверено 22 июля 2019 .
  2. ^ "HR4174" . stratml.us .
  3. ^ "HR4174" . stratml.us .
  4. ^ «Учебник по машиносчитываемости онлайн-документов и данных» . Data.gov . 2012-09-24 . Проверено 27 февраля 2015 .
  5. ^ АБУ циркуляр-11, часть 6 архивации 2020-04-22 в Wayback Machine , подготовки, представления и исполнения бюджета