Из Википедии, бесплатной энциклопедии
  (Перенаправлено из машиночитаемых документов )
Перейти к навигации Перейти к поиску

Машиночитаемый документ представляет собой документ , содержание которого может быть легко обрабатываются компьютерами . Такие документы отличаются от машиночитаемых данных тем, что они имеют достаточную структуру, чтобы обеспечить необходимый контекст для поддержки бизнес-процессов, для которых они созданы.

Определение [ править ]

Данные без контекста (использование языка) бессмысленны и не имеют четырех основных характеристик заслуживающих доверия бизнес-записей, указанных в ISO 15489 «Информация и документация - Управление записями» : [1]

Подавляющая часть информации - это неструктурированные данные, и с точки зрения бизнеса это означает, что они «незрелые», т. Е. Уровень 1 (хаотический) модели зрелости возможностей . Такая незрелость ведет к неэффективности, снижает качество и ограничивает эффективность. Неструктурированная информация также плохо подходит для функций управления записями , не предоставляет достаточных доказательств для юридических целей, увеличивает стоимость обнаружения в судебных процессах и делает доступ и использование излишне обременительным в рутинных, текущих бизнес-процессах .

Машиночитаемость имеет как минимум четыре аспекта:

  • Во-первых, слова или фразы должны быть дискретно разграничены (помечены), чтобы компьютерное программное обеспечение и / или логику оборудования можно было применить к ним как к отдельным концептуальным элементам.
  • Во-вторых, семантика каждого элемента должна быть указана так, чтобы компьютеры могли помочь людям достичь общего понимания их значений и потенциального использования.
  • В-третьих, если также указаны отношения между отдельными элементами, компьютеры могут автоматически применять к ним выводы, тем самым еще больше избавляя людей от бремени попыток понять их, особенно в целях исследования, открытия и анализа.
  • В-четвертых, если также указаны структуры документов, в которых присутствуют элементы, человеческое понимание еще больше улучшится, и данные станут более надежными для юридических и деловых целей.

Еще в 1983 году Счетная палата правительства США (GAO) начала подчеркивать преимущества машиночитаемой информации. [2] Еще раньше, в 1981 году, GAO начало сообщать о проблеме неадекватной практики ведения документации в федеральном правительстве США. [3] Такие недостатки присущи не только правительству, и достижения в области информационных технологий означают, что большая часть информации теперь «рождается в цифровом виде», и поэтому потенциально гораздо легче управлять с помощью автоматизированных средств. [4] Тем не менее, в показаниях Конгрессу в 2010 году GAO подчеркнуло проблемы с управлением электронными записями, и совсем недавно, в 2015 году, GAO продолжало сообщать о несоответствиях в деятельности агентств исполнительной ветви при соблюдении требований к управлению записями.[5] [6] Более того, более чем через два десятилетия после того, как крупная и ранее весьма уважаемая аудиторская фирма Arthur Andersen потерпела крах из-за скандала с уничтожением документации, практика ведения документации стала центральной проблемой на президентских выборах 2016 года.

4 января 2011 года президент Обама подписал HR 2142, Закон о модернизации деятельности и результатах правительства (GPRA) от 2010 года (GPRAMA), в качестве закона PL 111-352. Раздел 10 GPRAMA требует, чтобы федеральные агентства США публиковали свои стратегические планы и планы производительности и отчеты в машиночитаемом формате с возможностью поиска. [7] Кроме того, в 2013 году, он издал правительственное распоряжение 13642, Изготовление Открыть и машиносчитываемой Новое По умолчанию для правительственной информации в целом. [8] 28 июля 2016 года Управление управления и бюджета (OMB) включило в пересмотренный выпуск Циркуляра A-130 указание агентствам использовать открытые машиночитаемые форматы, [9]и публиковать «общедоступную информацию в Интернете таким образом, чтобы способствовать ее анализу и повторному использованию для максимально широкого диапазона целей» [10], что означает, что информация является как общедоступной, так и машиночитаемой. С 14 января 2019 года, президент Trump подписал закон HR 4174, [11] Закон открытого правительства данных (огда), который шифрует в законе требование для агентств , чтобы их активы общественности данные доступны в машиночитаемом виде. 28 июня 2019 г. в Циркуляре A-11 [12] OMB выразило намерение начать соблюдать раздел 10 GPRAMA. [13]

В поддержку такого направления политики технический прогресс делает возможным более эффективное и действенное управление машиночитаемыми электронными записями и их использование. Документно-ориентированные базы данных были разработаны для хранения, извлечения и управления документно-ориентированной информацией, также известной как полуструктурированные данные. Extensible Markup Language ( XML ) - это Рекомендация Консорциума Всемирной паутины ( W3C ), устанавливающая правила кодирования документов в формате, который удобен для чтения человеком и компьютером. Многие редактор XMLбыли разработаны инструменты, и большинство, если не все основные приложения информационных технологий, в большей или меньшей степени поддерживают XML. Тот факт, что XML сам по себе является открытым стандартным машиночитаемым форматом, позволяет разработчикам приложений сделать это относительно легко.

В сопроводительной Рекомендации W3C по схеме XML ( XSD ) указывается, как формально описывать элементы в документе XML. Что касается спецификации схем XML, Организация по развитию стандартов структурированной информации (OASIS) является ведущей организацией по разработке стандартов . Однако многие технические разработчики предпочитают работать с JSON , и для определения структуры данных JSON для проверки, документирования и управления взаимодействием схема JSON была разработана Инженерной группой Интернета (IETF).

Portable Document Format (PDF) представляет собой формат файла , используемый для настоящих документов в манере , независимо от прикладного программного обеспечения, аппаратного обеспечения и операционных систем. Каждый файл PDF инкапсулирует полное описание представления документа, включая текст, шрифты, графику и другую информацию, необходимую для его отображения. PDF / A - это стандартизированная ISO версия PDF, предназначенная для использования при архивировании и долгосрочном хранении электронных документов. PDF / A-3 позволяет встраивать другие форматы файлов, включая XML, в документы, соответствующие PDF / A, что потенциально обеспечивает лучшую читаемость как для человека, так и для машины. Язык разметки W3C XSL-FO (объекты форматирования XSL) обычно используется для создания файлов PDF.

Метаданные , данные о данных, могут использоваться для организации электронных ресурсов, обеспечения цифровой идентификации и поддержки архивирования и сохранения ресурсов. В хорошо структурированных, машиночитаемых электронных записях содержимое может быть преобразовано как в данные, так и в метаданные. В контексте систем электронного учета термины «управление» и «метаданные» практически синонимичны. При наличии надлежащих метаданных функции управления записями можно автоматизировать, тем самым снижая риск кражи доказательств и других мошеннических манипуляций с записями. Более того, такие записи могут использоваться для автоматизации процесса аудита данных, хранящихся в базах данных., тем самым снижая риск возникновения единичных точек отказа, связанных с макиавеллистской концепцией единого источника истины .

Блокчейн (база данных) - это новая технология для поддержки постоянно растущих списков записей, защищенных от подделки и редактирования. Ключевой особенностью является то, что каждый узел в децентрализованной системе имеет копию блокчейна, поэтому нет единой точки отказа, подверженной манипуляциям и мошенничеству .

См. Также [ править ]

  • Будапештская декларация о машиносчитываемых проездных документах
  • Сравнение редакторов XML
  • Четыре угла (закон)
  • Целостность и особенно целостность данных
  • Связанные данные
  • Машиночитаемый паспорт
  • Язык разметки
  • Открытые данные
  • Надежность (статистика) , целостность данных , надежность (компьютерные сети) и надежность (методы исследования)
  • Язык разметки стратегии (StratML)
  • Структурированный документ
  • Тег (метаданные)
  • Универсальный деловой язык (UBL)
  • XBRL (расширяемый язык бизнес-отчетности)

Ссылки [ править ]

  1. ^ «Руководство NARA по управлению веб-записями» . Национальный архив . 15 августа 2016 г.
  2. ^ «Лучшее использование информационных технологий может снизить нагрузку на федеральную документацию» (PDF) . gao.gov . 1983-04-11 . Проверено 25 июля 2019 . CS1 maint: обескураженный параметр ( ссылка )
  3. ^ «УПРАВЛЕНИЕ ФЕДЕРАЛЬНЫМИ ЗАПИСЯМИ: История пренебрежения» . gao.gov . 1981-02-24 . Проверено 8 сентября 2016 . CS1 maint: обескураженный параметр ( ссылка )
  4. ^ «Определение« рожденного цифровым »: эссе Рики Эрвея, OCLC Research» (PDF) . oclc.org . 2010-11-30 . Проверено 8 сентября 2016 . CS1 maint: обескураженный параметр ( ссылка )
  5. ^ «УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ: проблемы управления электронными записями, заявление Валери С. Мелвин, директора по вопросам управления информацией и человеческого капитала» (PDF) . gao.gov . 2010-06-17 . Проверено 8 сентября 2016 . CS1 maint: обескураженный параметр ( ссылка )
  6. ^ «УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ: необходимы дополнительные действия для удовлетворения требований Директивы об управлении государственными записями» . gao.gov . 2015-05-14 . Проверено 8 сентября 2016 . CS1 maint: обескураженный параметр ( ссылка )
  7. ^ «GPRAMA SEC. 10. ФОРМАТ ПЛАНОВ И ОТЧЕТОВ» . congress.gov . 2011-01-04. Архивировано из оригинала на 2016-04-13 . Проверено 8 сентября 2016 . CS1 maint: обескураженный параметр ( ссылка )
  8. ^ «Исполнительное распоряжение 13642 в открытом стандартном машиночитаемом формате языка стратегической разметки» . whitehouse.gov . 2013-05-09. Архивировано из оригинала на 2016-03-03 . Проверено 8 сентября 2016 . CS1 maint: обескураженный параметр ( ссылка )
  9. ^ "Циркуляр StrategicPlan № A-130, Управление информацией как стратегическим ресурсом, цель d.5.a: совместимость, API и машиночитаемость" .
  10. ^ «Циркуляр Стратегического плана № A-130, Управление информацией как стратегическим ресурсом, цель e.2.a: публикация» .
  11. Райан, Пол Д. (14 января 2019 г.). «Текст - HR4174 - 115-й Конгресс (2017-2018 гг.): Закон 2018 г. об основах разработки политики на основе фактов» . www.congress.gov .
  12. ^ «ПОДГОТОВКА, ПОДАЧА И ИСПОЛНЕНИЕ БЮДЖЕТА» (PDF) . whitehouse.gov . 2019-06-28 . Проверено 25 июля 2019 . CS1 maint: обескураженный параметр ( ссылка )
  13. ^ "Циркуляр StrategicPlan № A-130, Управление информацией как стратегический ресурс, объективная машиночитаемость" .

Внешние ссылки [ править ]

  • OMB M-13-13 , Политика открытых данных: управление информацией как активом, которая требует от агентств использовать открытые, машиночитаемые стандарты формата данных.
  • Руководство NARA по управлению веб-записями , январь 2005 г., в котором описаны характеристики достоверных записей.
  • Делая ставку на самое сердце метода управления записями компании Capone Consultancy: передовые методы исправления нонсенс , не связанных с записями , 9 марта 2015 г.
  • Кодекс США, в котором термин "машиночитаемый" встречается более 50 раз по состоянию на 10 сентября 2016 г.