Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Инициатива кодирования текстаTEI Logo.svg

Text Encoding Initiative ( TEI ) представляет собой текст, ориентированный на сообщество практиков в академической сфере в цифровых гуманитарных , непрерывно работает с 1980 года . Сообщество в настоящее время ведет список рассылки, собрания и серии конференций, а также поддерживает одноименный технический стандарт , журнал , вики , репозиторий GitHub и набор инструментов .

Рекомендации TEI [ править ]

В Принципах TEI коллективно определить тип XML формат, и определяющий вывод сообщества практики. Формат отличается от других широко известных открытых форматов текста (таких как HTML и OpenDocument ) тем, что он в первую очередь семантический, а не презентационный; указывается семантика и интерпретация каждого тега и атрибута. Около 500 различных текстовых компонентов и концепций ( слово , [1] предложение , [2] символ , [3] глиф , [4] человек , [5]так далее.); каждый основан на одной или нескольких академических дисциплинах, и приводятся примеры.

Технические детали [ править ]

Стандарт разделен на две части: дискурсивное текстовое описание с расширенными примерами и обсуждением, а также набор определений по тегам. Схемы в большинстве современных форматов ( DTD , RELAX NG и W3C Schema ) генерируются автоматически из определений тега за тегом. Ряд инструментов поддерживает создание руководств и их применение к конкретным проектам.

Для обхода ограничений, накладываемых базовым Unicode , используется ряд специальных тегов ; глиф, чтобы разрешить представление символов, которые не подходят для включения Unicode [1], и выбор, позволяющий преодолеть требуемую строгую линейность. [6]

Большинство пользователей формата не используют полный набор тегов, а производят настройку, используя подмножество тегов и атрибутов для конкретного проекта, определенных Руководством. Для этой цели TEI определяет сложный механизм настройки, известный как ODD. В дополнение к документированию и описанию каждого тега TEI, спецификация ODD определяет его модель содержимого и другие ограничения использования, которые могут быть выражены с помощью schematron .

TEI Lite является примером такой настройки. Он определяет формат файла на основе XML для обмена текстами. Это управляемый выбор из обширного набора элементов, доступных в полном Руководстве TEI.

Как формат на основе XML, TEI не может напрямую иметь дело с перекрывающейся разметкой и неиерархическими структурами. Руководящие принципы предлагают различные варианты представления данных такого рода. [7]

Примеры [ править ]

Текст руководства TEI богат примерами. На вики-странице TEI [8] также есть страница с примерами, где приводятся примеры реальных проектов, раскрывающих лежащие в их основе TEI.

Теги прозы [ править ]

TEI позволяет синтаксически размечать тексты на любом уровне детализации или смеси гранулярностей. Например, этот абзац (p) был размечен на предложения (s) и пункты (cl). [9]

 <s>  <cl> Примерно в начале сентября 1664 года <cl> я, среди остальных моих соседей, слышал в обычном разговоре <cl> что чума снова вернулась в Голландию; </cl>  </cl>  </cl>  <cl> потому что там было очень жестоко, особенно в Амстердам и Роттердам, в 1663 году, </cl>  <cl> куда, <cl> они говорят, </cl> его привезли, <cl> одни сказали </cl> из Италии, другие из Леванта, в том числе некоторые товары <cl>, которые были доставлены домой их турецким флотом; </cl>  </cl>  <cl> другие сказали, что его привезли из Кандии; другие с Кипра. </cl>  </s>  <s>  <cl> Не имело значения, <cl> откуда оно пришло; </cl>  </cl>  <cl> но все согласились, <cl> он снова прибыл в Голландию. </cl>  </cl>  </s>

Стих [ править ]

TEI имеет теги для разметки стихов. В этом примере (взятом из французского перевода Руководства TEI) показан сонет [10]

<div  type = "sonnet" >  <lg  type = "quatrain" >  <l> Les amoureux fervents et les savants austères </l>  <l> Aiment également, dans leur mûre saison, </l>  <l> Les chats puissants et doux, orgueil de la maison, </l>  <l> Qui come eux sont frileux et com eux sédentaires. </l>  </lg>  <lg  type = "quatrain" >  <l> Amis de la science et de la volupté </l>  <l> Сохраняет тишину и настроение;</l>  <l>L'Érèbe les eût pris pour ses coursiers funèbres, </l>  <l> S'ils pouvaient au servage incliner leur fierté. </l>  </lg>  <lg  type = "tercet" >  <l> Ils prennent en songeant les nobles position </l>  <l> Des grands sphinx allongés au fond des solitude, </l>  <l> Qui подобный s'endormir dans un rêve sans fin; </l>  </lg>  <lg  type = "tercet" >  <l> Leurs reins féconds sont pleins d'étincelles magiques, </l>  <l>Et des parcelles d'or, ainsi qu'un sable fin, </l>  <l>Étoilent vaguement leurs prunelles mystiques. </l>  </lg> </div>

Тег выбора [ править ]

Выбор тег используется для представления разделов текста , которые могут быть закодированы или маркированные в более чем один из возможных способов. В следующем примере, основанном на стандарте, выбор используется дважды: один раз для указания исходного и исправленного года и один раз для указания исходного и упорядоченного написания. [11]

<p  xml: id = "p23" > И наконец, что после торжественной клятвы соблюдать все вышеперечисленноепредметов, названный человек-гора должен иметь суточную нормумяса и питья достаточно для содержания <choice>  <sic> 1724 </sic>  <corr> 1728 </corr>  </choice> наших подданных,со свободным доступом к нашей королевской особе и другим знакам нашего<choice>  <orig> благосклонность </orig>  <reg> благосклонность </reg>  </choice> .

ODD [ править ]

One Document Does it all (ODD) - грамотный язык программирования для схем XML . [12] [13] [14] [15]

В стиле грамотного программирования ODD-документы объединяют удобочитаемую документацию и машиночитаемые модели с использованием модуля Documentation Elements программы Text Encoding Initiative. Инструменты генерируют локализованные и интернационализированные HTML , ePub или PDF - файлы , удобочитаемые для человека, а также DTD , W3C XML Schema , Relax NG Compact Syntax или Relax NG XML Syntax в машиночитаемом формате.

Веб-приложение Roma [16] построено на основе формата ODD и может использовать его для генерации схем в форматах DTD , W3C XML Schema , Relax NG Compact Syntax или Relax NG XML Syntax, которые используются многими инструментами и службами проверки XML.

ODD - это формат, используемый внутри Text Encoding Initiative для их одноименного технического стандарта . [17] Хотя файлы ODD обычно описывают разницу между настраиваемым форматом XML и полной моделью TEI, ODD также можно использовать для описания форматов XML, которые полностью отделены от TEI. Одним из примеров этого является набор тегов интернационализации W3C, который использует формат ODD для создания схем и документирования своего словаря. [18] [19]

Настройки TEI [ править ]

Настройки TEI - это спецификация спецификации TEI XML для использования в определенных областях или определенными сообществами.

  • EpiDoc (эпиграфические документы)
  • Инициатива кодирования чартеров
  • Архив средневековых скандинавских текстов (Менота)

Настройка в TEI выполняется с помощью механизма ODD, упомянутого выше. На самом деле, начиная с версии P5, все так называемые «Соответствующие TEI» виды использования Руководства TEI основаны на настройке TEI, задокументированной в файле TEI ODD. Даже когда пользователи выбирают одну из готовых заранее сгенерированных схем для проверки, они были созданы из свободно доступных файлов настройки.

Проекты [ править ]

Формат используется многими проектами по всему миру. Практически все проекты связаны с одним или несколькими университетами. Некоторые известные проекты, которые кодируют тексты с использованием TEI, включают:

История [ править ]

До создания TEI у ученых-гуманитариев не было общих стандартов кодирования электронных текстов таким образом, чтобы они служили их академическим целям ( Hockey 1993, p. 41). В 1987 году группа ученых, представляющих области гуманитарных наук, лингвистики и информатики, собралась в колледже Вассар, чтобы разработать набор руководящих принципов, известных как «Принципы Покипси». Эти руководящие принципы направили разработку первого стандарта TEI, «P1» [20] [21]

  • 1987 Работа на том, что бы стать TEI начал в ассоциации для компьютеров и гуманитарных наук , [22] в Ассоциации компьютерной лингвистики , а также ассоциации для литературных и лингвистических вычислений . [23] Кульминацией этого стало Заключительное заявление конференции по планированию Вассара [24]
  • В 1994 г. был выпущен TEI P3 [25] под совместным редактированием Лу Бернарда (из Оксфордского университета ) и Майкла Сперберга-Маккуина (затем в Университете Иллинойса в Чикаго , позже в W3C ).
  • Обновлен TEI P3 1999 года .
  • 2002 Выпущен TEI P4, переходящий с SGML на XML; принятие Юникода , который требуется поддерживать синтаксическими анализаторами XML. [26]
  • 2007 TEI P5 отпущен, включая интеграцию с xml:langи xml:idатрибутами из W3C [27] (эти были ранее атрибуты в пространстве имен TEI), регуляризация местных указывающих атрибуты использовать хэш (как это используется в HTML) и унификацию PTR и xptr теги. Вместе эти изменения с множеством новых дополнений делают P5 более регулярным и приближают его к текущей практике XML, продвигаемой W3C и используемой другими вариантами XML. Версии для обслуживания и обновления функций TEI P5 выпускаются не реже двух раз в год с 2007 года.
  • 2011 TEI P5 v2.0.1 выпущен с поддержкой генетического редактирования . [28] (среди многих других дополнений функции генетического редактирования позволяют кодировать тексты без интерпретации их специфической семантики.)
  • 2017 TEI был удостоен премии Антонио Замполли от Альянса цифровых гуманитарных организаций. [29]

Ссылки [ править ]

  1. ^ a b «Элемент w (слово) - TEI P5» .
  2. ^ «Элемент s (s-unit) - TEI P5» .
  3. ^ «Элемент c (персонаж) - TEI P5» .
  4. ^ «Элемент g (символ или глиф) - TEI P5» .
  5. ^ «Элемент person (человек) - TEI P5» .
  6. ^ «Выбор элемента - TEI P5» .
  7. ^ «20 неиерархических структур - TEI P5: - Руководство по кодированию и обмену электронным текстом» . tei-c.org . 2019 . Проверено 19 марта 2019 .
  8. ^ «Образцы текстов TEI» . wiki.tei-c.org . 2011 . Проверено 17 апреля 2012 года .
  9. ^ «17 простых аналитических механизмов - TEI P5: - Руководство по кодированию и обмену электронным текстом» . tei-c.org . 2012 . Проверено 15 апреля 2012 года .
  10. ^ "TEI element lg (groupe de vers)" . tei-c.org . 2012 . Проверено 15 апреля 2012 года .
  11. ^ " Выбор элемента TEI " . tei-c.org . 2012 . Проверено 15 апреля 2012 года .
  12. ^ Бауман, Сид; Фландрия, Джулия (2004), "ODD настройки", Extreme Markup Languages ​​2004.
  13. ^ Бернард, Лу; Ратц, Себастьян (2004), «RelaxNG с сыном ODD», Extreme Markup Languages ​​2004.
  14. ^ Рейсс, Кевин М. (2007), Literate Documentation for XML (PDF) , Урбана-Шампейн, Иллинойс: Цифровые гуманитарные науки 2007 .
  15. ^ Бернард, Лу; Ратц, Себастьян (июнь 2013 г.). «Полный язык определения схемы для Text Encoding Initiative» . XML London 2013 : 152–161. DOI : 10,14337 / XMLLondon13.Rahtz01 . ISBN 978-0-9926471-0-0.
  16. ^ Веб-приложение Roma
  17. ^ Бернард, Лу; Бауман, Сид, ред. (2007), TEI P5: Руководство по кодированию и обмену электронным текстом , Шарлоттсвилль, Вирджиния, США: Консорциум TEI.
  18. ^ Файл W3C ITS и TEI ODD .
  19. ^ Савурель, Ив; Косек, Йирка; Исида, Ричард, ред. (2008), «5.2 ITS и TEI», Лучшие практики для интернационализации XML , Рабочая группа W3C..
  20. ^ Ahronheim, JR (1998). «Описательные метаданные: новые стандарты». Журнал академического библиотечного дела . 24 (5): 395–403. DOI : 10.1016 / S0099-1333 (98) 90079-9 .
  21. ^ Cantara, Л. (2005). «Инициатива кодирования текста: Часть 1». Системы и услуги OCLC . 21 (1): 36–39. DOI : 10.1108 / 10650750510578136 .
  22. ^ ach.org
  23. ^ «Историческая справка», раздел iv.2 TEI P5: Руководство по кодированию и обмену электронным текстом.
  24. ^ "Заключительное заявление конференции по планированию Вассара" . tei-c.org . 2009 . Проверено 15 апреля 2012 года .
  25. ^ «Рекомендации TEI» . Проверено 18 июня 2010 .
  26. ^ "2" , XML Basics , получено 9 июля 2011 г.
  27. ^ «Расширяемый язык разметки (XML) 1.0 (пятое издание)» . w3.org .
  28. ^ «Примечания к выпуску P5 версии 2.0.1» . tei-c.org . 2012 . Проверено 15 апреля 2012 года .
  29. ^ "TEI: Инициатива кодирования текста" .

Внешние ссылки [ править ]

  • Веб-сайт консорциума TEI со списком проектов TEI , формой для добавления вашего проекта и вики
  • Журнал TEI
  • TEI Lite: введение в кодирование текста для обмена
  • TEI @ Oxford (размещенный в Оксфордском университете ) с версиями для разработки и резервного копирования большей части основного контента.
  • Сайт TEI GitHub (размещенный на GitHub ) с репозиторием и системой отслеживания проблем
  • Большой список проектов TEI
  • Что такое TEI? (Вводный обзор Лу Бернарда)