Из Википедии, бесплатной энциклопедии
  (Перенаправлено из Early English Books Online )
Перейти к навигации Перейти к поиску

Текст Создание партнерства ( TCP ) является организацией , не некоммерческое основе в библиотеке Мичиганского университета с 2000 года . Его цель состоит в том, чтобы производить крупномасштабные полнотекстовые электронные ресурсы (особенно в области гуманитарных наук) от имени как организаций-членов (в частности, академических библиотек), так и научных издателей, в соответствии с соглашением, рассчитанным на удовлетворение потребностей обеих сторон, и при этом продемонстрировать ценность бизнес-модели, которая рассматривает корпоративных и некоммерческих поставщиков информации как потенциально дружественных партнеров, а не как противоборствующих поставщиков и клиентов соответственно. [1]

Проекты [ править ]

На сегодняшний день TCP спонсировала четыре проекта по созданию текста. Первым и самым крупным является "EEBO-TCP (Phase I)" (2001–2009), попытка создать структурно размеченные полнотекстовые транскрипции 25 000+ из примерно 125 000 книг, которые можно найти в журналах Pollard и Redgrave. и каталоги Wing с короткими названиями ранних английских печатных книг или среди трактатов Томасона , то есть почти из всех книг, брошюр и рекламных листовок, изданных на английском языке или в Англии до 1700 года. Книги были отобраны и расшифрованы с цифровых сканированных изображений. производится ProQuest Information and Learning и распространяется ими в виде веб-продукта под названием " Early English Books Online""(EEBO). Сканы, с которых были расшифрованы тексты, сами были сделаны с копий микрофильмов, сделанных на протяжении многих лет ProQuest и ее предшествующими компаниями, включая оригинал University Microfilms, Inc. [2] Фаза I EEBO-TCP завершилась в в конце 2009 года, переписав около 25 300 наименований, и сразу же перешел в EEBO-TCP Phase II (2009–), продолжение проекта, посвященного преобразованию всех оставшихся уникальных англоязычных монографий (примерно 45 000 дополнительных наименований).

Третьим проектом TCP был Evans-TCP (2003–2007 гг., Работа продолжалась до 2010 г.), попытка расшифровать 6000 из 36000 названий до 1800 г., перечисленных в Американской библиографии Чарльза Эванса , и распространять их снова в виде изображений страниц, сканированных из копии микрофильмов, сделанные Readex , подразделением NewsBank, Inc. под названием « Архив Америки » («Ранние американские отпечатки, серия I: Эванс, 1639–1800»). Evans-TCP выпустила электронные тексты почти для 5 000 книг.

Последним проектом TCP был ECCO-TCP (2005–2010, некоторые работы продолжаются), попытка расшифровать 10 000 книг восемнадцатого века из 136 000 наименований, имеющихся на веб-ресурсе Thomson-Gale «Коллекции восемнадцатого века». Онлайн »(ECCO). ECCO-TCP исчерпал финансирование в 2010 году после расшифровки около 3000 (и редактирования около 2400) заголовков.

Общие черты проекта [ править ]

Все четыре текстовых проекта TCP очень похожи. В каждом случае:

  1. TCP создает текст из коммерческих файлов изображений, которые, в свою очередь, были созданы из копий на микрофильмах ранних книг.
  2. Коммерческие поставщики изображений получают то, что по сути является полнотекстовым индексом своего графического продукта, гораздо дешевле, чем это стоило бы для их производства: добавленная стоимость к их продукту.
  3. Библиотеки-партнеры фактически владеют, а не просто лицензируют полученные тексты, и могут (при определенных условиях) самостоятельно монтировать тексты в любой системе, которая им нравится, или использовать тексты для внутренних целей в качестве инструмента обучения и обучения.
  4. Тексты создаются в соответствии со стандартами, определенными библиотекой, единообразны для множества наборов данных и потенциально доступны для перекрестного поиска.
  5. Поскольку они создаются совместно, тексты относительно недороги (в расчете на каждую книгу) и становятся все дороже с каждой библиотекой, которая присоединяется к партнерству.
  6. В конечном итоге тексты станут доступны для широкой публики.
  7. Выбор текстов для преобразования, хотя и отличается от проекта к проекту, в каждом случае следует схожим принципам: разнообразие, значимость, репрезентативность, избежание дублирования; особые запросы от преподавателей или научных инициатив в организациях-членах также обычно выполняются.
  8. До сих пор TCP был в первую очередь заинтересован в создании текстов, а не в создании «продукта»; хотя тексты из всех трех проектов установлены или будут монтироваться на серверах библиотеки Мичиганского университета, сайт в Мичигане не является официальным сайтом TCP: любая партнерская библиотека с соответствующими ресурсами и гарантиями может делать то же самое. Тексты EEBO-TCP, например, обслуживаются Мичиганом, ProQuest, Цифровой библиотекой Оксфордского университета и Чикагским университетом.

Организация [ править ]

TCP находится под контролем Совета директоров, состоящего в основном из старших администраторов библиотек партнерских учреждений, представителей корпоративных партнеров и Совета по библиотечным и информационным ресурсам (CLIR). Совету помогает в вопросах отбора и стипендии академическая консультативная группа, в которую входят преподаватели в области раннего современного английского и американистики.

TCP поддерживает неформальные связи с рядом университетских научных текстовых проектов, особенно в том, что касается предоставления им исходных текстов для работы. Представленные учреждения включают Северо-Западный университет (Иллинойс), Оксфордский университет (Великобритания), Вашингтонский университет (Сент-Луис), Сиднейский университет (Австралия), Университет Торонто (ON) и Университет Виктории (Британская Колумбия). TCP также работал со студентами, ежегодно спонсируя конкурс эссе для студентов, созывая рабочие группы по использованию текстов TCP в педагогике и обращаясь к ученым и студентам за идеями по выбору и использованию.

Производство текста осуществляется через Службу создания цифровых библиотек (DLPS) Мичиганского университета, имеющую обширный опыт в производстве электронных текстов в кодировке SGML / XML. DLPS помогает Бодлеанская система цифровых библиотек Оксфордского университета и услуги (BDLSS), в том числе покойный Себастьян Ратц . Небольшие производственные операции с неполным рабочим днем ​​были также начаты в двух других библиотеках: Центре исследований реформации и возрождения в Библиотеке Пратта (Университет Виктории в Университете Торонто), специализирующемся на книгах на латинском языке; и Национальная библиотека Уэльса (Llyfrgell Genedlaethol Cymru) в Аберистуите, специализирующаяся на валлийских книгах.

Стандарты [ править ]

Все четыре текстовых проекта TCP создаются одинаковым образом и в соответствии с одними и теми же стандартами, которые задокументированы, по крайней мере частично, на веб-сайте TCP. [3]

  1. Точность. TCP стремится создавать тексты, которые максимально точно расшифровываются, с заданным общим уровнем точности 99,995% или лучше (то есть одна ошибка или меньше на 20 000 символов).
  2. Ключ. Учитывая характер материала, единственный метод обеспечения такой точности с экономической точки зрения заключался в том, что бухгалтерские книги вводились по контракту фирмами, занимающимися преобразованием данных.
  3. Контроль качества. Точность транскрипции и пригодность разметки во всех случаях оценивает группа библиотечных корректоров и рецензентов, управляемая DLPS Мичиганского университета.
  4. Кодировка. Все результирующие текстовые файлы размечены в допустимом формате SGML или XML (SGML заархивирован, XML экспортируется) в соответствии с патентованным «описанием типа документа» (DTD), полученным из версии P3 / P4 стандарта Text Encoding Initiative (TEI).
  5. Целенаправленная разметка. По сравнению с полным TEI, TCP DTD очень прост и предназначен для захвата только функций, наиболее полезных для четкого отображения, интеллектуальной навигации и продуктивного поиска. Практика TCP заключается в том, чтобы фиксировать, насколько это возможно, общую иерархическую структуру каждой книги (части, разделы, главы и т. Д.); признаки, которые имеют тенденцию отмечать начало и конец разделов (заголовки, эксплициты, приветствия, прощальные слова, строки дат, подписи, эпиграфы и т. д.); наиболее важные элементы дискурса и организации (абзацы в прозе, строки и строфы в стихах, речи, выступающие и сценические постановки в драме, заметки, цитаты, последовательные нумерации всех видов); и только самые важные аспекты физического форматирования (разрывы страниц, списки, таблицы, изменение шрифтов).
  6. Верность оригиналу. В каждом случае текст предназначен для представления книги в том виде, в котором она была напечатана, насколько это возможно. Ошибки принтера сохраняются, изменения, написанные от руки, игнорируются, повторяющиеся отсканированные изображения опускаются, неупорядоченные изображения вводятся в намеченном порядке, и сохраняется большинство необычных символов оригинала.
  7. Легкость чтения и поиска. В то же время, хотя транскрипция выполняется посимвольно, TCP, исходя из теории, что вся транскрипция является своего рода переводом из одной символической системы в другую, имеет тенденцию определять символы в терминах их значения, а не их значения. форма и сопоставление эксцентричных буквенных форм со значимыми современными эквивалентами, как правило, в соответствии с определением Unicode для «символа».
  8. Языки. Хотя большинство текстов TCP на английском языке, многие - нет. Книги и разделы книг не на английском языке помечены соответствующим языковым кодом, но иначе не различаются.
  9. Пропущенный материал. TCP выдает текст в латинском алфавите . Нетекстовые материалы, такие как нотные записи, математические формулы и иллюстрации (за исключением любого текста, который они могут содержать), опускаются, а их расположение отмечается специальным тегом. Расширенный текст в нелатинских алфавитах (греческий, иврит, персидский и т. Д.) Также опускается.

Достижения и перспективы [ править ]

По состоянию на апрель 2011 года TCP создала около 40 000 полнотекстовых транскрипций ранних книг с возможностью поиска и навигации, базу данных непревзойденного объема, масштаба и полезности для студентов во многих областях. Сможет ли он продолжить создание оставшихся 38000 текстов, включенных в его недавние амбициозные планы (для фазы II EEBO-TCP), будет зависеть от обоснованности его первоначального видения, вытекающего из теории о том, что библиотеки могут и должны сотрудничать, чтобы стать производители и разработчики стандартов, а не потребители; и что университеты и коммерческие фирмы, несмотря на их очень разные жизненные циклы, ограничения и мотивы, могут присоединиться к прочным партнерским отношениям, выгодным для всех сторон.

По состоянию на 1 января 2015 года полный текст фазы I EEBO был выпущен под лицензией Creative Commons и может быть свободно загружен и распространен.

В 2014 году в рамках Фазы II было доступно 28 466 наименований. По состоянию на июль 2015 года ProQuest имел эксклюзивное право в течение пяти лет на распространение коллекции EEBO-TCP Phase II. По прошествии этих пяти лет тексты станут общедоступными.

См. Также [ править ]

Ссылки [ править ]

  1. ^ Blumenstyk, Goldie (10 августа 2001). «Проект стремится оцифровать тысячи ранних английских текстов» . Хроника высшего образования : A47 . Проверено 4 января 2007 .
  2. ^ Бимиш, Рита (29 июля 1999). «Интернет-архив сохранит самые ранние английские книги» . Нью-Йорк Таймс . Проверено 4 января 2007 .
  3. ^ "Производственные файлы" . Партнерство по созданию текста . Проверено 12 марта 2020 .

Внешние ссылки [ править ]

  • Главный (штат Мичиган) веб-сайт TCP
  • Веб-сайт Oxford TCP
  • Внутренняя документация TCP
  • Полнотекстовая загрузка EEBO Phase I
  • Демонстрационные площадки (открытые для публики) для
    • EEBO-TCP
    • ECCO-TCP
    • Эванс-TCP
  • Сайты доступа к базам данных (открытые для членов партнерских организаций) для
    • EEBO-TCP в
      • Мичиганский университет (через DLXS)
      • Чикагский университет (через PhiloLogic)
      • Оксфордский университет (через DLXS)
      • сайт ProQuest EEBO.
    • Evans-TCP в Мичиганском университете (через DLXS) .
    • ECCO-TCP в Мичиганском университете (через DLXS) .