Текст Создание партнерства ( TCP ) является организацией , не некоммерческое основе в библиотеке Мичиганского университета с 2000 года [Обновить]. Его цель состоит в том, чтобы производить крупномасштабные полнотекстовые электронные ресурсы (особенно в области гуманитарных наук) от имени как организаций-членов (в частности, академических библиотек), так и научных издателей, в соответствии с соглашением, рассчитанным на удовлетворение потребностей обоих, и при этом продемонстрировать ценность бизнес-модели, которая рассматривает корпоративных и некоммерческих поставщиков информации как потенциально дружественных партнеров, а не как противостоящих поставщиков и клиентов соответственно. [1]
Проекты
На сегодняшний день TCP спонсировала четыре проекта по созданию текста. Первым и самым крупным является "EEBO-TCP (Phase I)" (2001–2009), попытка создать структурно размеченные полнотекстовые транскрипции 25 000+ из примерно 125 000 книг, которые можно найти в журналах Pollard и Redgrave. и каталоги Wing с короткими названиями ранних английских печатных книг или среди трактатов Томасона , то есть почти из всех книг, брошюр и рекламных листовок, изданных на английском языке или в Англии до 1700 года. Книги были отобраны и расшифрованы с цифровых сканированных изображений. производится ProQuest Information and Learning и распространяется ими в виде веб-продукта под названием « Early English Books Online » (EEBO). Сканы, с которых были расшифрованы тексты, сами были сделаны из копий микрофильмов, сделанных на протяжении многих лет ProQuest и ее предшествующими компаниями, включая исходную University Microfilms, Inc. [2] Фаза I EEBO-TCP завершилась в конце 2009 г. переписал около 25 300 наименований и сразу перешел в EEBO-TCP Phase II (2009–), продолжение проекта, посвященного преобразованию всех оставшихся уникальных англоязычных монографий (примерно 45 000 дополнительных наименований).
Третий проект TCP был Evans-TCP (2003–2007 гг., С некоторой продолжающейся работой до 2010 г.), попытка расшифровать 6000 из 36000 названий до 1800 г., перечисленных в Американской библиографии Чарльза Эванса , и распространять их снова в виде изображений страниц, отсканированных из копии микрофильмов, сделанные Readex , подразделением NewsBank, Inc. под названием « Архив Америки » («Ранние американские отпечатки, серия I: Эванс, 1639–1800»). Evans-TCP выпустила электронные тексты почти для 5000 книг.
Последним проектом TCP был ECCO-TCP (2005–2010, некоторые работы продолжаются), попытка расшифровать 10 000 книг восемнадцатого века из 136 000 наименований, имеющихся на веб-ресурсе Thomson-Gale «Коллекции восемнадцатого века». Онлайн »(ECCO). ECCO-TCP исчерпал финансирование в 2010 году после расшифровки около 3000 (и редактирования около 2400) заголовков.
Общие черты проекта
Все четыре текстовых проекта TCP очень похожи. В каждом случае:
- TCP создает текст из коммерческих файлов изображений, которые, в свою очередь, были созданы из копий на микрофильмах ранних книг.
- Коммерческие поставщики изображений получают то, что по сути является полнотекстовым индексом своего графического продукта, гораздо дешевле, чем это стоило бы производить сами: добавленная стоимость к их продукту.
- Библиотеки-партнеры фактически владеют полученными текстами, а не просто лицензируют их, и могут (при определенных условиях) самостоятельно монтировать тексты в любой системе, которая им нравится, или использовать тексты для внутренних целей в качестве инструмента обучения и обучения.
- Тексты создаются в соответствии со стандартами, определенными библиотекой, единообразны для множества наборов данных и потенциально доступны для перекрестного поиска.
- Поскольку они создаются совместно, тексты относительно недороги (в расчете на каждую книгу) и становятся все дороже с каждой библиотекой, которая присоединяется к партнерству.
- В конечном итоге тексты станут доступны для широкой публики.
- Выбор текстов для преобразования, хотя и отличается от проекта к проекту, в каждом случае следует схожим принципам: разнообразие, значимость, репрезентативность, избежание дублирования; особые запросы от преподавателей или научных инициатив в организациях-членах также обычно выполняются.
- До сих пор TCP был в первую очередь заинтересован в создании текстов, а не в создании «продукта»; хотя тексты из всех трех проектов установлены или будут монтироваться на серверах библиотеки Мичиганского университета, сайт в Мичигане не является официальным сайтом TCP: любая партнерская библиотека с соответствующими ресурсами и гарантиями может делать то же самое. Тексты EEBO-TCP, например, обслуживаются Мичиганом, ProQuest, Цифровой библиотекой Оксфордского университета и Чикагским университетом.
Организация
TCP находится под контролем Совета директоров, состоящего в основном из старших администраторов библиотек партнерских учреждений, представителей корпоративных партнеров и Совета по библиотечным и информационным ресурсам (CLIR). Совету помогает в вопросах отбора и стипендии академическая консультативная группа, в которую входят преподаватели в области раннего современного английского и американистики.
TCP поддерживает неформальные связи с рядом университетских научных текстовых проектов, особенно в том, что касается предоставления им исходных текстов для работы. Представленные учреждения включают Северо-Западный университет (Иллинойс), Оксфордский университет (Великобритания), Вашингтонский университет (Сент-Луис), Сиднейский университет (Австралия), Университет Торонто (ON) и Университет Виктории (Британская Колумбия). TCP также работал со студентами, ежегодно спонсируя конкурс эссе для студентов, созывая рабочие группы по использованию текстов TCP в педагогике и обращаясь к ученым и студентам за идеями по выбору и использованию.
Производство текста осуществляется через Службу создания цифровых библиотек (DLPS) Мичиганского университета, имеющую обширный опыт в производстве электронных текстов в кодировке SGML / XML. DLPS помогает Бодлеанская система цифровых библиотек Оксфордского университета и услуги (BDLSS), в том числе покойный Себастьян Ратц . Небольшие производственные операции с неполным рабочим днем были также начаты в двух других библиотеках: Центре исследований реформации и возрождения в Библиотеке Пратта (Университет Виктории в Университете Торонто), специализирующемся на латинских книгах; и Национальная библиотека Уэльса (Llyfrgell Genedlaethol Cymru) в Аберистуите, специализирующаяся на валлийских книгах.
Стандарты
Все четыре текстовых проекта TCP создаются одинаковым образом и в соответствии с одними и теми же стандартами, которые задокументированы, по крайней мере частично, на веб-сайте TCP. [3]
- Точность. TCP стремится создавать тексты, которые максимально точно расшифровываются, с заданным общим уровнем точности 99,995% или лучше (то есть одна ошибка или меньше на 20 000 символов).
- Ключ. Учитывая характер материала, единственный метод обеспечения такой точности с экономической точки зрения заключался в том, что бухгалтерские книги вводились по контракту фирмами, занимающимися преобразованием данных.
- Контроль качества. Точность транскрипции и пригодность разметки во всех случаях оценивает группа библиотечных корректоров и рецензентов, управляемая DLPS Мичиганского университета.
- Кодировка. Все результирующие текстовые файлы размечены в допустимом формате SGML или XML (SGML заархивирован, XML экспортируется) в соответствии с патентованным «описанием типа документа» (DTD), полученным из версии P3 / P4 стандарта Text Encoding Initiative (TEI).
- Целенаправленная разметка. По сравнению с полным TEI, TCP DTD очень прост и предназначен для захвата только функций, наиболее полезных для четкого отображения, интеллектуальной навигации и продуктивного поиска. Практика TCP заключается в том, чтобы фиксировать, насколько это возможно, общую иерархическую структуру каждой книги (части, разделы, главы и т. Д.); признаки, которые имеют тенденцию отмечать начало и конец разделов (заголовки, эксплициты, приветствия, прощальные слова, строки дат, подписи, эпиграфы и т. д.); наиболее важные элементы дискурса и организации (абзацы в прозе, строки и строфы в стихах, речи, выступающие и сценические постановки в драме, заметки, цитаты, последовательные нумерации всех видов); и только самые важные аспекты физического форматирования (разрывы страниц, списки, таблицы, изменение шрифтов).
- Верность оригиналу. В каждом случае текст предназначен для представления книги в том виде, в котором она была напечатана, насколько это возможно. Ошибки принтера сохраняются, изменения, написанные от руки, игнорируются, повторяющиеся отсканированные изображения опускаются, неупорядоченные изображения вводятся в намеченном порядке, и сохраняется большинство необычных символов оригинала.
- Легкость чтения и поиска. В то же время, хотя транскрипция выполняется посимвольно, TCP, исходя из теории, что вся транскрипция является своего рода переводом из одной символической системы в другую, имеет тенденцию определять символы в терминах их значения, а не их значения. форма и сопоставление эксцентричных буквенных форм со значимыми современными эквивалентами, как правило, в соответствии с определением Unicode для «символа».
- Языки. Хотя большинство текстов TCP на английском языке, многие - нет. Книги и разделы книг не на английском языке помечены соответствующим языковым кодом, но иначе не различаются.
- Пропущенный материал. TCP выдает текст в латинском алфавите . Нетекстовые материалы, такие как нотные записи, математические формулы и иллюстрации (за исключением любого текста, который они могут содержать), опускаются, а их расположение отмечается специальным тегом. Расширенный текст в нелатинских алфавитах (греческий, иврит, персидский и т. Д.) Также опускается.
Достижения и перспективы
По состоянию на апрель 2011 года TCP создала около 40 000 полнотекстовых транскрипций ранних книг с возможностью поиска и навигации, базу данных непревзойденного объема, масштаба и полезности для студентов во многих областях. Сможет ли он продолжить создание оставшихся 38000 текстов, включенных в его недавние амбициозные планы (для фазы II EEBO-TCP), будет зависеть от обоснованности его первоначального видения, вытекающего из теории о том, что библиотеки могут и должны сотрудничать, чтобы стать производители и разработчики стандартов, а не потребители; и что университеты и коммерческие фирмы, несмотря на их очень разные жизненные циклы, ограничения и мотивы, могут присоединиться к прочным партнерским отношениям, выгодным для всех сторон.
По состоянию на 1 января 2015 года полный текст фазы I EEBO был выпущен по лицензии Creative Commons и может быть свободно загружен и распространен.
В 2014 году в рамках Фазы II было доступно 28 466 наименований. По состоянию на июль 2015 года ProQuest имел эксклюзивное право в течение пяти лет на распространение коллекции EEBO-TCP Phase II. По прошествии этих пяти лет тексты станут общедоступными.
Смотрите также
Рекомендации
- ^ Blumenstyk, Goldie (10 августа 2001). «Проект направлен на оцифровку тысяч ранних английских текстов» . Хроника высшего образования : A47 . Проверено 4 января 2007 . CS1 maint: обескураженный параметр ( ссылка )
- ^ Бимиш, Рита (29 июля 1999 г.). «Интернет-архив сохранит самые ранние английские книги» . Нью-Йорк Таймс . Проверено 4 января 2007 . CS1 maint: обескураженный параметр ( ссылка )
- ^ «Производственные файлы» . Партнерство по созданию текста . Проверено 12 марта 2020 .
Внешние ссылки
- Главный (штат Мичиган) веб-сайт TCP
- Веб-сайт Oxford TCP
- Внутренняя документация TCP
- Полнотекстовая загрузка EEBO Phase I
- Демонстрационные площадки (открытые для публики) для
- Сайты доступа к базам данных (открытые для членов партнерских организаций) для