Семья TenTen Corpus

Семейство TenTen Corpus (также называемое корпусом TenTen ) - это набор сопоставимых корпусов веб- текстов , то есть наборов текстов, которые были сканированы из Интернета и обработаны в соответствии с теми же стандартами. Эти корпуса доступны через диспетчер корпусов Sketch Engine . Существуют корпуса TenTen для более чем 35 языков. Их целевой размер составляет 10 миллиардов (10 ¹⁰ ) слов на каждый язык, что дало начало названию всей совокупности слов. ^[1]

При создании корпуса TenTen данные, полученные из World Wide Web, обрабатываются с помощью инструментов обработки естественного языка, разработанных Центром обработки естественного языка на факультете информатики Университета Масарика ( Брно , Чешская Республика ) и компанией Lexical Computing ( разработчик Sketch Engine).

Корпусная лингвистика [ править ]

В корпусной лингвистике , текст корпус большой и структурированный набор текстов , которые сохраняются в электронном виде и обрабатываются. Он используется для проверки гипотез о языках, проверки лингвистических правил или частотного распределения слов ( n-граммов ) в языках.

Корпуса с электронной обработкой обеспечивают быстрый поиск. Такие процедуры обработки текста, как токенизация , тегирование частей речи и устранение смысловой неоднозначности, обогащают тексты корпуса подробной лингвистической информацией. Это позволяет сузить поиск до определенных частей речи , последовательностей слов или определенной части корпуса.

Первые текстовые корпуса были созданы в 1960-х годах, такие как Коричневый корпус американского английского языка объемом 1 миллион слов . Со временем было создано множество дополнительных корпусов (таких как Британский национальный корпус и LOB Corpus ), и началась работа также над корпусами большего размера, охватывающими другие языки, помимо английского. Это развитие было связано с появлением инструментов для создания корпусов, которые помогают достичь большего размера, более широкого охвата, более чистых данных и т. Д.

Производство корпусов TenTen [ править ]

Процедура производства корпусов TenTen основана на ранее проведенных авторами исследованиях по подготовке веб-корпусов и их последующей обработке. ^[2]^[3]^[4]

Вначале специальный поисковый робот SpiderLing загружает из Интернета огромное количество текстовых данных . ^[5] На более позднем этапе эти тексты проходят очистку , которая заключается в удалении любого нетекстового материала, такого как навигационные ссылки, верхние и нижние колонтитулы, из исходного кода HTML веб-страниц с помощью инструмента jusText, ^[6] так, чтобы только полный твердые предложения сохраняются. В конце концов, инструмент ONION ^[6] применяется для удаления повторяющихся частей текста из корпуса, которые естественным образом встречаются во всемирной паутине из-за таких практик, как цитирование , цитирование , копирование и т. Д.^[1]

Структура данных TenTen corpora [ править ]

Корпуса TenTen следуют определенной структуре метаданных, общей для всех из них. Метаданные содержатся в структурных атрибутах, которые относятся к отдельным документам и параграфам в корпусе. Некоторые корпуса TenTen могут иметь дополнительные специфические атрибуты.

Атрибуты документа [ править ]

домен верхнего уровня - домен на самом высоком уровне иерархической системы доменных имен (например, «com»)
веб-сайт - идентификационная строка, определяющая область административной автономии в Интернете (например, "wikipedia.org")
веб-домен - набор связанных веб-страниц (например, "la.wikipedia.org")
дата сканирования - дата, когда документ был загружен из Интернета
url - унифицированный указатель ресурса, ссылающийся на источник документа
wordcount - количество слов в документе
длина - разделение документа на диапазон по длине, измеряемой тысячами слов

Атрибуты абзаца [ править ]

заголовок - числовой атрибут, отличающий заголовки и похожие заголовки от обычного основного текста (1, если абзац является заголовком, 0 в противном случае)

Доступные корпуса TenTen [ править ]

Следующие корпуса доступны через Sketch Engine по состоянию на октябрь 2018 г .: ^[7]

arTenTen ( арабский веб-корпус) ^[8]
beTenTen ( белорусский веб-корпус) ^[9]
bgTenTen ( болгарский веб-корпус) ^[10]
caTenTen ( веб-корпус на каталонском языке )
csTenTen ( чешский веб-корпус) ^[11]
daTenTen ( датский веб-корпус)
deTenTen ( немецкий веб-корпус)
elTenTen ( греческий веб-корпус)
enTenTen ( англоязычный веб-корпус) ^[12]
esTenTen ( испанский веб-корпус с европейской / американской испанской подкорпорацией) ^[13]
etTenTen ( веб-корпус на эстонском языке ) ^[14]
fiTenTen ( финский веб-корпус)
frTenTen ( французский веб-корпус)
heTenTen ( веб-корпус на иврите )
hiTenTen ( веб-корпус хинди )
huTenTen ( венгерский веб-корпус)
itTenTen ( итальянский веб-корпус)
jaTenTen ( японский веб-корпус)
kmTenTen ( кхмерский веб-корпус)
koTenTen ( корейский веб-корпус)
loTenTen ( веб-корпус Лаоса и Исана )
ltTenTen ( литовский веб-корпус)
lvTenTen ( латвийский веб-корпус)
mkTenTen ( македонский веб-корпус)
nlTenTen ( голландский веб-корпус)
noTenTen ( норвежский веб-корпус)
plTenTen ( польский веб-корпус)
ptTenTen ( португальский веб-корпус)
roTenTen ( румынский веб-корпус)
ruTenTen ( Русский веб-корпус)
skTenTen ( словацкий веб-корпус)
slTenTen ( словенский веб-корпус)
svTenTen ( шведский веб-корпус)
thTenTen ( тайский веб-корпус)
tlTenTen ( тагальский веб-корпус)
trTenTen ( турецкий веб-корпус) ^[15]
ukTenTen ( украинский веб-корпус)
zhTenTen ( веб-корпус упрощенных китайских символов )

См. Также [ править ]

Текстовый корпус
Sketch Engine
Веб-сканер (паук)
Дедупликация данных

Ссылки [ править ]

^ a b Якубичек, Милош; Килгаррифф, Адам ; Коварж, Войтех; Рыхлы, Павел; Сухомель, Вит (июль 2013 г.). Семья Tenten Corpus (PDF) . 7-я Международная конференция по корпусной лингвистике CL. Ланкастер, Великобритания: Ланкастерский университет. С. 125–127 . Дата обращения 13 июня 2017 .
^ Барони, Марко; Килгаррифф, Адам ; Коварж, Войтех; Рыхлы, Павел; Сухомель, Вит (июль 2013 г.). Большие веб-корпуса с лингвистической обработкой для нескольких языков (PDF) . 11-я конференция европейского отделения ассоциации компьютерной лингвистики: плакаты и демонстрации. Ассоциация компьютерной лингвистики. Тренто, Италия: Ланкастерский университет. С. 87–90 . Дата обращения 13 июня 2017 .
^ Килгаррифф, Адам ; Редди, Шива; Помикалек, Ян; Авинеш, ПВС (май 2010 г.). Фабрика корпусов для многих языков . 7-я конференция по языковым ресурсам и оценке. Валлетта, Мальта: ELRA . Дата обращения 13 июня 2017 .
^ Sharoff, Serge (2006). «Создание корпусов общего назначения с использованием автоматизированных поисковых запросов» (PDF) . В Барони, Марко; Бернардини, Сильвия (ред.). Дурацкий! Рабочие документы в сети как Corpus . Болонья, Италия: GEDIT. С. 63–98. ISBN 978-88-6027-004-7.
^ Suchomel, Вит; Помикалек, янв (17 апреля 2012 г.). «Эффективное сканирование больших текстовых корпусов» (PDF) . Труды седьмого Web as Corpus Workshop (WAC7) . 7-я Веб-как Мастерская Корпуса. Лион, Франция: Ассоциация компьютерной лингвистики (ACL) в Интернете как корпус. С. 39–43 . Дата обращения 13 июня 2017 .
^ a b Pomikálek, янв (2011). Удаление шаблонного и дублированного контента из веб-корпусов (PhD). Факультет информатики Масариковского университета . Проверено 17 апреля 2017 года .
^ "Семья TenTen Corpus" . www.sketchengine.eu . Sketch Engine . Проверено 23 октября 2018 года .
^ Белинков Ю., Хабаш, Н., Kilgarriff, А., Ордан, Н., Рот, Р., & Suchomel, В. (2013). arTen-Ten: новый обширный корпус для арабского языка . Труды WACL .
^ "Новый белорусский корпус (beTenTen)" . Sketch Engine . Лексические вычисления. 2018-02-26 . Проверено 6 апреля 2018 .
^ Kilgarriff, А., Jakubíček, М., Pomikalek J., Сардинья, туберкулез, & Whitelock, P. (2014). PtTenTen: корпус португальской лексикографии . Работа с португальскими корпусами, 111-30.
^ Suchomel, Вит (7-9 декабря 2012). "Последние чешские веб-корпуса" . In Horák, A .; Rychlý, P. (ред.). Труды последних достижений в обработке славянского естественного языка, РАСЛАН 2012 . Трибуна ЕС. С. 77–83.
^ Kilgarriff, Адам (2012). «Знакомство с вашим корпусом». Текст, речь и диалог . Конспект лекций по информатике. 7499 . С. 3–15. CiteSeerX 10.1.1.452.8074 . DOI : 10.1007 / 978-3-642-32790-2_1 . ISBN 978-3-642-32789-6.
^ Kilgarriff, A., & Renau, I. (2013). esTenTen, обширный веб-корпус полуостровного и американского испанского . Процедурно-социальные и поведенческие науки , 95, 12-19.
^ SRDANOVIĆ, I. (2016). Исследовательский проект по языковым ресурсам для изучающих японский язык . Межфакультетская , 6.
^ Байса, Вит; Сухомель, Вит (2015). «Поддержка тюркского языка в Sketch Engine» . Материалы международной конференции «Обработка тюркских языков: TurkLang 2015» . Казань: Изд-во АН РТ. С. 214–223. ISBN 978-5-9690-0262-3 - через ИС МУ.

Внешние ссылки [ править ]

Семейство TenTen Corpus (на сайте Sketch Engine)

[tenten-1] Якубичек, Милош; Килгаррифф, Адам ; Коварж, Войтех; Рыхлы, Павел; Сухомель, Вит (июль 2013 г.). Семья Tenten Corpus (PDF) . 7-я Международная конференция по корпусной лингвистике CL. Ланкастер, Великобритания: Ланкастерский университет. С. 125–127 . Дата обращения 13 июня 2017 .

[2] Барони, Марко; Килгаррифф, Адам ; Коварж, Войтех; Рыхлы, Павел; Сухомель, Вит (июль 2013 г.). Большие веб-корпуса с лингвистической обработкой для нескольких языков (PDF) . 11-я конференция европейского отделения ассоциации компьютерной лингвистики: плакаты и демонстрации. Ассоциация компьютерной лингвистики. Тренто, Италия: Ланкастерский университет. С. 87–90 . Дата обращения 13 июня 2017 .

[3] Килгаррифф, Адам ; Редди, Шива; Помикалек, Ян; Авинеш, ПВС (май 2010 г.). Фабрика корпусов для многих языков . 7-я конференция по языковым ресурсам и оценке. Валлетта, Мальта: ELRA . Дата обращения 13 июня 2017 .

[4] Sharoff, Serge (2006). «Создание корпусов общего назначения с использованием автоматизированных поисковых запросов» (PDF) . В Барони, Марко; Бернардини, Сильвия (ред.). Дурацкий! Рабочие документы в сети как Corpus . Болонья, Италия: GEDIT. С. 63–98. ISBN 978-88-6027-004-7.

[crawling-5] Suchomel, Вит; Помикалек, янв (17 апреля 2012 г.). «Эффективное сканирование больших текстовых корпусов» (PDF) . Труды седьмого Web as Corpus Workshop (WAC7) . 7-я Веб-как Мастерская Корпуса. Лион, Франция: Ассоциация компьютерной лингвистики (ACL) в Интернете как корпус. С. 39–43 . Дата обращения 13 июня 2017 .

[justext-6] Pomikálek, янв (2011). Удаление шаблонного и дублированного контента из веб-корпусов (PhD). Факультет информатики Масариковского университета . Проверено 17 апреля 2017 года .

[7] "Семья TenTen Corpus" . www.sketchengine.eu . Sketch Engine . Проверено 23 октября 2018 года .

[8] Белинков Ю., Хабаш, Н., Kilgarriff, А., Ордан, Н., Рот, Р., & Suchomel, В. (2013). arTen-Ten: новый обширный корпус для арабского языка . Труды WACL .

[9] "Новый белорусский корпус (beTenTen)" . Sketch Engine . Лексические вычисления. 2018-02-26 . Проверено 6 апреля 2018 .

[10] Kilgarriff, А., Jakubíček, М., Pomikalek J., Сардинья, туберкулез, & Whitelock, P. (2014). PtTenTen: корпус португальской лексикографии . Работа с португальскими корпусами, 111-30.

[11] Suchomel, Вит (7-9 декабря 2012). "Последние чешские веб-корпуса" . In Horák, A .; Rychlý, P. (ред.). Труды последних достижений в обработке славянского естественного языка, РАСЛАН 2012 . Трибуна ЕС. С. 77–83.

[12] Kilgarriff, Адам (2012). «Знакомство с вашим корпусом». Текст, речь и диалог . Конспект лекций по информатике. 7499 . С. 3–15. CiteSeerX 10.1.1.452.8074 . DOI : 10.1007 / 978-3-642-32790-2_1 . ISBN 978-3-642-32789-6.

[13] Kilgarriff, A., & Renau, I. (2013). esTenTen, обширный веб-корпус полуостровного и американского испанского . Процедурно-социальные и поведенческие науки , 95, 12-19.

[14] SRDANOVIĆ, I. (2016). Исследовательский проект по языковым ресурсам для изучающих японский язык . Межфакультетская , 6.

[15] Байса, Вит; Сухомель, Вит (2015). «Поддержка тюркского языка в Sketch Engine» . Материалы международной конференции «Обработка тюркских языков: TurkLang 2015» . Казань: Изд-во АН РТ. С. 214–223. ISBN 978-5-9690-0262-3 - через ИС МУ.

[1]

vтеКорпусная лингвистика
Текстовые корпуса, английский	Американский национальный корпус Банк английского языка Бергенский корпус лондонского подросткового языка Британский национальный корпус Коричневый корпус Buckeye Corpus Cambridge English Corpus Корпус современного американского английского Enron Corpus EnTenTen Международный корпус английского языка Ланкастер-Осло-Берген Корпус Oxford English Corpus PropBank Разговорный английский корпус ТИМИТ VerbNet Веллингтонский корпус разговорного новозеландского английского языка
Корпуса текстов, не на английском языке	Bijankhan Corpus ДЕТИ CorCenCC - национальный корпус современного валлийского языка Корпус хорватского языка Хорватский национальный корпус Чешский национальный корпус Europarl Corpus Немецкий справочный корпус Хамшахри Корпус Национальный корпус польского языка Проект корпуса неоасирийских текстов Коранический арабский корпус Русский Национальный Корпус Шотландский корпус текстов и речи Словенский национальный корпус TalkBank Татоеба Tehran Monolingual Corpus Tekstaro de Esperanto Семья TenTen Corpus Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD Sketch Engine