Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Семейство TenTen Corpus (также называемое корпусом TenTen ) - это набор сопоставимых корпусов веб- текстов , то есть наборов текстов, которые были сканированы из Интернета и обработаны в соответствии с теми же стандартами. Эти корпуса доступны через диспетчер корпусов Sketch Engine . Существуют корпуса TenTen для более чем 35 языков. Их целевой размер составляет 10 миллиардов (10 10 ) слов на каждый язык, что дало начало названию всей совокупности слов. [1]

При создании корпуса TenTen данные, полученные из World Wide Web, обрабатываются с помощью инструментов обработки естественного языка, разработанных Центром обработки естественного языка на факультете информатики Университета Масарика ( Брно , Чешская Республика ) и компанией Lexical Computing ( разработчик Sketch Engine).

Корпусная лингвистика [ править ]

В корпусной лингвистике , текст корпус большой и структурированный набор текстов , которые сохраняются в электронном виде и обрабатываются. Он используется для проверки гипотез о языках, проверки лингвистических правил или частотного распределения слов ( n-граммов ) в языках.

Корпуса с электронной обработкой обеспечивают быстрый поиск. Такие процедуры обработки текста, как токенизация , тегирование частей речи и устранение смысловой неоднозначности, обогащают тексты корпуса подробной лингвистической информацией. Это позволяет сузить поиск до определенных частей речи , последовательностей слов или определенной части корпуса.

Первые текстовые корпуса были созданы в 1960-х годах, такие как Коричневый корпус американского английского языка объемом 1 миллион слов . Со временем было создано множество дополнительных корпусов (таких как Британский национальный корпус и LOB Corpus ), и началась работа также над корпусами большего размера, охватывающими другие языки, помимо английского. Это развитие было связано с появлением инструментов для создания корпусов, которые помогают достичь большего размера, более широкого охвата, более чистых данных и т. Д.

Производство корпусов TenTen [ править ]

Процедура производства корпусов TenTen основана на ранее проведенных авторами исследованиях по подготовке веб-корпусов и их последующей обработке. [2] [3] [4]

Вначале специальный поисковый робот SpiderLing загружает из Интернета огромное количество текстовых данных . [5] На более позднем этапе эти тексты проходят очистку , которая заключается в удалении любого нетекстового материала, такого как навигационные ссылки, верхние и нижние колонтитулы, из исходного кода HTML веб-страниц с помощью инструмента jusText, [6] так, чтобы только полный твердые предложения сохраняются. В конце концов, инструмент ONION [6] применяется для удаления повторяющихся частей текста из корпуса, которые естественным образом встречаются во всемирной паутине из-за таких практик, как цитирование , цитирование , копирование и т. Д.[1]

Структура данных TenTen corpora [ править ]

Корпуса TenTen следуют определенной структуре метаданных, общей для всех из них. Метаданные содержатся в структурных атрибутах, которые относятся к отдельным документам и параграфам в корпусе. Некоторые корпуса TenTen могут иметь дополнительные специфические атрибуты.

Атрибуты документа [ править ]

  • домен верхнего уровня - домен на самом высоком уровне иерархической системы доменных имен (например, «com»)
  • веб-сайт - идентификационная строка, определяющая область административной автономии в Интернете (например, "wikipedia.org")
  • веб-домен - набор связанных веб-страниц (например, "la.wikipedia.org")
  • дата сканирования - дата, когда документ был загружен из Интернета
  • url - унифицированный указатель ресурса, ссылающийся на источник документа
  • wordcount - количество слов в документе
  • длина - разделение документа на диапазон по длине, измеряемой тысячами слов

Атрибуты абзаца [ править ]

  • заголовок - числовой атрибут, отличающий заголовки и похожие заголовки от обычного основного текста (1, если абзац является заголовком, 0 в противном случае)

Доступные корпуса TenTen [ править ]

Следующие корпуса доступны через Sketch Engine по состоянию на октябрь 2018 г .: [7]

  1. arTenTen ( арабский веб-корпус) [8]
  2. beTenTen ( белорусский веб-корпус) [9]
  3. bgTenTen ( болгарский веб-корпус) [10]
  4. caTenTen ( веб-корпус на каталонском языке )
  5. csTenTen ( чешский веб-корпус) [11]
  6. daTenTen ( датский веб-корпус)
  7. deTenTen ( немецкий веб-корпус)
  8. elTenTen ( греческий веб-корпус)
  9. enTenTen ( англоязычный веб-корпус) [12]
  10. esTenTen ( испанский веб-корпус с европейской / американской испанской подкорпорацией) [13]
  11. etTenTen ( веб-корпус на эстонском языке ) [14]
  12. fiTenTen ( финский веб-корпус)
  13. frTenTen ( французский веб-корпус)
  14. heTenTen ( веб-корпус на иврите )
  15. hiTenTen ( веб-корпус хинди )
  16. huTenTen ( венгерский веб-корпус)
  17. itTenTen ( итальянский веб-корпус)
  18. jaTenTen ( японский веб-корпус)
  19. kmTenTen ( кхмерский веб-корпус)
  20. koTenTen ( корейский веб-корпус)
  21. loTenTen ( веб-корпус Лаоса и Исана )
  22. ltTenTen ( литовский веб-корпус)
  23. lvTenTen ( латвийский веб-корпус)
  24. mkTenTen ( македонский веб-корпус)
  25. nlTenTen ( голландский веб-корпус)
  26. noTenTen ( норвежский веб-корпус)
  27. plTenTen ( польский веб-корпус)
  28. ptTenTen ( португальский веб-корпус)
  29. roTenTen ( румынский веб-корпус)
  30. ruTenTen ( Русский веб-корпус)
  31. skTenTen ( словацкий веб-корпус)
  32. slTenTen ( словенский веб-корпус)
  33. svTenTen ( шведский веб-корпус)
  34. thTenTen ( тайский веб-корпус)
  35. tlTenTen ( тагальский веб-корпус)
  36. trTenTen ( турецкий веб-корпус) [15]
  37. ukTenTen ( украинский веб-корпус)
  38. zhTenTen ( веб-корпус упрощенных китайских символов )

См. Также [ править ]

  • Текстовый корпус
  • Sketch Engine
  • Веб-сканер (паук)
  • Дедупликация данных

Ссылки [ править ]

  1. ^ a b Якубичек, Милош; Килгаррифф, Адам ; Коварж, Войтех; Рыхлы, Павел; Сухомель, Вит (июль 2013 г.). Семья Tenten Corpus (PDF) . 7-я Международная конференция по корпусной лингвистике CL. Ланкастер, Великобритания: Ланкастерский университет. С. 125–127 . Дата обращения 13 июня 2017 .
  2. ^ Барони, Марко; Килгаррифф, Адам ; Коварж, Войтех; Рыхлы, Павел; Сухомель, Вит (июль 2013 г.). Большие веб-корпуса с лингвистической обработкой для нескольких языков (PDF) . 11-я конференция европейского отделения ассоциации компьютерной лингвистики: плакаты и демонстрации. Ассоциация компьютерной лингвистики. Тренто, Италия: Ланкастерский университет. С. 87–90 . Дата обращения 13 июня 2017 .
  3. ^ Килгаррифф, Адам ; Редди, Шива; Помикалек, Ян; Авинеш, ПВС (май 2010 г.). Фабрика корпусов для многих языков . 7-я конференция по языковым ресурсам и оценке. Валлетта, Мальта: ELRA . Дата обращения 13 июня 2017 .
  4. ^ Sharoff, Serge (2006). «Создание корпусов общего назначения с использованием автоматизированных поисковых запросов» (PDF) . В Барони, Марко; Бернардини, Сильвия (ред.). Дурацкий! Рабочие документы в сети как Corpus . Болонья, Италия: GEDIT. С. 63–98. ISBN  978-88-6027-004-7.
  5. ^ Suchomel, Вит; Помикалек, янв (17 апреля 2012 г.). «Эффективное сканирование больших текстовых корпусов» (PDF) . Труды седьмого Web as Corpus Workshop (WAC7) . 7-я Веб-как Мастерская Корпуса. Лион, Франция: Ассоциация компьютерной лингвистики (ACL) в Интернете как корпус. С. 39–43 . Дата обращения 13 июня 2017 .
  6. ^ a b Pomikálek, янв (2011). Удаление шаблонного и дублированного контента из веб-корпусов (PhD). Факультет информатики Масариковского университета . Проверено 17 апреля 2017 года .
  7. ^ "Семья TenTen Corpus" . www.sketchengine.eu . Sketch Engine . Проверено 23 октября 2018 года .
  8. ^ Белинков Ю., Хабаш, Н., Kilgarriff, А., Ордан, Н., Рот, Р., & Suchomel, В. (2013). arTen-Ten: новый обширный корпус для арабского языка . Труды WACL .
  9. ^ "Новый белорусский корпус (beTenTen)" . Sketch Engine . Лексические вычисления. 2018-02-26 . Проверено 6 апреля 2018 .
  10. ^ Kilgarriff, А., Jakubíček, М., Pomikalek J., Сардинья, туберкулез, & Whitelock, P. (2014). PtTenTen: корпус португальской лексикографии . Работа с португальскими корпусами, 111-30.
  11. ^ Suchomel, Вит (7-9 декабря 2012). "Последние чешские веб-корпуса" . In Horák, A .; Rychlý, P. (ред.). Труды последних достижений в обработке славянского естественного языка, РАСЛАН 2012 . Трибуна ЕС. С. 77–83.
  12. ^ Kilgarriff, Адам (2012). «Знакомство с вашим корпусом». Текст, речь и диалог . Конспект лекций по информатике. 7499 . С. 3–15. CiteSeerX 10.1.1.452.8074 . DOI : 10.1007 / 978-3-642-32790-2_1 . ISBN  978-3-642-32789-6.
  13. ^ Kilgarriff, A., & Renau, I. (2013). esTenTen, обширный веб-корпус полуостровного и американского испанского . Процедурно-социальные и поведенческие науки , 95, 12-19.
  14. ^ SRDANOVIĆ, I. (2016). Исследовательский проект по языковым ресурсам для изучающих японский язык . Межфакультетская , 6.
  15. ^ Байса, Вит; Сухомель, Вит (2015). «Поддержка тюркского языка в Sketch Engine» . Материалы международной конференции «Обработка тюркских языков: TurkLang 2015» . Казань: Изд-во АН РТ. С. 214–223. ISBN 978-5-9690-0262-3 - через ИС МУ.

Внешние ссылки [ править ]

  • Семейство TenTen Corpus (на сайте Sketch Engine)