Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Sketch Engine - это программное обеспечение для управления корпусом и анализа текста, разработанное Lexical Computing Limited с 2003 года. Его цель - дать возможность людям, изучающим языковое поведение ( лексикографам , исследователям корпусной лингвистики , переводчикам или изучающим язык), выполнять поиск в больших коллекциях текстов в соответствии со сложностью и лингвистикой. мотивированные запросы. Sketch Engine получил свое название в честь одной из ключевых функций, набросков слов : одностраничных, автоматических, основанных на корпусе сводок грамматического и коллокационного поведения слова. [2] В настоящее время он поддерживает и предоставляет корпуса на более чем 90 языках. [3]

История развития [ править ]

Sketch Engine - продукт компании Lexical Computing Limited, основанной в 2003 году лексикографом и ученым-исследователем Адамом Килгарриффом . [4] Он начал сотрудничество с Павлом Рихли, компьютерным ученым, работающим в Центре обработки естественного языка в Университете Масарика [5] и разработчиком Ламантина и Бонито (двух основных частей программного пакета), и представил концепцию словесных набросков. .

С тех пор Sketch Engine был коммерческим программным обеспечением, однако все основные функции Manatee и Bonito, которые были разработаны к 2003 году (и с тех пор расширены), свободно доступны по лицензии GPL в составе пакета NoSketch Engine. [6]

Особенности [ править ]

  • Наброски слов - одностраничное автоматическое обобщение грамматического и коллокационного поведения слова.
  • Разница в эскизе слов - сравнивает и противопоставляет два слова, анализируя их словосочетание.
  • Распределительный тезаурус - автоматический тезаурус, находящий слова со схожим значением или встречающиеся в одном и том же / подобном контексте.
  • Concordance поиск - Находит примеры формы слова, леммы, фразы, теги или сложной структурой
  • Collocation поиск - слово смежности анализ отображения наиболее частые слова (для поиска слова) , которые можно рассматривать в качестве кандидатов коллокационных
  • Списки слов - генерирует частотные списки, которые можно фильтровать по сложным критериям.
  • n-граммы - генерирует частотные списки многословных выражений
  • Терминология / извлечение ключевых слов (как одноязычных, так и двуязычных) - автоматическое извлечение ключевых слов и многословных терминов из текстов (на основе подсчета частоты и лингвистических критериев)
  • Диахронический анализ ( Тенденции ) [7] - определение слов, частота употребления которых меняется во времени (показывать слова с тенденциями)
  • Создание корпуса и управление - создание корпусов из Интернета или загруженных текстов, включая тегирование части речи и лемматизацию, которые можно использовать в качестве программного обеспечения для интеллектуального анализа данных.
  • Параллельный корпус (двуязычный) - поиск примеров перевода (EUR-Lex corpus, Europarl corpus , OPUS corpus и т. Д.) Или построение параллельного корпуса из собственных выровненных текстов

Архитектура [ править ]

Облако тезауруса леммы работает в Sketch Engine

Sketch Engine состоит из трех основных компонентов: базовой системы управления базой данных, называемой Manatee, поискового интерфейса веб-интерфейса, называемого Bonito, и веб-интерфейса для создания корпуса и управления, называемого Corpus Architect.[8]

Ламантин [ править ]

Manatee - это система управления базами данных, специально разработанная для эффективного индексирования больших текстовых корпусов. Он основан на идее перевернутой индексации (сохранение индекса всех позиций данного слова в тексте). Он использовался для индексации корпусов текстов, состоящих из десятков миллиардов слов. [9]

Поиск корпусов, проиндексированных Ламантином, выполняется путем формулирования запросов на языке Corpus Query Language (CQL). [10]

Manatee написан на C ++ и предлагает API для ряда других языков программирования, включая Python , Java , Perl и Ruby . Недавно он был переписан на Go для более быстрой обработки корпусных запросов. [11]

Бонито [ править ]

Bonito - это веб-интерфейс для Manatee, обеспечивающий доступ к поиску по корпусу. В модели клиент-сервер Manatee является сервером, а Bonito играет роль клиента. Он написан на Python . [8]

Corpus Architect [ править ]

Corpus Architect - это веб-интерфейс, обеспечивающий функции построения корпуса и управления. Он также написан на Python .

Приложения [ править ]

Sketch Engine использовался крупными британскими и другими издательствами для создания словарей, таких как Macmillan English Dictionary , Dictionnaires Le Robert , Oxford University Press или Shogakukan, а четыре из пяти крупнейших издателей словарей в Великобритании используют Sketch Engine. [12]

См. Также [ править ]

  • SkELL - бесплатный веб-сервис для студентов и преподавателей английского языка на основе Sketch Engine
  • Семейство TenTen Corpus - многоязычный набор сопоставимых веб-корпусов, доступных через Sketch Engine

Ссылки [ править ]

  1. ^ Companies House Поиск по Великобритании «s регистратору компаний (Название компании: ЛЕКСИКО ВЫЧИСЛЕНИЯ LIMITED или номер компании: 04841901)
  2. ^ Килгаррифф, Адам; Байса, Вит; Бушта, Ян; Якубичек, Милош; Коварж, Войтех; Michelfeit, Ян; Рыхлы, Павел; Сухомель, Вит (10 июля 2014 г.). «Эскизный движок: десять лет спустя» . Лексикография . 1 (1): 7–36. DOI : 10.1007 / s40607-014-0009-9 . ISSN  2197-4292 .
  3. ^ «Языки в Sketch Engine» . Sketch Engine . Lexical Computing sro . Проверено 22 января 2018 .
  4. ^ Домашняя страница Адама Kilgarriff в
  5. ^ Центр обработки естественного языка, Университет Масарика
  6. ^ NoSketch Engine
  7. ^ Килгаррифф, Адам; Герман, Ондржей; Бушта, Ян; Рыхлы, Павел; Якубичек, Милош (2015). «DIACRAN: основа для диахронического анализа» (PDF) . Corpus Linguistics 2015 : 65–70.
  8. ^ a b Рыхлы, Павел (2007). «Ламантин / бонито - модульный корпус-менеджер» (PDF) . 1-й семинар по последним достижениям в обработке славянского естественного языка : 65–70.
  9. ^ Помикалек, Ян; Якубичек, Милош; Рыхлы, Павел (2012). «Создание корпуса английского языка из 70 миллиардов слов с помощью ClueWeb» (PDF) . Труды Восьмой Международной конференции по языковым ресурсам и оценке (LREC'12) .
  10. ^ "CQL - Corpus Query Language" . Sketch Engine . Lexical Computing sro . Проверено 22 января 2018 .
  11. ^ Rychlý, Павел; Рабара, Радослав (2015). «Параллельная обработка запросов к корпусу текста» (PDF) . Семинар о последних достижениях в обработке славянского естественного языка : 49–58.
  12. ^ «Использование вычислительной лексикографии для создания словарей с помощью Sketch Engine» . Примеры использования REF Impact . Университет Брайтона . Проверено 18 апреля 2015 года .

Дальнейшее чтение [ править ]

  • Томас, Джеймс (март 2016 г.). Изучение английского языка с помощью Sketch Engine: корпусный подход к изучению языка. Рабочая тетрадь и глоссарий . Брно: Универсальность. ISBN 9788026095798.

Внешние ссылки [ править ]

  • Веб-сайт Sketch Engine
  • Список корпусов, доступных в Sketch Engine