Логотип Sketch Engine | |
Страница согласования Sketch Engine | |
Автор (ы) оригинала | Адам Килгаррифф , Павел Рыхлы |
---|---|
Разработчики) | Lexical Computing Ltd. |
изначальный выпуск | 23 июля 2003 г . [1] |
Написано в | C ++ , Python , JavaScript , jQuery |
Операционная система | Linux , Mac OS X |
Платформа | IA-32 , x64 или IA-64 |
Стандарт (ы) | Юникод |
Доступно в | 12 языков |
Список языков Английский, чешский, китайский (традиционный, упрощенный), Gaeilge, словенский, хорватский, арабский, испанский, французский, украинский, польский | |
Тип | Менеджер корпуса для 90+ языков, система управления базами данных |
Лицензия | Фирменное программное обеспечение ; доступны как коммерческие, так и бесплатные версии |
Интернет сайт | www |
Sketch Engine - это программное обеспечение для управления корпусом и анализа текста, разработанное Lexical Computing Limited с 2003 года. Его цель - дать возможность людям, изучающим языковое поведение ( лексикографам , исследователям корпусной лингвистики , переводчикам или изучающим язык), выполнять поиск в больших коллекциях текстов в соответствии со сложностью и лингвистикой. мотивированные запросы. Sketch Engine получил свое название в честь одной из ключевых функций, набросков слов : одностраничных, автоматических, основанных на корпусе сводок грамматического и коллокационного поведения слова. [2] В настоящее время он поддерживает и предоставляет корпуса на более чем 90 языках. [3]
История развития [ править ]
Sketch Engine - продукт компании Lexical Computing Limited, основанной в 2003 году лексикографом и ученым-исследователем Адамом Килгарриффом . [4] Он начал сотрудничество с Павлом Рихли, компьютерным ученым, работающим в Центре обработки естественного языка в Университете Масарика [5] и разработчиком Ламантина и Бонито (двух основных частей программного пакета), и представил концепцию словесных набросков. .
С тех пор Sketch Engine был коммерческим программным обеспечением, однако все основные функции Manatee и Bonito, которые были разработаны к 2003 году (и с тех пор расширены), свободно доступны по лицензии GPL в составе пакета NoSketch Engine. [6]
Особенности [ править ]
- Наброски слов - одностраничное автоматическое обобщение грамматического и коллокационного поведения слова.
- Разница в эскизе слов - сравнивает и противопоставляет два слова, анализируя их словосочетание.
- Распределительный тезаурус - автоматический тезаурус, находящий слова со схожим значением или встречающиеся в одном и том же / подобном контексте.
- Concordance поиск - Находит примеры формы слова, леммы, фразы, теги или сложной структурой
- Collocation поиск - слово смежности анализ отображения наиболее частые слова (для поиска слова) , которые можно рассматривать в качестве кандидатов коллокационных
- Списки слов - генерирует частотные списки, которые можно фильтровать по сложным критериям.
- n-граммы - генерирует частотные списки многословных выражений
- Терминология / извлечение ключевых слов (как одноязычных, так и двуязычных) - автоматическое извлечение ключевых слов и многословных терминов из текстов (на основе подсчета частоты и лингвистических критериев)
- Диахронический анализ ( Тенденции ) [7] - определение слов, частота употребления которых меняется во времени (показывать слова с тенденциями)
- Создание корпуса и управление - создание корпусов из Интернета или загруженных текстов, включая тегирование части речи и лемматизацию, которые можно использовать в качестве программного обеспечения для интеллектуального анализа данных.
- Параллельный корпус (двуязычный) - поиск примеров перевода (EUR-Lex corpus, Europarl corpus , OPUS corpus и т. Д.) Или построение параллельного корпуса из собственных выровненных текстов
Архитектура [ править ]
Sketch Engine состоит из трех основных компонентов: базовой системы управления базой данных, называемой Manatee, поискового интерфейса веб-интерфейса, называемого Bonito, и веб-интерфейса для создания корпуса и управления, называемого Corpus Architect.[8]
Ламантин [ править ]
Manatee - это система управления базами данных, специально разработанная для эффективного индексирования больших текстовых корпусов. Он основан на идее перевернутой индексации (сохранение индекса всех позиций данного слова в тексте). Он использовался для индексации корпусов текстов, состоящих из десятков миллиардов слов. [9]
Поиск корпусов, проиндексированных Ламантином, выполняется путем формулирования запросов на языке Corpus Query Language (CQL). [10]
Manatee написан на C ++ и предлагает API для ряда других языков программирования, включая Python , Java , Perl и Ruby . Недавно он был переписан на Go для более быстрой обработки корпусных запросов. [11]
Бонито [ править ]
Bonito - это веб-интерфейс для Manatee, обеспечивающий доступ к поиску по корпусу. В модели клиент-сервер Manatee является сервером, а Bonito играет роль клиента. Он написан на Python . [8]
Corpus Architect [ править ]
Corpus Architect - это веб-интерфейс, обеспечивающий функции построения корпуса и управления. Он также написан на Python .
Приложения [ править ]
Sketch Engine использовался крупными британскими и другими издательствами для создания словарей, таких как Macmillan English Dictionary , Dictionnaires Le Robert , Oxford University Press или Shogakukan, а четыре из пяти крупнейших издателей словарей в Великобритании используют Sketch Engine. [12]
См. Также [ править ]
- SkELL - бесплатный веб-сервис для студентов и преподавателей английского языка на основе Sketch Engine
- Семейство TenTen Corpus - многоязычный набор сопоставимых веб-корпусов, доступных через Sketch Engine
Ссылки [ править ]
- ^ Companies House Поиск по Великобритании «s регистратору компаний (Название компании: ЛЕКСИКО ВЫЧИСЛЕНИЯ LIMITED или номер компании: 04841901)
- ^ Килгаррифф, Адам; Байса, Вит; Бушта, Ян; Якубичек, Милош; Коварж, Войтех; Michelfeit, Ян; Рыхлы, Павел; Сухомель, Вит (10 июля 2014 г.). «Эскизный движок: десять лет спустя» . Лексикография . 1 (1): 7–36. DOI : 10.1007 / s40607-014-0009-9 . ISSN 2197-4292 .
- ^ «Языки в Sketch Engine» . Sketch Engine . Lexical Computing sro . Проверено 22 января 2018 .
- ^ Домашняя страница Адама Kilgarriff в
- ^ Центр обработки естественного языка, Университет Масарика
- ^ NoSketch Engine
- ^ Килгаррифф, Адам; Герман, Ондржей; Бушта, Ян; Рыхлы, Павел; Якубичек, Милош (2015). «DIACRAN: основа для диахронического анализа» (PDF) . Corpus Linguistics 2015 : 65–70.
- ^ a b Рыхлы, Павел (2007). «Ламантин / бонито - модульный корпус-менеджер» (PDF) . 1-й семинар по последним достижениям в обработке славянского естественного языка : 65–70.
- ^ Помикалек, Ян; Якубичек, Милош; Рыхлы, Павел (2012). «Создание корпуса английского языка из 70 миллиардов слов с помощью ClueWeb» (PDF) . Труды Восьмой Международной конференции по языковым ресурсам и оценке (LREC'12) .
- ^ "CQL - Corpus Query Language" . Sketch Engine . Lexical Computing sro . Проверено 22 января 2018 .
- ^ Rychlý, Павел; Рабара, Радослав (2015). «Параллельная обработка запросов к корпусу текста» (PDF) . Семинар о последних достижениях в обработке славянского естественного языка : 49–58.
- ^ «Использование вычислительной лексикографии для создания словарей с помощью Sketch Engine» . Примеры использования REF Impact . Университет Брайтона . Проверено 18 апреля 2015 года .
Дальнейшее чтение [ править ]
- Томас, Джеймс (март 2016 г.). Изучение английского языка с помощью Sketch Engine: корпусный подход к изучению языка. Рабочая тетрадь и глоссарий . Брно: Универсальность. ISBN 9788026095798.
Внешние ссылки [ править ]
Викискладе есть медиафайлы по теме Sketch Engine . |
- Веб-сайт Sketch Engine
- Список корпусов, доступных в Sketch Engine