В естественном языке обработки , идентификации языка или языка угадывание является проблема определения того, какие естественного языка данное содержание в. Вычислительные подходы к этой проблеме зрения его как частный случай категоризации текста , решаемой с различными статистическими методами.
Обзор
Существует несколько статистических подходов к идентификации языка с использованием различных методов классификации данных. Один из методов - сравнить сжимаемость текста со сжимаемостью текстов на наборе известных языков. Этот подход известен как измерение расстояния на основе взаимной информации. Тот же метод можно использовать для эмпирического построения родословных языков, которые близко соответствуют деревьям, построенным с использованием исторических методов. [ необходимая цитата ] Измерение расстояния на основе взаимной информации по существу эквивалентно более традиционным методам, основанным на моделях, и обычно не считается новинкой или лучше, чем более простые методы.
Другой метод, описанный Кавнаром и Тренклем (1994) и Даннингом (1994), заключается в создании языковой n-грамматической модели из «обучающего текста» для каждого из языков. Эти модели могут быть основаны на символах (Cavnar и Trenkle) или закодированных байтах (Dunning); в последнем интегрированы идентификация языка и обнаружение кодировки символов . Затем для любого фрагмента текста, который необходимо идентифицировать, создается аналогичная модель, и эта модель сравнивается с каждой сохраненной языковой моделью. Наиболее вероятным языком является язык с моделью, которая наиболее похожа на модель из текста, который необходимо идентифицировать. Этот подход может быть проблематичным, если вводимый текст находится на языке, для которого нет модели. В этом случае метод может вернуть в качестве результата другой, «наиболее похожий» язык. Также проблематичными для любого подхода являются фрагменты входного текста, которые состоят из нескольких языков, что является обычным явлением в Интернете.
Для более свежего метода см. Ehůřek and Kolkus (2009). Этот метод может обнаруживать несколько языков в неструктурированном фрагменте текста и надежно работает с короткими текстами, состоящими всего из нескольких слов: то, с чем сталкивается n-грамм .
Старый статистический метод Грефенстетта основывался на преобладании определенных служебных слов (например, «the» в английском языке).
Выявление похожих языков
Одно из самых больших препятствий в системах языковой идентификации - различать близкородственные языки. Подобные языки, такие как сербский и хорватский или индонезийский и малайский, имеют значительное лексическое и структурное совпадение, что усложняет системам различение между ними.
В 2014 году была организована общая задача DSL [1], которая предоставила набор данных (Tan et al., 2014), содержащий 13 различных языков (и языковых разновидностей) в шести языковых группах: Группа A (боснийский, хорватский, сербский), Группа B ( Индонезийский, малазийский), группа C (чешский, словацкий), группа D (бразильский португальский, европейский португальский), группа E (полуостровный испанский, аргентинский испанский), группа F (американский английский, британский английский). Лучшая система достигла производительности более 95% (Goutte et al., 2014). Результаты совместной задачи DSL описаны в Zampieri et al. 2014 г.
Программное обеспечение
- Apache OpenNLP включает статистический детектор, основанный на диаграммах и граммах, и поставляется с моделью, которая может различать 103 языка.
- Apache Tika содержит детектор языков для 18 языков.
Рекомендации
- Бенедетто Д., Э. Калиоти и В. Лорето. Языковые деревья и архивирование . Physical Review Letters , 88: 4 (2002), Теория сложности .
- Кавнар, Уильям Б. и Джон М. Тренкл. «Классификация текстов на основе N-граммов». Материалы 3-го ежегодного симпозиума по анализу документов и поиску информации SDAIR-94 (1994) [1] .
- Чилибрази, Руди и Пол М.Б. Витани. « Кластеризация сжатием ». IEEE Transactions on Information Theory 51 (4), апрель 2005 г., 1523-1545.
- Даннинг, Т. (1994) "Статистическая идентификация языка". Технический отчет MCCS 94-273, Государственный университет Нью-Мексико, 1994.
- Гудман, Джошуа. (2002) Расширенный комментарий к "Language Trees and Zipping" . Microsoft Research, 21 февраля 2002 г. (Это критика сжатия данных в пользу наивного байесовского метода).
- Goutte, C .; Leger, S .; Карпуат, М. (2014) Система NRC для дискриминации схожих языков . Материалы семинара Coling 2014 «Применение инструментов НЛП к схожим языкам, разновидностям и диалектам»
- Грефенштетте, Грегори. (1995) Сравнение двух схем языковой идентификации. Труды 3-й Международной конференции по статистическому анализу текстовых данных (JADT 1995).
- Поутсма, Арьен. (2001) Применение методов Монте-Карло для языковой идентификации. SmartHaven, Амстердам. Представлено на CLIN 2001 .
- Tan, L .; Zampieri, M .; Любешич, Н .; Тидеманн, Дж. (2014) Объединение сопоставимых источников данных для дискриминации схожих языков: собрание корпуса DSL . Труды 7-го семинара по созданию и использованию сопоставимых корпусов (BUCC). Рейкьявик, Исландия. п. 6-10
- Экономист. (2002) « Элементы стиля: анализ сжатых данных приводит к впечатляющим результатам в лингвистике »
- Радим Жегуржек и Милан Колкус. (2009) « Идентификация языков в сети: расширение словарного метода » Вычислительная лингвистика и интеллектуальная обработка текста .
- Zampieri, M .; Tan, L .; Любешич, Н .; Тидеманн, Дж. (2014) Отчет о совместной задаче DSL 2014 . Труды 1-го семинара по применению инструментов НЛП к похожим языкам, разновидностям и диалектам (VarDial). Дублин, Ирландия. п. 58-67.