Идентификация языка

В естественном языке обработки , идентификации языка или языка угадывание является проблема определения того, какие естественного языка данное содержание в. Вычислительные подходы к этой проблеме зрения его как частный случай категоризации текста , решаемой с различными статистическими методами.

Обзор

Существует несколько статистических подходов к идентификации языка с использованием различных методов классификации данных. Один из методов - сравнить сжимаемость текста со сжимаемостью текстов на наборе известных языков. Этот подход известен как измерение расстояния на основе взаимной информации. Тот же метод можно использовать для эмпирического построения родословных языков, которые близко соответствуют деревьям, построенным с использованием исторических методов. ^{[ необходимая цитата ]} Измерение расстояния на основе взаимной информации по существу эквивалентно более традиционным методам, основанным на моделях, и обычно не считается новинкой или лучше, чем более простые методы.

Другой метод, описанный Кавнаром и Тренклем (1994) и Даннингом (1994), заключается в создании языковой n-грамматической модели из «обучающего текста» для каждого из языков. Эти модели могут быть основаны на символах (Cavnar и Trenkle) или закодированных байтах (Dunning); в последнем интегрированы идентификация языка и обнаружение кодировки символов . Затем для любого фрагмента текста, который необходимо идентифицировать, создается аналогичная модель, и эта модель сравнивается с каждой сохраненной языковой моделью. Наиболее вероятным языком является язык с моделью, которая наиболее похожа на модель из текста, который необходимо идентифицировать. Этот подход может быть проблематичным, если вводимый текст находится на языке, для которого нет модели. В этом случае метод может вернуть в качестве результата другой, «наиболее похожий» язык. Также проблематичными для любого подхода являются фрагменты входного текста, которые состоят из нескольких языков, что является обычным явлением в Интернете.

Для более свежего метода см. Ehůřek and Kolkus (2009). Этот метод может обнаруживать несколько языков в неструктурированном фрагменте текста и надежно работает с короткими текстами, состоящими всего из нескольких слов: то, с чем сталкивается n-грамм .

Старый статистический метод Грефенстетта основывался на преобладании определенных служебных слов (например, «the» в английском языке).

Выявление похожих языков

Одно из самых больших препятствий в системах языковой идентификации - различать близкородственные языки. Подобные языки, такие как сербский и хорватский или индонезийский и малайский, имеют значительное лексическое и структурное совпадение, что усложняет системам различение между ними.

В 2014 году была организована общая задача DSL ^[1], которая предоставила набор данных (Tan et al., 2014), содержащий 13 различных языков (и языковых разновидностей) в шести языковых группах: Группа A (боснийский, хорватский, сербский), Группа B ( Индонезийский, малазийский), группа C (чешский, словацкий), группа D (бразильский португальский, европейский португальский), группа E (полуостровный испанский, аргентинский испанский), группа F (американский английский, британский английский). Лучшая система достигла производительности более 95% (Goutte et al., 2014). Результаты совместной задачи DSL описаны в Zampieri et al. 2014 г.

Программное обеспечение

Apache OpenNLP включает статистический детектор, основанный на диаграммах и граммах, и поставляется с моделью, которая может различать 103 языка.
Apache Tika содержит детектор языков для 18 языков.

Идентификация языка

Обзор

Выявление похожих языков

Программное обеспечение

Рекомендации

Смотрите также

Рекомендации