Электронный словарь


Электронный словарьпрограммное обеспечение, которое позволяет быстро найти нужное слово, часто с учётом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский).

Машиночитаемые словари (Machine-readable dictionary, кратко MRD) используются компьютерными программами для решения различных задач, например, для обработки текстов на естественном языке. Машиночитаемые словари являются разновидностью электронных словарей.

В проекте Leipzig Corpora Collection[1] (LCC) корпуса и одноязычные словари строятся на основе текстов, извлекаемых из сети Интернет[2]. LCC включает около 400 словарей. В качестве затравки для поиска текстов в Интернете в проекте LCC использовали текст Всеобщей декларации прав человека, поскольку Декларация содержит около 2000 общеупотребимых слов и переведена на 370 языков и диалектов[3]. Из 200 Википедий были отобраны тексты для компиляции всего 70 словарей. Тексты не всех Википедий были включены в корпус LCC, поскольку многие вики-проекты начинаются с создания статей-заготовок, содержащих почти одинаковые предложения[3].

Такой подход трудно реализуем для малоресурсных языков, но проект Crúbadán[4], собрав данные для более чем 2200 языков, показывает, что автоматический поиск для языков, представленных в сети Интернет малым или единичным числом текстов, также возможен[5]. В дальнейшем эти тексты используются для создания словарей, например, в проекте Crúbadán было собрано более 100 млн валлийских слов и половина валлийских текстов с этими словами были переданы Уэльскому университету для создания валлийского словаря[6].

В работах 1980-х годов предполагали, что на основе машиночитаемых словарей можно построить большие базы знаний. Но в дальнейшем признали, что для этого нужно использовать множество ресурсов, в первую очередь корпусы[7].

Максимум того, что получилось добиться при извлечении знаний из словарей — это автоматически построить несколько несовершенных таксономий[8].