Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Вычислительная лексикология - это раздел компьютерной лингвистики , который занимается использованием компьютеров при изучении лексики . Некоторые ученые (Амслер, 1980) более узко описали это как использование компьютеров при изучении машиночитаемых словарей . Он отличается от вычислительной лексикографии , которая более правильно была бы использованием компьютеров при построении словарей, хотя некоторые исследователи использовали вычислительную лексикографию как синоним .

История [ править ]

Вычислительные лексикологии как отдельная дисциплина в компьютерной лингвистике с появлением машиночитаемых словарей, начиная с созданием машиночитаемых лент из Merriam-Webster Седьмого Энциклопедического словаря и Merriam-Webster Новых карманного словаря в 1960 - х годах от Иоанна Olney et al. в Корпорации развития систем . Сегодня вычислительная лексикология наиболее известна благодаря созданию и применению WordNet.. Поскольку вычислительная обработка исследователей со временем увеличивалась, использование вычислительной лексикологии повсеместно применялось при анализе текста. В 1987 году, среди прочих, Берд, Кальцолари, Чодороу разработали вычислительные инструменты для анализа текста. В частности, модель была разработана для координации ассоциаций, включающих смыслы многозначных слов. [1]

Изучение лексики [ править ]

Вычислительная лексикология внесла свой вклад в понимание содержания и ограничений печатных словарей для вычислительных целей (т.е. она прояснила, что предыдущая работа по лексикографии была недостаточна для нужд компьютерной лингвистики). Благодаря работе компьютерных лексикологов была изучена почти каждая часть статьи печатного словаря, начиная от:

  1. что составляет заглавное слово - используется для создания списков исправлений орфографии;
  2. какие варианты и наклонения образуют заглавные слова - используются для эмпирического понимания морфологии;
  3. как заглавное слово разделено на слоги;
  4. как произносится заглавное слово - используется в системах генерации речи;
  5. части речи, которые принимает заглавное слово - используются для тегов POS ;
  6. любой специальный предметный код или коды использования, присвоенные заглавному слову - используются для идентификации предмета текстового документа;
  7. определения заглавного слова и их синтаксис - используются для устранения неоднозначности слова в контексте;
  8. этимология заглавного слова и его использование для характеристики словаря по языкам происхождения - используется для характеристики словаря текста в отношении языков его происхождения;
  9. примеры предложений;
  10. дополнения (дополнительные слова и многословные выражения, образующиеся из заглавного слова); и
  11. связанные слова, такие как синонимы и антонимы .

Многие компьютерные лингвисты были разочарованы печатными словарями как ресурсом для компьютерной лингвистики, потому что им не хватало синтаксической и семантической информации для компьютерных программ. Работа над вычислительной лексикологией быстро привела к усилиям в двух дополнительных направлениях.

Преемники вычислительной лексикологии [ править ]

Во-первых, совместная деятельность компьютерных лингвистов и лексикографов привела к пониманию роли корпусов в создании словарей. Большинство компьютерных лексикологов перешли к созданию больших корпусов для сбора основных данных, которые лексикографы использовали для создания словарей. ACL / DCI (Инициатива по сбору данных) и LDC ( Консорциум лингвистических данных ) пошли по этому пути. Появление языков разметки привело к созданию корпусов с тегами, которые можно было легче анализировать для создания вычислительных лингвистических систем. Корпуса с тегами части речи и корпуса с семантическими тегами были созданы для тестирования и разработки устройств для тегов POS и технологии устранения семантической неоднозначности слов .

Второе направление было направлено на создание баз лексических знаний (ББЗ). База лексических знаний считалась тем, чем должен быть словарь для вычислительных лингвистических целей, особенно для вычислительных лексико-семантических целей. Он должен был содержать ту же информацию, что и в печатном словаре, но полностью разъяснять значения слов и соответствующие связи между смыслами. Многие начали создавать ресурсы, которые, как им хотелось, были словарями, если они были созданы для использования в вычислительном анализе. WordNetможно рассматривать как такую ​​разработку, как и новые попытки описания синтаксической и семантической информации, такие как работа Филлмора по FrameNet. Помимо компьютерной лингвистики, работу над онтологией искусственного интеллекта можно рассматривать как эволюционную попытку создать базу лексических знаний для приложений ИИ.

Стандартизация [ править ]

Оптимизация производства, обслуживания и расширения вычислительных лексиконов - один из важнейших аспектов, влияющих на НЛП . Основная проблема - это совместимость : разные лексики часто несовместимы. Наиболее частая ситуация: как объединить два лексикона или фрагменты лексиконов? Вторая проблема состоит в том, что лексикон обычно специально адаптирован для конкретной программы НЛП и имеет трудности с использованием в других программах или приложениях НЛП.

В этом отношении различные модели данных вычислительных лексиконов изучаются ISO / TC37 с 2003 года в рамках структуры лексической разметки проекта, ведущей к стандарту ISO в 2008 году.

Ссылки [ править ]

  1. ^ Берд, Рой Дж Николетта Calzolari, Мартин С. Chodorow, Джудит Л. Klavans, Мэри С. Neff и Omneya А. Rizk. «Инструменты и методы вычислительной лексикологии». Компьютерная лингвистика 13, вып. 3-4 (1987): 219-240.

Амслер, Роберт А. 1980. Доктор философии. Диссертация "Структура карманного словаря Мерриам-Вебстера". Техасский университет в Остине.

Внешние ссылки [ править ]