Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В корпусной лингвистике , коллокация представляет собой ряд слов или терминов , которые совместно встречается чаще , чем можно было бы ожидать случайно. В фразеологии , коллокация является подтипом фразеологизма . Пример фразеологической коллокации, а выдвинутая Майкл Холлидей , [1] это выражение крепкий чай . Хотя то же значение может быть передано примерно эквивалентным крепким чаем , англоговорящие люди считают это выражение чрезмерным и неудобным. И наоборот, соответствующее выражение в технологиях: мощный компьютер,предпочтительнее сильного компьютера . Фразеологические словосочетания не следует путать с идиомами , где значение идиомы вытекает из соглашения, заменяющего что-то еще, в то время как словосочетание - это простая популярная композиция.

Существует около шести основных типов словосочетаний: прилагательное + существительное, существительное + существительное (например, собирательные существительные ), глагол + существительное, наречие + прилагательное, глагол + предложная фраза ( фразовые глаголы ) и глагол + наречие.

Извлечение словосочетания - это вычислительный метод, который находит словосочетания в документе или корпусе с использованием различных элементов вычислительной лингвистики, напоминающих интеллектуальный анализ данных .

Расширенное определение [ править ]

Словосочетания - это частично или полностью фиксированные выражения, которые устанавливаются в результате многократного контекстно-зависимого использования. Такие термины, как «кристально чистый», «менеджмент среднего звена», «нуклеарная семья» и «косметическая хирургия» являются примерами совмещенных пар слов.

Словосочетания могут находиться в синтаксическом отношении (например, глагол – объект : «сделать» и «решение»), в лексическом отношении (например, антонимия ) или они не могут быть лингвистически определенными отношениями. Знание словосочетаний жизненно важно для грамотного использования языка: грамматически правильное предложение будет казаться неудобным, если будут нарушены коллокационные предпочтения. Это делает коллокацию интересной областью для обучения языку.

Лингвисты корпуса определяют ключевое слово в контексте ( KWIC ) и определяют слова, непосредственно окружающие их. Это дает представление о том, как используются слова.

Обработка словосочетаний включает в себя ряд параметров, наиболее важным из которых является мера ассоциации , которая оценивает, является ли совпадение чисто случайным или статистически значимым . Из-за неслучайной природы языка большинство словосочетаний классифицируются как значимые, а оценки ассоциации просто используются для ранжирования результатов. Обычно используемые меры ассоциации включают взаимную информацию , t-баллы и логарифмическую вероятность . [2] [3]

Вместо того, чтобы выбирать одно определение, Gledhill [4] предлагает, чтобы коллокация включала, по крайней мере, три разных точки зрения: (i) совместное появление, статистическое представление, которое рассматривает коллокацию как повторяющееся появление в тексте узла и его сочетаний, [ 5] [6] [7] (ii) конструкция, которая рассматривает словосочетание либо как корреляцию между лексемой и лексико-грамматическим шаблоном [8], либо как отношение между основанием и его коллокативными партнерами [9] и (iii ) выражение, прагматический взгляд на словосочетание как на условную единицу выражения, независимо от формы. [10] [11]Эти разные точки зрения контрастируют с обычным способом представления словосочетания во фразеологизмах. Традиционно говоря, словосочетание объясняется с точки зрения всех трех точек зрения одновременно, в континууме:

«Свободное сочетание» ↔ «Связанное словосочетание» ↔ «Замороженная идиома»

В словарях [ править ]

В 1933 годе Гарольд Палмер «s Второй промежуточный доклад на английских коллокациях подчеркнули важность коллокации как ключ к производству естественного звучания языка, для тех , кто учится на иностранном языке . [12] Таким образом, с 1940-х годов информация о повторяющихся словосочетаниях стала стандартной функцией словарей одноязычных учащихся . По мере того, как эти словари становились «менее словесными и более фразовыми» [13], все больше внимания уделялось словосочетанию. Эта тенденция поддерживалась с начала 21 века доступностью больших текстовых корпусов и интеллектуального программного обеспечения для запросов к корпусу., что позволяет более систематически учитывать словосочетания в словарях. Используя эти инструменты, словари, такие как Macmillan English Dictionary и Longman Dictionary of Contemporary English, включали блоки или панели со списками часто встречающихся словосочетаний. [14]

Существует также ряд специализированных словарей, посвященных описанию часто встречающихся словосочетаний в языке. [15] К ним относятся (для испанского) Redes: Diccionario combinatorio del español contemporaneo (2004), (для французского) Le Robert: Dictionnaire des combinaisons de mots (2007) и (для английского) Словарь избранных словосочетаний LTP (1997) и Словарь словосочетаний Macmillan (2010). [16]

Статистически значимое словосочетание [ править ]

T-критерий Стьюдента может использоваться, чтобы определить, является ли наличие словосочетания в корпусе статистически значимым. [17] Для биграммы , пусть будет безусловной вероятностью появления в корпусе с размером , и пусть будет безусловной вероятностью появления в корпусе. Тогда t-показатель для биграммы рассчитывается как:

где - выборочное среднее значение появления , - количество вхождений , - вероятность того, что при нулевой гипотезе и независимо появятся в тексте, и - выборочная дисперсия. При большом значении t-критерий эквивалентен z-критерию .

См. Также [ править ]

  • Английские словосочетания
  • Соглашение (лингвистика)
  • Клише
  • Коллокационное ограничение
  • Коллокструктивный анализ
  • Сложное существительное, прилагательное и глагол
  • Правительство (лингвистика)
  • Изоколон
  • Лексический элемент
  • N-грамм
  • Фразовый глагол
  • Фразеология
  • Фраза
  • Сиамские близнецы (лингвистика)
  • Sketch Engine
  • Статистически неправдоподобная фраза
  • Эскиз слова

Ссылки [ править ]

  1. ^ Холлидей, Массачусетс, «Лексика как лингвистический уровень», Journal of Linguistics 2 (1) 1966: 57–67
  2. ^ Даннинг, Тед (1993): « Точные методы статистики неожиданности и совпадения ». Компьютерная лингвистика 19, 1 (март 1993 г.), 61–74.
  3. Даннинг, Тед (21 марта 2008 г.). «Сюрприз и совпадение» . blogspot.com . Проверено 9 апреля 2012 .
  4. ^ Gledhill C. (2000): сочетаемости в науке Дать , Нары, Тюбинген
  5. ^ Ферт JR (1957): документы по лингвистике 1934–1951. Оксфорд: Издательство Оксфордского университета.
  6. Sinclair J. (1996): «Поиск единиц значения», в Textus, IX, 75–106.
  7. ^ Smadja F. A & McKeown, KR (1990): « Автоматическое извлечение и представление словосочетаний для языковой генерации », Proceedings of ACL'90, 252–259, Питтсбург, Пенсильвания.
  8. ^ Hunston S. & Francis G. (2000): шаблон Грамматика - это корпус-ориентированный подход к лексической грамматике английского языка , Амстердам, Джон Benjamins
  9. ^ Hausmann FJ (1989): Le Словник де коллокаций. In Hausmann FJ, Reichmann O., Wiegand HE, Zgusta L. (eds), Wörterbücher: ein internationales Handbuch zur Lexikographie. Словари. Словари. Берлин / Нью-Йорк: Де Грюйтер. 1010–1019.
  10. ^ Мун Р. (1998): Фиксированные выражения и идиомы, основанный на корпусе подход. Оксфорд, издательство Оксфордского университета.
  11. ^ Frath P. & Gledhill C. (2005): " Free-Range Кластеры или замороженные Куски Reference как определяющий критерий для лингвистических единиц? " В Recherches anglaisesдр Нор-américaines, т. 38: 25–43
  12. ^ Cowie, AP, английский Словари для иностранных учащихся, Oxford University Press1999: 54-56
  13. ^ Bejoint, H., лексикографии английского языка, Oxford University Press2010: 318
  14. ^ «MED Second Edition - Ключевые особенности - Macmillan» . macmillandictionaries.com .
  15. Herbst, T. и Klotz, M. «Синтагматические и фразеологические словари» в Cowie, AP (Ed.) The Oxford History of English Lexicography, 2009: часть 2, 234–243
  16. ^ «Словарь словосочетаний Macmillan - Как это было написано - Macmillan» . macmillandictionaries.com .
  17. ^ Мэннинг, Крис; Шютце, Хинрих (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press. стр.  163 -166. ISBN 0262133601.

Внешние ссылки [ править ]

  • Словарь словаря Ozdic
  • Маленькая система, хранящая испанские словосочетания (Игорь А. Большаков и Сабино Миранда-Хименес)
  • Морфологическая характеристика словосочетаний и семантических отношений в испанском языке (Сабино Миранда-Хименес и Игорь А. Большаков)
  • Пример сочетания слова «хирургия»