В морфологии и лексикографии , А лемма (множественные число лемм или леммы ) является канонической формой , [1] словарной формой , или цитаты формы из набора слов ( заглавное слово ). [2] В английский , например, перерыв , перерывы , сломал , сломанной и нарушения являются формами одного и того же лексемы , с перерывом в качестве леммы , с помощью которого они индексируются. Лексемав данном контексте относится к набору всех форм, имеющих одинаковое значение, а лемма относится к конкретной форме, выбранной по соглашению для представления лексемы. Леммы имеют особое значение в языках с сильными склонностями, таких как арабский , турецкий и русский . Процесс определения леммы для данного слова называется лемматизацией . Лемму можно рассматривать как главную из основных частей , хотя лемматизация, по крайней мере, частично произвольна.
Морфология
Форма слова, которая используется в качестве леммы, обычно является наименее отмеченной формой, но есть несколько исключений, например, для некоторых языков использование инфинитива для глаголов.
В английском языке форма цитирования существительного - единственное число : mouse, а не mice . Для многословных лексем, содержащих притяжательные прилагательные или возвратные местоимения , в форме цитирования используется форма неопределенного местоимения one : делать все возможное , лжесвидетельствовать . В европейских языках с грамматическим родом форма цитирования обычных прилагательных и существительных обычно - мужского рода в единственном числе. [ необходима цитата ] Если в языке также есть падежи , в форме цитирования часто используется именительный падеж мужского рода единственного числа.
Для многих языков форма цитирования глагола - инфинитив : французский аллер , немецкий gehen , хиндустани जाना / جانا , испанский ir . В английском языке это обычно совпадает с неотражаемой, наименее заметной формой глагола (то есть «ломать», а не «ломает» или «ломает»), но настоящее время используется для некоторых дефектных глаголов ( должен , может и должна иметь только одну форму). Для латинского , древнегреческого и новогреческого языков , однако, традиционно используется первое лицо единственного числа в настоящем времени , но в некоторых современных словарях вместо этого используется инфинитив. (Для сокращенных глаголов в древнегреческом языке несогласованное первое лицо единственного числа в настоящем времени используется для раскрытия контрактной гласной: φιλέω philéō для φιλῶ philō «я люблю» [подразумевая привязанность]; ἀγαπάω agapáō для ἀγαπῶ agapō «я люблю» [подразумевающее уважение] ). Финские словари перечисляют глаголы не под их корнем, а под первым инфинитивом, отмеченным - (t) a , - (t) ä .
В японском языке используется непрошедшее (настоящее и будущее) время. Для арабского языка , в котором нет инфинитива, мужской род единственного числа третьего лица прошедшего времени является наименее заметной формой и используется для записей в современных словарях. В более старых словарях, которые все еще широко используются, используется трехбуквенное слово - глагол или существительное. Это похоже на иврит , где также используется мужская форма прошедшего времени единственного числа третьего лица (совершенное), например ברא bara ' create, כפר kaphar deny. В грузинском языке используется глагольное существительное . Для корейского , -da прикрепляется к стеблю.
В тамильском , на агглютинативном , глагол Стебель часто цитируются, например, இரு
В ирландском языке слова сильно изменяются падежом (родительный, именительный, дательный и звательный) и их местом в предложении из-за начальных мутаций . Существительное cainteoir , лемма для существительного, означающего «говорящий», имеет множество форм: chainteoir , gcainteoir , cainteora , chainteora , cainteoirí , chainteoirí и gcainteoirí .
Некоторые фразы цитируются в своего рода лемме: Carthago delenda est (буквально «Карфаген должен быть разрушен») - распространенный способ цитирования Катона , но то, что он сказал, было ближе к censeo Carthaginem esse delendam («Я считаю, что Карфаген находится в необходимость разрушения »).
Лексикография
В словаре лемма «go» представляет собой изменяемые формы «идти», «идет», «идти», «пошел» и «ушел». Связь между измененной формой и ее леммой обычно обозначается угловой скобкой, например, «пошел» <«пошел». Конечно, недостатком таких упрощений является невозможность найти склоненную или спряженную форму слова, но в некоторых словарях, например в словаре Вебстера , список «пошел». Многоязычные словари различаются по тому, как они решают эту проблему: словарь немецкого языка Langenscheidt не содержит ging (< gehen ), но Cassell включает.
Леммы или основы слов часто используются в лингвистике корпуса для определения частотности слов. В этом случае конкретное определение «леммы» может быть гибким в зависимости от задачи, для которой оно используется.
Произношение
Слово может иметь разное произношение в зависимости от его фонетического окружения (соседние звуки) или от степени ударения в предложении. Примером последнего являются слабые и сильные формы определенных английских функциональных слов, таких как some and but (произносится / sʌm / , / bʌt / при ударении, но / s (ə) m / , / bət / без ударения ). Словари обычно дают используемое произношение, когда слово произносится отдельно (его изолированная форма ) и с ударением, но в них также могут быть отмечены распространенные слабые формы произношения.
Разница между основанием и леммой
Стебель является частью слова , которое никогда не меняется , даже когда морфологический изменяемым; лемма - это основная форма слова. Например, от «произведено» лемма будет «производить», а основа - «производи-». Это потому, что есть такие слова, как производство . и Produc ING [3] [ не прошли проверка ] В лингвистическом анализе, стержень определен в более общем смысле, как анализируемый базовую форму , из которой может быть сформирована вся флективная форма. [ Править ] Когда фонологию принимаются во внимание, определение неизменяемой части слова не является полезным, как можно видеть в фонологических формах слов в предыдущем примере: «производство» / р г ə DJ ¯u с т / против «производства» / р г ə д ʌ к ʃ ən / .
У некоторых лексем несколько основ, но одна лемма. Например, у глагола « to go » есть основы «go» и «go» из-за дополнения : прошедшее время было заимствовано из другого глагола « to wend ».
Смотрите также
- Основные части
- Корень (лингвистика)
- Нулевая морфема
- Неизвестное слово
- Структура лексической разметки
Рекомендации
- ^ Zgusta, Ладислав (2006). Долезаль, Фредрик FM (ред.). Лексикография тогда и сейчас . п. 202. ISBN. 3484391294.
Небольшая ... проблема может возникнуть, когда нужно выбрать каноническую форму заглавного слова, то есть форму, в которой оно должно цитироваться.
- ^ Фрэнсис, Вашингтон; Кучера, Х (1982). Частотный анализ использования английского языка: лексика и использование . Бостон: Хоутон Миффлин.
- ^ «Набор средств естественного языка - документация NLTK 3.0» . Nltk.org. 2015-09-05 . Проверено 27 сентября 2015 .