Гапакс легомен


В корпусной лингвистике , hapax legomenon ( / ˈ h æ p ə k s l ɪ ˈ ɡ ɒ m ɪ n ɒ n / также / ˈ h æ p æ k s / или / ˈ h p æ k s / ; [1] ] [2] множественное число hapax legomena , иногда сокращенно hapax , множественное число hapaxes) — слово или выражение , встречающееся в контексте только один раз: либо в письменной записи всего языка , либо в произведениях автора, либо в отдельно взятом тексте. Этот термин иногда неправильно используется для описания слова, которое встречается только в одной из работ автора, но более одного раза в этой конкретной работе. Hapax legomenon — это транслитерация греческого ἅπαξ λεγόμενον , что означает «сказанное однажды». [3]

Связанные термины dis legomenon , tris legomenon и tetrakis legomenon соответственно ( / ˈ d ɪ s / , / ˈ t r ɪ s / , / ˈ t ɛ t r ə k ɪ s / ) относятся к двойным, тройным или четверным вхождениям , но используются гораздо реже.

Hapax legomena встречаются довольно часто, как и предсказывает закон Ципфа [4] , который гласит, что частота любого слова в корпусе обратно пропорциональна его рангу в частотной таблице. Для больших корпусов от 40 до 60 % слов составляют hapax legomena , а еще от 10 до 15 % — dis legomena . [5] Таким образом, в коричневом корпусе американского английского около половины из 50 000 отдельных слов в этом корпусе являются hapax legomena . [6]

Hapax legomenon относится к появлению слова или выражения в тексте, а не к его происхождению или распространенности в речи. Таким образом, оно отличается от одноразового слова , которое может никогда не быть записано, может найти применение и может быть широко записано, или может появляться несколько раз в произведении, которое его создает , и так далее.

Hapax legomena в древних текстах обычно трудно расшифровать, поскольку легче вывести значение из нескольких контекстов, чем из одного. Например, многие из оставшихся нерасшифрованными глифами майя представляют собой hapax legomena , а библейские (особенно ивритские ; см. § Примеры на иврите ) hapax legomena иногда создают проблемы при переводе. Hapax legomena также создает проблемы при обработке естественного языка . [7]

Некоторые ученые считают Hapax legomena полезным для определения авторства письменных произведений. П. Н. Харрисон в «Проблеме пастырских посланий» (1921) [8] сделал hapax legomena популярным среди библеистов , когда утверждал, что их значительно больше в трех пастырских посланиях , чем в других посланиях Павла . Он утверждал, что количество hapax legomena в корпусе предполагаемого автора указывает на его или ее словарный запас и характеризует автора как личность.


График частоты рангов для слов в романе « Моби Дик » . Около 44% отдельного набора слов в этом романе, например «супружеский», встречаются только один раз, как и hapax legomen (красный). Около 17%, такие как «ловкость», появляются дважды (так называемая дислегомена , выделенная синим цветом). Закон Ципфа предсказывает, что слова на этом графике должны приближаться к прямой линии с наклоном -1.
PaulineHapaxes Workman's.svg
Workman'sShakespearePlays.svg
Слово honorificabilitudinitatibus в первом издании пьесы Уильяма Шекспира «Бесплодные усилия любви».
Муспилли , строка 57: «dar nimac denne mak andremo helfan uora demo muspille» ( Баварская государственная библиотека Clm 14098, ф. 121r)