Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Проект Moby - это набор общедоступных лексических ресурсов. Он был создан дизайнером Grady Ward . Ресурсы были посвящены общественному достоянию и теперь отражены в Project Gutenberg . По состоянию на 2007 год он содержит самую большую бесплатную фонетическую базу данных с 177 267 словами и соответствующими произношениями. [ необходима цитата ]

Переносчик [ править ]

Моби Hyphenator II содержит переносы из 187,175 слов и фраз ( в то числе 9,752 записей , где нет переносов не приведены, например, через и Avoir ). Кодировка символов выглядит как MacRoman , а расстановка переносов обозначается маркером (десятичное значение символа 165 или шестнадцатеричное A5). Однако некоторые записи содержат комбинацию фактических дефисов и символа 165, например «bar • ber-sur • geon».

Документация о сделанных вариантах расстановки переносов практически отсутствует; следующие примеры могут дать некоторое представление об используемом стиле расстановки переносов: at • mos • phere; у • присматривать • за муравьем; емкость; un • col • или • a • ble.

Язык [ править ]

Moby Language II содержит словари на пяти языках: французском , немецком , итальянском , японском и испанском :

Однако некоторые списки загрязнены, например, список на японском языке содержит английские слова, такие как ненормальные, и не-слова, такие как abcdefgh и m ,. / . Есть также необычные особенности в сортировке этих списков, поскольку французский список содержит прямой алфавитный список, в то время как немецкий список содержит алфавитный список слов, написанных с большой буквы, а затем алфавитный список слов с традиционным нижним регистром. Однако в списке итальянских слов нет вообще никаких слов с заглавной буквы.

В списке иностранных языков не используются символы с диакритическими знаками, поэтому «e ^ tre» - это то, как пользователь будет искать французское слово être («быть»).

Часть речи [ править ]

Часть речи Моби содержит 233 356 слов, полностью описанных частями речи , перечисленных в порядке приоритета. Формат файла - слово \ части-речи , в нем идентифицируются следующие части речи:

Произношение [ править ]

Moby Pronunciator II содержит 177,267 записей с соответствующими произношением. Большинство записей описывают одно слово, но примерно 79 000 [1] содержат фразы, имена или лексемы с переносом или несколькими словами . Дистрибутив Project Gutenberg также содержит копию cmudict v0.3. Файл содержит строки формата произношения слова [/ part-of-speech] . Каждая строка заканчивается символом возврата каретки ASCII (CR, '\ r', 0x0D, 13 в десятичном виде).

Слово поле может включать апострофы (например , не ), дефис (например , трудоспособные ), а также несколько слов , разделенных символами подчеркивания (например , monkey_wrench ). Неанглийские слова обычно отображаются, как указано в документации, без акцентов или других диакритических знаков. Однако в 36 записях (например, São_Miguel ) остаются некоторые символы с диакритическими знаками, отличными от ASCII, представленные с использованием римской кодировки Mac OS .

Поле части речи используется для устранения неоднозначности 770 слов, которые имеют разное произношение в зависимости от их части речи. Например, для слова написаны близко, глагол имеет произношение / K л oʊ г / , в то время как прилагательное / к л oʊ с / . Частям речи присвоены следующие коды:

Далее следует произношение. Присутствуют несколько специальных символов:

Остальные символы используются для обозначения символов IPA . Произношения в целом согласуются с General американского диалекта английского языка, который проявляет отец заморачиваться слияние , поспешите-мехового объединения и много-ткань раскол , но не проявляет кроватку пойманной слияние или вино-скулить слияния . Каждая фонема представлена ​​последовательностью из одного или нескольких символов. Некоторые из последовательностей ограничены с косой чертой «/», как показаны в следующей таблице, но заметьте , что последовательность / ɔɪ / ограниченно два символов косых черт на обоих концах:

К этой коллекции добавлен ряд дополнительных последовательностей, представляющих фонемы, встречающиеся в нескольких других языках. Они используются для кодирования неанглийских слов, фраз и имен, включенных в базу данных. Следующая таблица содержит эти дополнительные фонемы, но обратите внимание, что степень, в которой некоторые из них могут существовать из-за ошибок кодирования, не ясна.

Шекспир [ править ]

Moby Shakespeare содержит полное полное собрание сочинений Шекспира . Этот конкретный ресурс недоступен в Project Gutenberg.

Тезаурус [ править ]

Moby Тезаурус II содержит 30,260 корневые слова, с 2,520,264 синонимов и связанных с ним терминов - в среднем 83,3 корня слова. Каждая строка состоит из списка значений , разделенных запятыми , где первый термин является корневым словом, а все последующие слова являются связанными терминами.

Грэди Уорд поместил этот тезаурус в общественное достояние в 1996 году. Он также доступен в виде пакета Debian .

Слова [ править ]

Moby Words II - это самый большой список слов в мире. [2] [ требуется дополнительное цитирование ] Дистрибутив состоит из следующих 16 файлов:

Ссылки [ править ]

  1. ^ Получается при выполнении команды UNIX grep '. * [-_]. *. *' Mobypron.unc | wc -l после преобразования окончаний строк и исправления некоторых ошибок кодирования.
  2. ^ Электронные словари

Внешние ссылки [ править ]

  • Домашняя страница проекта «Моби» , Шеффилдский университет; копия страницы, сделанная Wayback Machine на 30 сентября 2017 г. («Последнее изменение: 24 октября 2000 г.»)
  • Загрузки Project Gutenberg
  • Поиск рифм с помощью Perl ; соответствующий код