Проект Moby - это набор общедоступных лексических ресурсов. Он был создан дизайнером Grady Ward . Ресурсы были посвящены общественному достоянию и теперь отражены в Project Gutenberg . По состоянию на 2007 год [Обновить]он содержит самую большую бесплатную фонетическую базу данных с 177 267 словами и соответствующими произношениями. [ необходима цитата ]
Переносчик
Моби Hyphenator II содержит переносы из 187,175 слов и фраз ( в то числе 9,752 записей , где нет переносов не приведены, например, через и Avoir ). Кодировка символов выглядит как MacRoman , а расстановка переносов обозначается маркером (десятичное значение символа 165 или шестнадцатеричное A5). Однако некоторые записи содержат комбинацию фактических дефисов и символа 165, например «bar • ber-sur • geon».
Документация о сделанных вариантах расстановки переносов практически отсутствует; следующие примеры могут дать некоторое представление об используемом стиле расстановки переносов: at • mos • phere; у • присматривать • за муравьем; вместимость; un • col • или • a • ble.
Язык
Moby Language II содержит словари на пяти языках: французском , немецком , итальянском , японском и испанском :
Язык | Слова | Размер (в байтах ) |
---|---|---|
Французский | 138 257 | 1 524 757 |
Немецкий | 159 809 | 2 055 986 |
Итальянский | 60 453 | 561 981 |
Японский | 115 523 | 934 783 |
испанский | 86 059 | 850 523 |
Общее | 560 101 | 5 928 030 |
Однако некоторые из списков загрязнены, например список на японском языке содержит английские слова, такие как аномальные, и не-слова, такие как abcdefgh и m ,. / . Есть также необычные особенности в сортировке этих списков, так как французский список содержит прямой алфавитный список, в то время как немецкий список содержит алфавитный список слов с традиционно заглавными буквами, а затем алфавитный список слов с традиционным нижним регистром. Однако в списке итальянских слов нет вообще никаких слов с заглавной буквы.
В списке иностранных языков не используются символы с диакритическими знаками, поэтому «e ^ tre» - это то, как пользователь будет искать французское слово être («быть»).
Часть речи
Часть речи Моби содержит 233 356 слов, полностью описанных частями речи , перечисленных в порядке приоритета. Формат файла - слово \ части-речи , в нем идентифицируются следующие части речи:
Часть речи | Код |
---|---|
Существительное | N |
Множественное число | п |
Словосочетание | час |
Глагол (обычно причастие ) | V |
Переходный глагол | т |
Непереходный глагол | я |
Прилагательное | А |
Наречие | v |
Соединение | C |
Предлог | п |
Междометие | ! |
Местоимение | р |
Определенный артикль | D |
Неопределенный артикль | я |
Именительный | о |
Произношений
Moby Pronunciator II содержит 177,267 записей с соответствующими произношением. Большинство записей описывают одно слово, но примерно 79 000 [1] содержат фразы, имена или лексемы с переносом или несколькими словами . Дистрибутив Project Gutenberg также содержит копию cmudict v0.3. Файл содержит строки формата произношения слова [/ part-of-speech] . Каждая строка заканчивается символом возврата каретки ASCII (CR, '\ r', 0x0D, 13 в десятичном виде).
Слово поле может включать апострофы (например , не ), дефис (например , трудоспособные ), а также несколько слов , разделенных символами подчеркивания (например , monkey_wrench ). Неанглийские слова обычно отображаются, как указано в документации, без акцентов или других диакритических знаков. Однако в 36 записях (например, São_Miguel ) остаются некоторые символы с диакритическими знаками, отличными от ASCII, представленные с использованием римской кодировки Mac OS .
Поле части речи используется для устранения неоднозначности 770 слов, которые имеют разное произношение в зависимости от их части речи. Например, для слова написаны близко, глагол имеет произношение / K л oʊ г / , в то время как прилагательное / к л oʊ с / . Частям речи присвоены следующие коды:
Часть речи | Код |
---|---|
Существительное | п |
Глагол | v |
Прилагательное | эй |
Наречие | средний |
Междометие | Interj |
Далее следует произношение. Присутствуют несколько специальных символов:
Символ | Имея в виду |
---|---|
_ | Используется для разделения слов |
' | Первичное ударение следующего слога |
, | Вторичное ударение следующего слога |
Остальные символы используются для обозначения символов IPA . Произношения в целом согласуются с General американского диалекта английского языка, который проявляет отец заморачиваться слияние , поспешите-мехового объединения и много-ткань раскол , но не проявляет кроватку пойманной слияние или вино-скулить слияния . Каждая фонема представлена последовательностью из одного или нескольких символов. Некоторые из последовательностей ограничены с косой чертой «/», как показаны в следующей таблице, но заметьте , что последовательность / ɔɪ / ограниченно два символов косых черт на обоих концах:
Символ | IPA |
---|---|
/ & / | æ |
/ - / | ə |
/ @ / | ʌ, ə |
/[@]/р | ɜr, ər |
/ A / | ɑ, ɑː |
/ aI / | аɪ |
/ AU / | аʊ |
б | б |
d | d |
/ D / | ð |
/ dZ / | dʒ |
/ E / | ɛ |
/ eI / | eɪ |
ж | ж |
грамм | ɡ |
час | час |
hw | hw |
/я/ | я |
/Я/ | ɪ |
/ j / | j |
/ ju / | juː |
k | k |
л | л |
м | м |
п | п |
/ N / | ŋ |
/ O / | ɔ, ɔː |
// Ой // | ɔɪ |
/ОУ/ | oʊ |
п | п |
р | р |
s | s |
/ S / | ʃ |
т | т |
/ T / | θ |
/ tS / | tʃ |
/ u / | u |
/ U / | ʊ |
v | v |
ш | ш |
z | z |
/ Z / | ʒ |
К этой коллекции добавлен ряд дополнительных последовательностей, представляющих фонемы, встречающиеся в нескольких других языках. Они используются для кодирования неанглийских слов, фраз и имен, включенных в базу данных. Следующая таблица содержит эти дополнительные фонемы, но обратите внимание, что степень, в которой некоторые из них могут существовать из-за ошибок кодирования, не ясна.
Символ | IPA |
---|---|
А | а |
е | е, ɛ |
я | я, ɪ |
N | Насализация предшествующей гласной |
о | о |
О | [намерение неясно] |
р | ʁ |
S | s |
ты | ты |
V | v, β, ʋ |
W | ш |
/Икс/ | Икс |
/ г / | ø |
Y | у |
/ z / | ts |
Z | z |
Шекспир
Moby Shakespeare содержит полное полное собрание сочинений Шекспира . Этот конкретный ресурс недоступен в Project Gutenberg.
Тезаурус
Moby Тезаурус II содержит 30,260 корневые слова, с 2,520,264 синонимов и связанных с ним терминов - в среднем 83,3 корня слова. Каждая строка состоит из списка значений , разделенных запятыми , где первый термин является корневым словом, а все последующие слова являются связанными терминами.
Грэди Уорд поместил этот тезаурус в общественное достояние в 1996 году. Он также доступен в виде пакета Debian .
Слова
Moby Words II - это самый большой список слов в мире. [2] [ требуется дополнительное цитирование ] Дистрибутив состоит из следующих 16 файлов:
Имя файла | Слова | Описание |
---|---|---|
ACRONYMS.TXT | 6 213 | Распространенные акронимы и сокращения |
COMMON.TXT | 74 550 | Общие слова, присутствующие в двух или более опубликованных словарях |
СОЕДИНЕНИЕ.TXT | 256 772 | Фразы, имена собственные и акронимы, не включенные в файл общих слов |
CROSSWD.TXT | 113 809 | Слова, включенные в первое издание Официального словаря игроков в скрэббл |
CRSWD-D.TXT | 4 160 | Дополнения к официальному словарю Scrabble Players во втором издании |
FICTION.TXT | 467 | Список наиболее часто встречающихся подстрок в книге The Joy Luck Club |
FREQ.TXT | 1,000 | Наиболее часто встречающиеся слова в английском языке , перечисленные в порядке убывания |
FREQ-INT.TXT | 1,000 | Слова, наиболее часто встречающиеся в Usenet в 1992 г., перечислены с соответствующим процентным соотношением в порядке убывания. |
KJVFREQ.TXT | 1,185 | Наиболее часто встречающиеся подстроки в Библии Короля Иакова , перечисленные в порядке убывания |
NAMES.TXT | 21 986 | Наиболее распространенные имена, используемые в США и Великобритании |
ИМЕНА-F.TXT | 4946 | Распространенные английские женские имена |
ИМЕНА-M.TXT | 3 897 | Распространенные английские мужские имена |
OFTENMIS.TXT | 366 | Самые распространенные английские слова с ошибками |
PLACES.TXT | 10 196 | Названия мест в США |
SINGLE.TXT | 354 984 | Отдельные слова, исключая имена собственные, акронимы, составные слова и фразы, но включая архаические слова и значимые варианты написания |
USACONST.TXT | 7 618 | Конституция Соединенных Штатов, включая все поправки, действующие до 1993 г. |
Общее | 863 149 | Не все уникальных слов. |
Всего Uniq | 639 995 | Всего отдельных существительных, имен собственных, сокращений и составных слов и фраз (все файлы, содержащие уникальные слова). |
Рекомендации
- ^ Получается при выполнении команды UNIX grep '. * [-_]. *. *' Mobypron.unc | wc -l после преобразования окончаний строк и исправления некоторых ошибок кодирования.
- ^ Электронные словари
Внешние ссылки
- Домашняя страница проекта «Моби» , Шеффилдский университет; копия страницы, сделанная Wayback Machine на 30 сентября 2017 г. («Последнее изменение: 24 октября 2000 г.»)
- Загрузки Project Gutenberg
- Поиск рифм с помощью Perl ; соответствующий код