Программа автоматической оценки сходства

Программа автоматической оценки сходства
Доступ
Режиссер	Институт истории человечества Макса Планка (Германия)
Языки	английский
Расходы	Бесплатно
Покрытие
Дисциплины	Количественная сравнительная лингвистика
Ссылки
Веб-сайт	http://asjp.clld.org

Программа автоматизированного определения сходства ( ASJP ) - это совместный проект, в котором применяются вычислительные подходы к сравнительной лингвистике с использованием базы данных списков слов. База данных имеет открытый доступ и состоит из списков базовой лексики из 40 пунктов для более чем половины языков мира. ^[1] Он постоянно расширяется. В дополнение к изолятам и языкам продемонстрированных генеалогических групп, база данных включает пиджины , креолы , смешанные языки и искусственные языки . Слова базы данных транскрибируются в упрощенную стандартную орфографию ( ASJPcode ). ^[2]База данных использовалась для оценки дат, когда языковые семьи разошлись на дочерние языки с помощью метода, связанного с глоттохронологией , но все еще отличного от него , ^[3] для определения родины ( Urheimat ) протоязыка , ^[4] для исследования звука символизм , ^[5] для оценки различных филогенетических методов, ^[6] и несколько других целей.

ASJP не получил широкого признания среди лингвистов-историков в качестве адекватного метода для установления или оценки отношений между языковыми семьями. ^[7]

Это часть проекта Cross-Linguistic Linked Data, организованного Институтом истории человечества им . Макса Планка . ^[8]

История [ править ]

Исходные цели [ править ]

Первоначально ASJP был разработан как средство для объективной оценки сходства слов с одинаковым значением из разных языков с конечной целью классификации языков с помощью вычислений на основе наблюдаемых лексических сходств. В первой статье ASJP ^[2] два семантически идентичных слова из сравниваемых языков были признаны похожими, если они показали как минимум два идентичных звуковых сегмента. Сходство между двумя языками рассчитывалось как процент от общего числа сравниваемых слов, которые были признаны похожими. Этот метод был применен к спискам слов из 100 пунктов для 250 языков из языковых семей, включая австроазиатский , индоевропейский , майянский иМускогин .

Консорциум ASJP [ править ]

Консорциум ASJP, основанный примерно в 2008 году, ^{[ когда? ]} привлек около 25 профессиональных лингвистов и других заинтересованных лиц, работающих в качестве добровольных переводчиков и / или оказывающих помощь проекту другими способами. Главной движущей силой основания консорциума был Сесил Х. Браун. Сорен Вихманн - ежедневный куратор проекта. Третий центральный член консорциума - Эрик У. Холман, который создал большую часть программного обеспечения, используемого в проекте.

Более короткие списки слов [ править ]

Хотя используемые списки слов были первоначально основаны на списке Сводеша из 100 пунктов , статистически было определено, что подмножество 40 из 100 пунктов дало такие же хорошие, если не немного лучшие результаты классификации, чем весь список. ^[9] Таким образом, впоследствии собранные списки слов содержат только 40 пунктов (или меньше, если для некоторых отсутствуют подтверждения).

Расстояние Левенштейна [ править ]

В статьях, опубликованных с 2008 года, ASJP использовала программу оценки сходства, основанную на расстоянии Левенштейна.(LD). Было обнаружено, что этот подход дает лучшие результаты классификации, сравниваемые с мнением экспертов, чем метод, использованный изначально. LD определяется как минимальное количество последовательных изменений, необходимых для преобразования одного слова в другое, где каждое изменение представляет собой вставку, удаление или замену символа. В рамках подхода Левенштейна различия в длине слова могут быть исправлены путем деления LD на количество символов более длинного из двух сравниваемых слов. Это дает нормализованный LD (LDN). Разделение LDN (LDND) между двумя языками рассчитывается путем деления среднего LDN для всех пар слов, имеющих одно и то же значение, на среднее значение LDN для всех пар слов с разными значениями. Эта вторая нормализация предназначена для исправления случайного сходства. ^[10]

Список слов [ править ]

ASJP использует следующий список из 40 слов. ^[11] Он аналогичен списку Сводеша – Яхонтова , но имеет некоторые отличия.

Части тела

глаз
ухо
нос
язык
зуб
рука
колено
кровь
кость
грудь (женская)
печень
кожа

Животные и растения

вошь
собака
рыба (существительное)
рог (часть животного)
дерево
лист

Люди

человек
name (имя существительное)

Природа

солнце
звезда
вода
Пожар
камень
путь
гора
ночь (темное время)

Глаголы и прилагательные

пить (глагол)
умереть
видеть
слышать
приехать
новый
полный

Числительные и местоимения

один
два
я
ты
мы

ASJPcode [ править ]

Версия ASJP от 2016 года использует следующие символы для кодирования фонем : pbfvmw 8 tdszcnrl SZC j T 5 ykgx N q X h 7 L 4 G! ie E 3 auo

Они представляют собой 7 гласных и 34 согласных, и все они присутствуют на стандартной QWERTY-клавиатуре.

Звуки представлены ASJPcode ^[2]
ASJPcode	Описание	IPA
я	высокий гласный переднего ряда, округленный и неокругленный	я, ɪ, у, ʏ
е	гласная середины переднего ряда, округленная и неокругленная	е, ø
E	низкий гласный переднего ряда, округленный и неокругленный	а, æ, ɛ, ɶ, œ
3	высокий и средний центральный гласный, округленный и неокругленный	ɨ, ɘ, ə, ɜ, ʉ, ɵ, ɞ
а	нижняя центральная гласная, неокругленная	ɐ
ты	высокий гласный заднего ряда, округленный и неокругленный	ɯ, ты
о	средние и нижние гласные заднего ряда, округленные и неокругленные	ɤ, ʌ, ɑ, о, ɔ, ɒ
п	глухая двухгубная остановка и щелевой	p, ɸ
б	звонкий двугубный стоп и щелевой	б, β
м	билабиальный носовой	м
ж	глухой губно-зубной щелевой	ж
v	звонкий губно-зубной щелевой	v
8	глухой и звонкий зубной фрикативный звук	θ, ð
4	зубной носовой	n
т	глухая альвеолярная остановка	т
d	звонкий альвеолярный стоп	d
s	глухой альвеолярный щелевой	s
z	звонкий альвеолярный щелевой	z
c	глухой и звонкий альвеолярный аффрикат	ts, dz
п	глухой и звонкий альвеолярный носовой	п
S	глухой постальвеолярный щелевой	ʃ
Z	звонкий постальвеолярный щелевой	ʒ
C	глухой небно-альвеолярный аффрикат	tʃ
j	звонкий небно-альвеолярный аффрикат	dʒ
Т	глухая и звонкая небная остановка	c, ɟ
5	небный носовой	ɲ
k	безмолвный велярный стоп	k
грамм	звонкий велярный стоп	ɡ
Икс	глухой и звонкий велярный фрикативный	х, ɣ
N	велярный носовой	ŋ
q	беззвучная увулярная остановка	q
грамм	звонкий увулярный стоп	ɢ
Икс	глухой и звонкий увулярный фрикативный, глухой и звонкий глоточный фрикативный	χ, ʁ, ħ, ʕ
7	глухая гортанная остановка	ʔ
час	глухой и звонкий голосовой щелевой звук	ч, ɦ
л	звонкий альвеолярный латеральный приблизительный	л
L	все остальные отводы	ʟ, ɭ, ʎ
ш	звонкий двугубно-велярный аппроксимант	ш
y	небный аппроксимант	j
р	звонкая апико-альвеолярная трель и все разновидности «р-звуков»	r, ʀ и т. д.
!	все разновидности «щелчков»	ǃ, ǀ, ǁ, ǂ

См. Также [ править ]

Лексикостатистика
Историческая лингвистика

Ссылки [ править ]

^ Wichmann, Сорен, Андре Мюллер, Annkathrin Wett, Вивека Велупиллаи, Джулия Bischoffberger, Сесил Х. Браун, Eric W. Холман, Себастьян Sauppe, Зарина Molochieva, Памела Браун, Harald Hammarström, Олег Беляев, Иоганн-Маттис Список, Dik Баккер, Дмитрий Егоров, Матиас Урбан, Роберт Мэйлхаммер, Агустина Карризо, Мэтью С. Драйер, Евгения Коровина, Дэвид Бек, Хелен Гейер, Пейшенс Эппс, Энтони Грант и Пилар Валенсуэла. 2013. База данных ASJP (версия 16). http://asjp.clld.org/
^ a b c Браун, Сесил Х., Эрик У. Холман, Сорен Вихманн и Вивека Велупиллай. 2008. Автоматизированная классификация языков мира: описание метода и предварительные результаты . STUF - Типология языков и универсалии 61.4: 285-308.
^ Холман, Эрик В., Сесил Х. Браун, Сорен Вихманн, Андре Мюллер, Вивека Велупиллай, Харальд Хаммарстрём, Себастьян Совпе, Хаген Юнг, Дик Баккер, Памела Браун, Олег Беляев, Матиас Урбан, Роберт Мэйлхаммер, Список Иоганна-Маттиса, и Дмитрий Егоров. 2011. Автоматическое датирование языковых семей мира на основе лексического сходства . Текущая антропология 52.6: 841-875.
^ Вихманн, Сорен, Андре Мюллер и Вивека Велупиллаи. 2010. Родины языковых семей мира: количественный подход . Диахроника 27.2: 247-276.
^ Вичманн, Сорен, Холман, Эрик В. и Сесил Х. Браун. 2010. Звуковая символика в базовой лексике . Энтропия 12.4: 844-858.
↑ Помпеи, Симоне, Витторио Лорето и Франческа Трия. 2011. О точности языковых деревьев . PLoS ONE 6: e20109.
^ Ср. комментарии Аделаара, Бласта и Кэмпбелла в Holman, Eric W., et al. (2011) «Автоматизированное датирование языковых семей мира на основе лексического сходства». Современная антропология , т. 52, нет. 6. С. 841–875.
^ «Кросс-лингвистические связанные данные» . Проверено 22 февраля 2020 .
^ Холман, Эрик В., Сорен Вихманн, Сесил Х. Браун, Вивека Велупиллай, Андре Мюллер и Дик Баккер. 2008. Исследования в области автоматической классификации языков . Folia Linguistica 42.2: 331-354.
^ Вичманн, Сорен, Эрик В. Холман, Дик Баккер и Сесил Х. Браун. 2010. Оценка лингвистической дистанции. Physica A 389: 3632-3639 (DOI: 10.1016 / j.physa.2010.05.011).
^ http://asjp.clld.org/static/Guidelines.pdf

Источники [ править ]

Сорен Вихманн, Джефф Гуд (редакторы). 2014. Количественная оценка языковой динамики: на переднем крае ареальной и филогенетической лингвистики , стр.203. Лейден: Брилл.
Браун, Сесил Х. и др. 2008. Автоматизированная классификация языков мира: описание метода и предварительные результаты . Типология языков и универсалии 61 (4). Ноябрь 2008 г. doi : 10.1524 / stuf.2008.0026
Вичманн, Сорен, Эрик У. Холман и Сесил Х. Браун (ред.). 2018. База данных ASJP (версия 18).

Внешние ссылки [ править ]

Официальная домашняя страница базы данных ASJP

[1] Wichmann, Сорен, Андре Мюллер, Annkathrin Wett, Вивека Велупиллаи, Джулия Bischoffberger, Сесил Х. Браун, Eric W. Холман, Себастьян Sauppe, Зарина Molochieva, Памела Браун, Harald Hammarström, Олег Беляев, Иоганн-Маттис Список, Dik Баккер, Дмитрий Егоров, Матиас Урбан, Роберт Мэйлхаммер, Агустина Карризо, Мэтью С. Драйер, Евгения Коровина, Дэвид Бек, Хелен Гейер, Пейшенс Эппс, Энтони Грант и Пилар Валенсуэла. 2013. База данных ASJP (версия 16). http://asjp.clld.org/

[BrownCecil-2] Браун, Сесил Х., Эрик У. Холман, Сорен Вихманн и Вивека Велупиллай. 2008. Автоматизированная классификация языков мира: описание метода и предварительные результаты . STUF - Типология языков и универсалии 61.4: 285-308.

[3] Холман, Эрик В., Сесил Х. Браун, Сорен Вихманн, Андре Мюллер, Вивека Велупиллай, Харальд Хаммарстрём, Себастьян Совпе, Хаген Юнг, Дик Баккер, Памела Браун, Олег Беляев, Матиас Урбан, Роберт Мэйлхаммер, Список Иоганна-Маттиса, и Дмитрий Егоров. 2011. Автоматическое датирование языковых семей мира на основе лексического сходства . Текущая антропология 52.6: 841-875.

[4] Вихманн, Сорен, Андре Мюллер и Вивека Велупиллаи. 2010. Родины языковых семей мира: количественный подход . Диахроника 27.2: 247-276.

[5] Вичманн, Сорен, Холман, Эрик В. и Сесил Х. Браун. 2010. Звуковая символика в базовой лексике . Энтропия 12.4: 844-858.

[6] Помпеи, Симоне, Витторио Лорето и Франческа Трия. 2011. О точности языковых деревьев . PLoS ONE 6: e20109.

[7] Ср. комментарии Аделаара, Бласта и Кэмпбелла в Holman, Eric W., et al. (2011) «Автоматизированное датирование языковых семей мира на основе лексического сходства». Современная антропология , т. 52, нет. 6. С. 841–875.

[8] «Кросс-лингвистические связанные данные» . Проверено 22 февраля 2020 .

[9] Холман, Эрик В., Сорен Вихманн, Сесил Х. Браун, Вивека Велупиллай, Андре Мюллер и Дик Баккер. 2008. Исследования в области автоматической классификации языков . Folia Linguistica 42.2: 331-354.

[10] Вичманн, Сорен, Эрик В. Холман, Дик Баккер и Сесил Х. Браун. 2010. Оценка лингвистической дистанции. Physica A 389: 3632-3639 (DOI: 10.1016 / j.physa.2010.05.011).

[11] ttp://asjp.clld.org/static/Guidelines.pdf

[1]