Количественная сравнительная лингвистика

Количественная сравнительная лингвистика - это использование количественного анализа в применении к сравнительной лингвистике . Примеры включают статистические области лексикостатистики и глоттохронологии , а также заимствование филогенетики из биологии.

История

Статистические методы используются для количественного анализа в сравнительном языкознании более века. В 1950-х годах появился список Сводеша : стандартизованный набор лексических понятий, встречающихся в большинстве языков в виде слов или фраз, которые позволяют сравнивать два или более языков эмпирически.

Вероятно, первое опубликованное количественное исследование исторической лингвистики было проведено Сапиром в 1916 году ^{[1], в} то время как Крёбер и Кретьен в 1937 году ^[2] исследовали девять индоевропейских (IE) языков, используя 74 морфологических и фонологических признака (расширенных в 1939 году путем включения хеттского языка). ). Росс ^[3] в 1950 г. провел исследование теоретической основы таких исследований. Сводеш, используя списки слов, разработал лексикостатистику и глоттохронологию в серии статей ^[4], опубликованных в начале 1950-х годов, но эти методы подверглись широкой критике ^[5], хотя некоторые из этих критических замечаний были сочтены другими учеными как необоснованные. Эмблтон опубликовал книгу «Статистика в исторической лингвистике» в 1986 году, в которой был дан обзор предыдущей работы и расширен глоттохронологический метод. Дайен, Краскал и Блэк провели исследование лексикостатистического метода в большой базе данных IE в 1992 году ^[6].

В 1990-х годах интерес к этой теме возобновился, основанный на применении методов вычислительной филогенетики и кладистики . Такие проекты часто предполагали сотрудничество ученых-лингвистов и коллег, специализирующихся в области информатики и / или биологической антропологии . Эти проекты часто стремились прийти к оптимальному филогенетическому дереву (или сети), чтобы представить гипотезу об эволюционном происхождении и, возможно, его языковых контактах. Пионерами этих методов были основатели CPHL: вычислительная филогенетика в исторической лингвистике (проект CPHL): Дональд Риндж , Тэнди Варноу , Луай Наклех и Стивен Н. Эванс .

В середине 1990-х группа из Пенсильванского университета компьютеризировала сравнительный метод и использовала другую базу данных IE с 20 древними языками. ^[7] В области биологии было разработано несколько программ, которые могли найти применение в исторической лингвистике. В частности, группа из Оклендского университета разработала метод, который дал спорно старые даты для языков IE. ^[8] В августе 1999 г. была проведена конференция «Глубина времени в исторической лингвистике», на которой обсуждались многие применения количественных методов. ^[9] Впоследствии было опубликовано множество статей об исследованиях различных языковых групп, а также о сравнении методов.

Повышенное внимание средств массовой информации было вызвано в 2003 году после публикации антропологами Рассела Грея и Квентина Аткинсона краткого исследования индоевропейских языков в природе . Грей и Аткинсон попытались количественно оценить в вероятностном смысле возраст и родство современных индоевропейских языков, а иногда и предшествующих протоязыков.

Труды влиятельной конференции 2004 г. « Филогенетические методы и предыстория языков» были опубликованы в 2006 г. под редакцией Питера Форстера и Колина Ренфрю .

Изучаемые языковые семьи

Вычислительный филогенетический анализ был проведен для:

Индоевропейские языки : Bouckaert (2012) ^[10]
Уральские языки : Honkola (2013) ^[11]
Тюркские языки : Hruschka (2014) ^[12]
Дравидийские языки : Kolipakam (2018) ^[13]
Австроазиатские языки : Сидвелл (2015) ^[14]
Австронезийские языки : серый (2009) ^[15]
Пама-ньюнганские языки : Bowern & Atkinson (2012), ^[16] Bouckaert, Bowern and Atkinson (2018) ^[17]
Языки банту : Currie (2013), ^[18] Grollemund (2015) ^[19]
Семитские языки : Кухня (2009) ^[20]
Дене-енисейские языки : Sicoli & Holton (2014) ^[21]
Уто-ацтекские языки : Уиллер и Уайтли (2014) ^[22]
Языки майя : Аткинсон (2006) ^[23]
Араваканские языки : Уокер и Рибейро (2011) ^[24]
Языки тупи-гуарани : Майкл (2015) ^[25]
Сино-тибетские языки : Zhang et al. (2019), ^[26] Sagart et al. (2019) ^[27]

Задний план

Стандартным методом оценки языковых отношений был сравнительный метод . Однако у этого есть ряд ограничений. Не весь лингвистический материал подходит в качестве входных данных, и существуют проблемы с языковыми уровнями, на которых работает метод. Реконструированные языки идеализированы, и разные ученые могут дать разные результаты. Языковые генеалогические деревья часто используются в сочетании с методом, и «заимствования» должны быть исключены из данных, что затруднительно, если заимствование происходит внутри семьи. Часто утверждают, что метод ограничен по времени, в течение которого он может работать. Метод сложен в применении и не существует независимого теста. ^[28] Таким образом, были предприняты поиски альтернативных методов, которые имеют формализованный метод, количественно определяют взаимосвязи и могут быть протестированы.

Целью сравнительно-исторической лингвистики является выявление случаев генетического родства языков. ^[29] Шаги в количественном анализе: (i) разработать процедуру, основанную на теоретических основаниях, на конкретной модели или прошлом опыте и т. Д. (Ii) для проверки процедуры, применяя ее к некоторым данным, где существует большой совокупность лингвистических заключений для сравнения (это может привести к пересмотру процедуры этапа (i) или в крайнем случае их полного отказа) (iii) применение процедуры к данным, по которым лингвистические заключения еще не были представлены, не но уже прочно обосновались или, возможно, даже находятся в конфликте. ^[30]

Применение филогенетических методов к языкам - это многоэтапный процесс: (а) стадия кодирования - переход от реальных языков к некоторому выражению отношений между ними в форме числовых данных или данных состояния, чтобы затем эти данные можно было использовать в качестве входных. к филогенетическим методам (б) стадия представления - применение филогенетических методов для извлечения из этих числовых и / или констатирующих данных сигнала, который преобразуется в некоторую полезную форму представления, обычно двухмерную графическую, такую как деревья или сети, которые синтезируют и " свернуть «то, что часто является очень сложными многомерными отношениями в сигнале (c) на этапе интерпретации - оценка этих древовидных и сетевых представлений, чтобы извлечь из них то, что они на самом деле означают для реальных языков и их взаимосвязей во времени. ^[31]

Типы деревьев и сетей

Результатом количественного историко-лингвистического анализа обычно является дерево или сетевая диаграмма. Это позволяет сводную визуализацию выходных данных, но не является полным результатом. Дерево - это связный ациклический граф, состоящий из набора вершин (также известных как «узлы») и набора ребер («ветвей»), каждое из которых соединяет пару вершин. ^[32] Внутренний узел представляет лингвистического предка в филогенном дереве или сети. Каждый язык представлен путем, показывающим различные состояния по мере его развития. Между каждой парой вершин есть только один путь. Некорневые деревья отображают взаимосвязь между входными данными без предположений об их происхождении. Укоренившееся дерево явно идентифицирует общего предка, часто путем указания направления эволюции или включения «внешней группы», которая, как известно, лишь отдаленно связана с набором классифицируемых языков. Большинство деревьев являются бинарными, то есть у родителя есть двое детей. Дерево всегда можно создать, даже если оно не всегда уместно. Другой вид дерева основан только на языковых сходствах / различиях. В этом случае внутренние узлы графа не представляют предков, но вводятся для представления конфликта между различными разбиениями («двудольными») при анализе данных. «Фенетическое расстояние» - это сумма весов (часто представленных как длины) на пути между языками. Иногда делается дополнительное предположение, что эти внутренние узлы действительно представляют предков.

Когда языки сходятся, обычно с заимствованием слов («заимствование»), сетевая модель более уместна. Появятся дополнительные края, отражающие двойное происхождение языка. Эти края будут двунаправленными, если оба языка заимствуют друг друга. Таким образом, дерево представляет собой простую сеть, однако существует множество других типов сетей. Филогенетическая сеть - это сеть, в которой таксоны представлены узлами, а их эволюционные отношения представлены ветвями. ^[33] Другой тип основан на расщеплении и является комбинаторным обобщением дерева расщепления. Данный набор разделений может иметь более одного представления, поэтому внутренние узлы могут не быть предками и являются лишь «неявным» представлением эволюционной истории в отличие от «явного» представления филогенетических сетей. В разветвленной сети френетическая дистанция - это кратчайший путь между двумя языками. Еще один тип - это ретикулярная сеть, которая демонстрирует несовместимость (например, из-за контакта), поскольку сетчатые структуры и ее внутренние узлы действительно представляют предков. Сеть также может быть построена путем добавления контактных ребер к дереву. Последний основной тип - это консенсусная сеть, сформированная из деревьев. Эти деревья могут быть результатом бутстрап-анализа или выборок из апостериорного распределения.

Изменение языка

Изменения в языках происходят постоянно, но обычно не с постоянной скоростью ^[34], а их совокупный эффект приводит к разделению на диалекты, языки и языковые семьи. Обычно считается, что морфология изменяется медленнее всего, а фонология - быстрее всего. По мере того, как происходят изменения, остается все меньше и меньше свидетельств оригинального языка. Наконец, может быть потеря каких-либо доказательств родства. Изменения одного типа могут не влиять на другие типы, например, изменения звука не влияют на когнитивные способности. В отличие от биологии, нельзя предполагать, что все языки имеют общее происхождение, и необходимо установить родство. При моделировании для простоты часто предполагается, что символы меняются независимо, но это может быть не так. Помимо заимствования могут быть семантические сдвиги и полиморфизм.

Вход для анализа

Данные

Анализ может проводиться по «символам» языков или по «дистанциям» языков. В первом случае входные данные для классификации языков обычно принимают форму матрицы данных, где строки соответствуют различным анализируемым языкам, а столбцы соответствуют различным характеристикам или символам, с помощью которых может быть описан каждый язык. Эти признаки бывают двух типов, родственных или типологических данных. Персонажи могут принимать одну или несколько форм (гомоплазия) и могут быть лексическими, морфологическими или фонологическими. Родственные слова - это морфемы (лексические или грамматические) или более крупные конструкции. Типологические символы могут происходить из любой части грамматики или лексики. Если в данных есть пробелы, их необходимо закодировать.

В дополнение к исходной базе данных (не прошедших проверку) во многих исследованиях для определенных целей формируются подмножества (проверенные данные).

В лексикостатистике признаками являются значения слов или, скорее, смысловые слоты. Таким образом, элементы матрицы представляют собой серию примечаний. По первоначальному замыслу Сводеша необходимо было выбрать наиболее часто используемое слово для обозначения слота, что может быть трудным и субъективным из-за семантического сдвига. Более поздние методы могут позволить включить более одного значения.

Ограничения

Некоторые методы позволяют накладывать ограничения на географию языковых контактов (изоляцию по расстоянию) и время разделения подгрупп.

Базы данных

Изначально Сводеш опубликовал список из 200 слов, но позже переработал его до 100 слов. ^[35] Обычно используемая база данных IE - это база данных Дайена, Краскала и Блэка, которая содержит данные для 95 языков, хотя известно, что оригинал содержит несколько ошибок. Помимо исходных данных, он также содержит суждения о когнитивности. Это доступно в Интернете. ^[36] База данных Ringe, Warnow и Taylor содержит информацию о 24 языках IE с 22 фонологическими символами, 15 морфологическими символами и 333 лексическими символами. Грей и Аткинсон использовали базу данных из 87 языков с 2449 лексическими элементами, основанную на наборе Дайен с добавлением трех древних языков. В них были учтены суждения ряда ученых о когнитивных способностях. Другие базы данных были составлены, среди прочего, для африканских, австралийских и андских языковых семей.

Кодирование данных может быть в двоичной форме или в форме с несколькими состояниями. Первое часто используется, но действительно приводит к предвзятости. Было заявлено, что существует постоянный масштабный коэффициент между двумя методами кодирования, и что на это можно сделать поправку. Однако другое исследование предполагает, что топология может измениться ^[37]

Списки слов

Слоты для слов выбраны максимально свободными от культурных традиций и заимствований. Чаще всего используются оригинальные списки Сводеша , но многие другие были разработаны для определенных целей. Часто они короче, чем предпочитаемый Сводешем список из 100 пунктов. Кесслер написал книгу «Значение списков слов» ^{[38], в} то время как МакМахон и МакМахон провели исследования эффектов реконструируемости и сохраняемости. ^[28] Эффект увеличения количества слотов был изучен, и был изучен закон убывающей отдачи. найдено, причем удовлетворительными считаются около 80. ^[39] Однако в некоторых исследованиях использовалось менее половины этого числа.

Обычно каждый родственный набор представлен как отдельный символ, но различия между словами также можно измерить как измерение расстояния по звуковым изменениям. Расстояния также можно измерять по буквам.

Морфологические особенности

Традиционно они считались более важными, чем лексические, поэтому некоторые исследования придают дополнительный вес этому типу символов. Такие функции были включены, например, в базу данных Ringe, Warnow и Taylor IE. Однако в других исследованиях они не учитывались.

Типологические особенности

Примеры этих функций включают глоттализированные константы, тональные системы, винительный падеж в существительных, двойное число, соответствие числа падежей, порядок объект-глагол и местоимения первого лица единственного числа. Они будут перечислены в базе данных WALS, хотя для многих языков она пока еще не заполнена. ^[40]

Вероятностные модели

Некоторые методы анализа включают статистическую модель эволюции языка и используют свойства модели для оценки истории эволюции. Статистические модели также используются для моделирования данных в целях тестирования. Стохастический процесс можно использовать для описания эволюции набора символов в языке. Вероятность изменения персонажа может зависеть от ветви, но не все персонажи развиваются вместе, и скорость не одинакова для всех ветвей. Часто предполагается, что каждый персонаж развивается независимо, но это не всегда так. В рамках модели можно моделировать заимствование и параллельное развитие (гомоплазию), а также полиморфизмы.

Эффекты случая

Случайное сходство создает уровень шума, на основе которого должен быть найден требуемый сигнал родства. Ринг ^[41] провел исследование влияния случайности на метод сравнения масс . Это показало, что случайное сходство имеет решающее значение для метода и что выводы Гринберга не могут быть оправданы, хотя математическая процедура, использованная Римге, позже подверглась критике.

При использовании небольших баз данных ошибки выборки могут быть важны.

В некоторых случаях с большой базой данных и исчерпывающим поиском всех возможных деревьев или сетей невозможно из-за ограничений времени выполнения. Таким образом, существует вероятность того, что оптимальное решение не будет найдено с помощью эвристических методов поиска в пространстве решений.

Обнаружение заимствования

Заимствованные слова могут серьезно повлиять на топологию дерева, поэтому прилагаются усилия, чтобы исключить заимствования. Однако необнаруженные иногда все же существуют. McMahon и McMahon ^[42] показали, что около 5% заимствований могут повлиять на топологию, в то время как 10% имеют значительные эффекты. В сетях заимствования порождают ретикуляции. Минетт и Ван ^[43] исследовали способы автоматического обнаружения заимствования.

Сплит знакомства

Датировку языковых разделений можно определить, если известно, как персонажи развиваются вдоль каждой ветви дерева. Самое простое предположение состоит в том, что все персонажи развиваются с одной постоянной скоростью со временем и что это не зависит от ветви дерева. Это было предположение, сделанное в глоттохронологии. Однако исследования вскоре показали, что между языками существуют различия, некоторые, вероятно, из-за наличия нераспознанных заимствований. ^[44] Лучший подход - разрешить изменение скорости, и обычно используется гамма-распределение из-за его математического удобства. Также были проведены исследования, которые показывают, что частота замены символов зависит от частоты использования. ^[45] Широко распространенное заимствование может искажать оценки времени расхождения, делая языки более похожими и, следовательно, более молодыми. Однако это также увеличивает длину ветви предка, так что корень не затрагивается. ^[46]

Этот аспект - самая противоречивая часть количественной сравнительной лингвистики.

Виды анализа

Необходимо понять, как работает метод классификации языков, чтобы определить его допущения и ограничения. Он может быть действителен только при определенных условиях или подходить для небольших баз данных. Методы различаются по требованиям к данным, сложности и времени выполнения. Методы также различаются по критериям оптимизации.

Модели на основе персонажей

Максимальная экономия и максимальная совместимость

Эти два метода похожи, но цель метода максимальной экономии - найти дерево (или сеть), в котором происходит минимальное количество эволюционных изменений. В некоторых реализациях персонажам могут быть присвоены веса, и тогда цель состоит в том, чтобы минимизировать общую взвешенную сумму изменений. В результате анализа получаются деревья без корней, если не используется внешняя группа или управляемые персонажи. Для поиска лучшего дерева используются эвристические методы, но оптимизация не гарантируется. Метод часто реализуется с помощью программ PAUP или TNT .

Максимальная совместимость также использует символы с целью найти дерево, на котором максимальное количество символов развивается без гомоплазии. Опять же, символы могут быть взвешены, и когда это происходит, цель состоит в том, чтобы максимизировать сумму весов совместимых символов. Он также производит деревья без корней, если не включена дополнительная информация. Нет доступных эвристических методов, которые были бы точны для больших баз данных. Этот метод использовался только группой Ринге. ^[47]

В этих двух методах часто обнаруживается несколько деревьев с одинаковой оценкой, поэтому обычная практика состоит в том, чтобы найти дерево консенсуса с помощью алгоритма. Консенсус большинства имеет две части более чем в половине входных деревьев, в то время как жадный консенсус добавляет две части к дереву большинства. Дерево строгого консенсуса является наименее разрешенным и содержит те разбиения, которые есть в каждом дереве.

Самостоятельная загрузка (стратегия статистической повторной выборки) используется для предоставления значений поддержки ветвей. Этот метод случайным образом выбирает символы из матрицы входных данных, а затем используется тот же анализ. Опорное значение - это доля пробегов с этим разделением в наблюдаемом дереве. Однако начальная загрузка занимает очень много времени.

Максимальное правдоподобие и байесовский анализ

Оба эти метода используют явные модели эволюции. Метод максимального правдоподобия оптимизирует вероятность получения наблюдаемых данных, в то время как байесовский анализ оценивает вероятность каждого дерева и, таким образом, дает распределение вероятностей. Произойдет случайное блуждание по «пространству модель-дерево». И то, и другое требует неопределенного времени для запуска, и остановка может быть произвольной, поэтому решение является проблемой. Однако оба предоставляют информацию о поддержке для каждой ветви.

Предположения этих методов очевидны и поддаются проверке. При необходимости сложность модели может быть увеличена. Параметры модели оцениваются непосредственно на основе входных данных, поэтому можно избежать предположений о скорости эволюции.

Совершенные филогенетические сети

Этот метод создает явную филогенную сеть, имеющую лежащее в основе дерево с дополнительными контактными ребрами. Персонажи могут быть заимствованы, но развиваться без гомоплазии. Для создания таких сетей использовался теоретико-графовый алгоритм ^[48] .

Метод Грея и Аткинсона

Входные лексические данные кодируются в двоичной форме, по одному символу для каждого состояния исходного мультисостояния символа. Метод допускает гомоплазию и ограничения по времени разделения. Используется метод анализа, основанный на правдоподобии, с эволюцией, выраженной в виде матрицы скоростей. Прибыль и убыток моделируются с помощью гамма-распределения, позволяющего изменять скорость и со сглаживанием скорости. Из-за огромного количества возможных деревьев на многих языках для поиска оптимального дерева используется байесовский вывод. Цепи Маркова Монте - Карло алгоритм ^[49] генерирует выборку деревьев в качестве приближения к заднему распределения вероятностей. Сводка этого распределения может быть представлена в виде жадного дерева консенсуса или сети со значениями поддержки. Метод также предоставляет оценки по датам.

Этот метод является точным, когда исходные символы являются двоичными и развиваются идентично и независимо друг от друга в рамках модели скоростей по сайтам с гамма-распределением скоростей; даты точны, если скорость изменения постоянна. Понимание производительности метода, когда исходные символы имеют несколько состояний, более сложно, поскольку двоичное кодирование создает символы, которые не являются независимыми, в то время как метод предполагает независимость.

Метод Николлса и Грея

Этот метод ^[50] является развитием метода Грея и Аткинсона. Вместо двух параметров для символа этот метод использует три. Уточняются рождаемость, смертность родственника и его заемность. Коэффициент рождаемости - это случайная величина Пуассона с одним рождением родственного класса, но разрешены отдельные смерти ветвей (экономия Долло). Метод не допускает гомоплазию, но допускает полиморфизм и ограничения. Его основная проблема заключается в том, что он не может обрабатывать недостающие данные (с тех пор эта проблема была решена Райдером и Николлсом. ^[51] Для подгонки модели к данным используются статистические методы. Может быть включена предварительная информация, и проведено исследование MCMC). Реконструкции.Метод был применен к базе данных Грея и Николая и, кажется, дает аналогичные результаты.

Модели на основе расстояния

Они используют треугольную матрицу парных языковых сравнений. Матрица входных символов используется для вычисления матрицы расстояний либо с использованием расстояния Хэмминга, либо расстояния Левенштейна . Первый измеряет долю совпадающих символов, а второй позволяет включать затраты на различные возможные преобразования. Эти методы быстры по сравнению с методами, полностью основанными на символах. Однако эти методы действительно приводят к потере информации.

UPGMA

«Невзвешенный парный групповой метод со средним арифметическим» ( UPGMA ) - это метод кластеризации, который работает путем многократного объединения двух языков, между которыми существует наименьшее расстояние. Он работает точно, как часы, но в противном случае может быть ошибочным. Это метод, использованный в оригинальной лексикостатистике Сводеша.

Разделить декомпозицию

Это метод разделения данных на естественные группы. ^[52] Данные могут быть символами, но чаще это меры расстояния. Количество символов или расстояния используются для генерации разделений и вычисления весов (длин ветвей) для разделений. Затем взвешенные расщепления представляются в виде дерева или сети на основе минимизации количества изменений между каждой парой таксонов. Существуют быстрые алгоритмы генерации коллекции разбиений. Веса определяются в зависимости от расстояний от таксона до таксона. Разложение на разделение эффективно, когда количество таксонов невелико или когда сигнал не слишком сложен.

Присоединение к соседу

Этот метод работает с данными о расстоянии, вычисляет преобразование входной матрицы, а затем вычисляет минимальное расстояние между парами языков. ^[53] Он работает правильно, даже если языки не развиваются вместе с лексическими часами. Также может использоваться взвешенная версия метода. Метод создает дерево вывода. Считается, что это наиболее близкий к ручным методам построения деревьев метод.

Соседство

Он использует алгоритм, аналогичный соединению соседей. ^[54] В отличие от Split Decomposition, он не объединяет узлы немедленно, а ждет, пока узел не будет спарен во второй раз. Затем узлы дерева заменяются двумя, а матрица расстояний сокращается. Он может обрабатывать большие и сложные наборы данных. Однако на выходе получается фенограмма, а не филограмма. Это самый популярный сетевой метод.

Сеть

Это был ранний сетевой метод, который использовался для некоторого языкового анализа. Первоначально он был разработан для генетических последовательностей с более чем одним возможным происхождением. ^[55] Сеть сворачивает альтернативные деревья в единую сеть. Если имеется несколько историй, рисуется сетка (прямоугольная форма). Он генерирует список символов, несовместимых с деревом.

ASP

При этом используется формализм декларативного представления знаний и методы программирования набора ответов. ^[56] Одним из таких решателей является CMODELS, который можно использовать для небольших задач, но для более крупных требуется эвристика. Предварительная обработка используется для определения информативных символов. CMODELS превращает их в теорию высказываний, которая использует решатель SAT для вычисления моделей этой теории.

Fitch / Kitch

Fitch и Kitch - это программы PHYLIP, основанные на максимальном правдоподобии, которые позволяют изменять порядок дерева после каждого добавления, в отличие от Нью-Джерси. Kitch отличается от Fitch тем, что предполагает постоянную скорость изменения во всем дереве, в то время как Fitch допускает разные ставки для каждой ветви. ^[57]

Метод уровня разделения

Холм представил метод в 2000 году для решения некоторых известных проблем лексикостатистического анализа. Это «ловушка симплезиоморфии», где разделяемые архаизмы трудно отличить от общих инноваций, и «ловушка соразмерности», когда более поздние изменения могут затмить ранние. Позже он представил усовершенствованный метод, названный SLD, для учета переменной распределение слов по языкам. ^[58] Метод не предполагает постоянной скорости изменения.

Методы быстрой сходимости

Ряд методов быстрого сходящегося анализа был разработан для использования с большими базами данных (> 200 языков). Один из них - метод покрытия диска (DCM). ^[59] Это было объединено с существующими методами для повышения производительности. Статья о методе DCM-NJ + MP приведена теми же авторами в «Эффективности филогенетических методов на деревьях ограниченного диаметра» ^{[ требуется полная ссылка ],} где он сравнивается с методом NJ.

Модели на основе сходства

Эти модели сравнивают буквы слов, а не их фонетику. Dunn et al. ^[60] изучили 125 типологических знаков на 16 австронезийских и 15 папуасских языках. Они сравнили свои результаты с деревом MP и деревом, построенным с помощью традиционного анализа. Достоверных различий не обнаружено. Точно так же Вичман и Сондерс ^[61] использовали 96 символов для изучения 63 американских языков.

Компьютеризированное массовое сравнение

Метод, который был предложен для первоначальной проверки набора языков, чтобы увидеть, связаны ли они, было массовое сравнение . Однако это было подвергнуто серьезной критике и вышло из употребления. Недавно Кесслер воскресил компьютеризированную версию метода, но с использованием тщательной проверки гипотез. ^[62] Цель состоит в том, чтобы использовать сходство более чем двух языков одновременно. В другой статье ^[63] оцениваются различные критерии сравнения списков слов. Было обнаружено, что семьи IE и уральские могут быть реконструированы, но не было доказательств существования совместной суперсемьи.

Никола метод

Этот метод использует устойчивые лексические поля, такие как глаголы стойки, чтобы попытаться установить отношения на расстоянии. ^{[64] При} поиске древних родственных слов учитывается конвергенция и семантические сдвиги. Обрисована модель и представлены результаты пилотного исследования.

ASJP

Программа автоматической оценки сходства (ASJP) похожа на лексикостатистику , но оценка сходства выполняется компьютерной программой, следуя согласованному набору правил. ^[65] Деревья генерируются с использованием стандартных филогенетических методов. ASJP использует 7 символов гласных и 34 символа согласных. Также существуют различные модификаторы. Два слова считаются похожими, если как минимум два последовательных согласных в соответствующих словах идентичны, при этом также принимаются во внимание гласные. Доля слов с одинаковым значением, признанных похожими для пары языков, представляет собой процент лексического сходства (LSP). Также рассчитывается процент фонологического сходства (PSP). Затем PSP вычитается из LSP, что дает вычитаемый процент сходства (SSP), и расстояние ASJP составляет 100-SSP. В настоящее время в базе данных ASJP ^[66] есть данные о более чем 4500 языках и диалектах, на основе которых было создано дерево языков мира. ^[67]

Метод Сервы и Петрони

Это измеряет орфографическое расстояние между словами, чтобы избежать субъективности суждений о когнитивности. ^[68] Он определяет минимальное количество операций, необходимых для преобразования одного слова в другое, нормированное на длину более длинного слова. Дерево строится из данных о расстоянии методом UPGMA.

Методы фонетической оценки

Хеггарти предложил способ измерения степени различия между родственниками, а не просто ответы «да / нет». ^[69] Это основано на исследовании многих (> 30) особенностей фонетики глосс по сравнению с протоязыком. Это может потребовать большого объема работы, но Хеггарти утверждает, что необходима только репрезентативная выборка звуков. Он также исследовал скорость изменения фонетики и обнаружил большое изменение скорости, так что оно не подходило для глоттохронологии. Подобная оценка фонетики ранее была проведена Граймсом и Агардом для романских языков, но при этом использовалось только шесть точек сравнения. ^[70]

Оценка методов

Метрики

Для измерения сходства / различия двух деревьев доступны стандартные математические методы. Для деревьев консенсуса индекс согласованности (CI) является мерой гомоплазии. Для одного символа это отношение минимально возможного количества шагов на любом одном дереве (= 1 для двоичных деревьев), деленное на количество восстановленных шагов на дереве. CI дерева - это сумма CI символов, деленная на количество символов. ^[71] Он представляет собой долю правильно назначенных паттернов.

Индекс удержания (RI) измеряет степень сходства персонажа. Это соотношение (g - s) / (g - m), где g - наибольшее количество шагов персонажа на любом дереве, m - минимальное количество шагов на любом дереве, а s - минимальное количество шагов на конкретном дереве. дерево. Существует также измененный CI, который является продуктом CI и RI.

Для двоичных деревьев стандартным способом сравнения их топологии является использование метрики Робинсона-Фулдса . ^[72] Это расстояние является средним числом ложных срабатываний и ложных отрицаний с точки зрения возникновения ветвей. Ставки РФ выше 10% считаются плохими совпадениями. Для других видов деревьев и для сетей стандартного метода сравнения пока нет.

Списки несовместимых символов создаются некоторыми методами построения дерева. Они могут быть чрезвычайно полезны при анализе вывода. При использовании эвристических методов повторяемость является проблемой. Однако для решения этой проблемы используются стандартные математические методы.

Сравнение с предыдущими анализами

Для оценки методов выбрана хорошо понятная семья языков с надежным набором данных. Часто это семейство IE, но использовались и другие. После применения методов, которые будут сравниваться с базой данных, полученные деревья сравниваются с эталонным деревом, определенным традиционными лингвистическими методами. Цель состоит в том, чтобы не было конфликтов в топологии, например, не было пропущенных подгрупп и совместимых дат. Семьи, предложенные для этого анализа Николсом и Варнов ^[73], являются германскими, романскими, славянскими, общетюркскими, китайскими и миксе-зокскими, а также более старыми группами, такими как океанические и IE.

Использование моделирования

Хотя использование реальных языков действительно добавляет реализма и создает реальные проблемы, вышеупомянутый метод проверки страдает тем фактом, что истинная эволюция языков неизвестна. Путем создания набора данных из моделируемого дерева эволюции становится известно правильное дерево. Однако это будет упрощенная версия реальности. Таким образом, следует использовать оба метода оценки.

Анализ чувствительности

Чтобы оценить надежность решения, желательно варьировать входные данные и ограничения и наблюдать за выходными данными. Каждая переменная меняется по очереди. Этот анализ был проведен в ряде случаев, и методы оказались надежными, например, Аткинсоном и Греем. ^[74]

Исследования, сравнивающие методы

В начале 1990-х лингвист Дональд Ринге , компьютерные ученые Луай Наклех и Тэнди Варнов , статистик Стивен Н. Эванс и другие начали сотрудничать в исследованиях в рамках количественных сравнительных лингвистических проектов. Позже они основали проект CHPL , цели которого включают: «создание и поддержание реальных наборов лингвистических данных, в частности, индоевропейских языков», «формулирование статистических моделей, отражающих эволюцию исторических лингвистических данных», «разработку инструментов моделирования и точности. меры по генерированию синтетических данных для изучения эффективности методов реконструкции », а также« разработка и реализация статистически обоснованных, а также комбинаторных методов реконструкции языковых филогений, включая филогенетические сети ». ^[75]

Сравнение методов кодирования было проведено Rexova et al. (2003). ^[76] Они создали сокращенный набор данных из базы данных Dyen, но с добавлением Hittite. Они создали стандартную матрицу с несколькими состояниями, в которой 141 состояние символа соответствует отдельным родственным классам, что допускает полиморфизм. Они также присоединились к некоторым родственным классам, чтобы уменьшить субъективность, и полиморфные состояния не допускались. Наконец, они создали двоичную матрицу, в которой каждый класс слов рассматривался как отдельный символ. Матрицы были проанализированы с помощью PAUP. Было обнаружено, что использование двоичной матрицы приводит к изменениям около корня дерева.

McMahon и McMahon (2003) использовали три программы PHYLIP (NJ, Fitch и Kitch) для набора данных DKB. ^[77] Они обнаружили, что полученные результаты очень похожи. Самостоятельная загрузка использовалась для проверки устойчивости любой части дерева. Позже они использовали подмножества данных, чтобы оценить их сохраняемость и реконструируемость. ^[42] Результаты показали топологические различия, которые были приписаны заимствованиям. Затем они также использовали Network, Split Decomposition, Neighbor-net и Splitstree для нескольких наборов данных. Между двумя последними методами были обнаружены существенные различия. Соседство считалось оптимальным для взыскательного языкового контакта.

В 2005 году Наклех, Варнов, Ринге и Эванс провели сравнение шести методов анализа с использованием индоевропейской базы данных. ^[78] Сравнивались методы UPGMA, NJ MP, MC, WMC и GA. Программный пакет PAUP использовался для UPGMA, NJ и MC, а также для вычисления большинства деревьев консенсуса. Была использована база данных RWT, но 40 символов были удалены из-за признаков полиморфизма. Затем была создана проверенная база данных, исключающая всех персонажей, явно демонстрирующих параллельное развитие, что исключает 38 признаков. Деревья были оценены на основе количества несовместимых признаков и в соответствии с установленными результатами подгруппировки. Они обнаружили, что UPGMA явно хуже, но между другими методами не было большой разницы. Результаты зависели от используемого набора данных. Было обнаружено, что важна оценка персонажей, что требует лингвистического суждения.

Saunders (2005) ^[79] сравнил Нью-Джерси, MP, GA и Neighbor-Net по комбинации лексических и типологических данных. Он рекомендовал использовать метод GA, но Николс и Варнов испытывают некоторые опасения по поводу методологии исследования. ^[80]

Cysouw et al. (2006) ^[81] сравнили оригинальный метод Холма с NJ, Fitch, MP и SD. Они обнаружили, что метод Холма менее точен, чем другие.

В 2013 году François Barbancon, Warnow, Evans, Ringe и Nakleh (2013) изучали различные методы реконструкции деревьев с использованием смоделированных данных. ^[82] Их смоделированные данные различались по количеству контактных кромок, степени гомоплазии, отклонению от лексических часов и отклонению от предположения о частоте на разных участках. Было обнаружено, что точность невзвешенных методов (MP, NJ, UPGMA и GA) была постоянной во всех изученных условиях, причем MP была лучшей. Точность двух методов взвешивания (WMC и WMP) зависела от правильности схемы взвешивания. При низком уровне гомоплазии взвешенные методы обычно дают более точные результаты, но неправильное взвешивание может сделать их хуже, чем MP или GA при умеренном или высоком уровне гомоплазии.

Выбираем лучшую модель

Выбор подходящей модели имеет решающее значение для проведения хорошего филогенетического анализа. Как модели с недостаточной параметризацией, так и модели с чрезмерными ограничениями могут вызывать отклоняющееся от нормы поведение, когда их базовые допущения нарушаются, в то время как для слишком сложных или чрезмерно параметризованных моделей требуется длительное время выполнения, а их параметры могут быть переоценены. ^[83] Наиболее распространенным методом выбора модели является «Тест отношения правдоподобия», который дает оценку соответствия между моделью и данными, но в качестве альтернативы можно использовать информационный критерий Акаике или байесовский информационный критерий. Доступны компьютерные программы для выбора модели.

Смотрите также

Глоттохронология
Список программ филогенетики
Количественная лингвистика

Заметки

^ Сапир, Эдвард (1916). «Временная перспектива в американской культуре аборигенов: исследование в методе». Записка геологической службы 90, № 13 . Антропологическая серия. Оттава: Государственное бюро печати.
^ Kroeber, AL; Кретьен, CD (1937). «Количественная классификация индоевропейских языков». Язык . 13 (2): 83–103. DOI : 10.2307 / 408715 . JSTOR 408715 .
^ Росс, Алан SC (1950). «Филологические проблемы вероятности». Журнал Королевского статистического общества. Серия Б (Методическая) . 12 (1): 19–59. DOI : 10.1111 / j.2517-6161.1950.tb00040.x . JSTOR 2983831 .
^ Сводеш, Моррис (1952). «Лексико-статистическое датирование доисторических этнических контактов: с особым упором на североамериканских индейцев и эскимосов». Труды Американского философского общества . 96 (4): 452–463. JSTOR 3143802 .
^ Бергсланд, Кнут; Фогт, Ганс (1962). «О действительности глоттохронологии». Современная антропология . 3 (2): 115–153. DOI : 10,1086 / 200264 . JSTOR 2739527 . S2CID 144236043 .
^ Дайен, Исидор; Крускал, Джозеф Б .; Черный, Пол (1992). «Индоевропейская классификация: лексикостатистический эксперимент». Труды Американского философского общества . 82 (5): iii – 132. DOI : 10.2307 / 1006517 . JSTOR 1006517 .
^ Ринге, Дон; Варнов, Тэнди; Тейлор, Энн (2002). «Индоевропейская и вычислительная кладистика». Труды Филологического общества . 100 : 59–129. DOI : 10.1111 / 1467-968X.00091 .
^ Первоначально объявлено в Грей, Рассел Д.; Аткинсон, Квентин Д. (2003). «Времена расхождения языка и дерева подтверждают анатолийскую теорию индоевропейского происхождения» . Природа . 426 (6965): 435–439. Bibcode : 2003Natur.426..435G . DOI : 10,1038 / природа02029 . PMID 14647380 . S2CID 42340 .
↑ Опубликовано Ренфрю, МакМэхоном и Траском в 2000 году.
^ Bouckaert, R .; Lemey, P .; Dunn, M .; Гринхилл, SJ; Алексеенко, А.В.; Драммонд, AJ; Серый, РД; Сушард, Массачусетс; Аткинсон, QD (2012). «Картирование истоков и распространения индоевропейской языковой семьи» . Наука . 337 (6097): 957–960. Bibcode : 2012Sci ... 337..957B . DOI : 10.1126 / science.1219669 . PMC 4112997 . PMID 22923579 .
^ Honkola, T .; Весакоски, O .; Корхонен, К .; Lehtinen, J .; Syrjänen, K .; Уолберг, Н. (2013). «Культурные и климатические изменения определяют эволюционную историю уральских языков» . Журнал эволюционной биологии . 26 (6): 1244–1253. DOI : 10.1111 / jeb.12107 . PMID 23675756 . S2CID 7966025 .
^ Hruschka, Daniel J .; Брэнфорд, Саймон; Смит, Эрик Д .; Уилкинс, Джон; Мид, Эндрю; Пагель, Марк; Бхаттачарья, Танмой (2015). «Обнаружение регулярных звуковых изменений в лингвистике как событий согласованной эволюции» . Текущая биология . 25 (1): 1–9. DOI : 10.1016 / j.cub.2014.10.064 . PMC 4291143 . PMID 25532895 .
^ Колипакам, Вишнуприя; Jordan, Fiona M .; Данн, Майкл; Гринхилл, Саймон Дж .; Bouckaert, Remco; Грей, Рассел Д.; Веркерк, Аннемари (2018). «Байесовское филогенетическое исследование дравидийской языковой семьи» . Королевское общество «Открытая наука» . 5 (3): 171504. Bibcode : 2018RSOS .... 571504K . DOI : 10,1098 / rsos.171504 . PMC 5882685 . PMID 29657761 .
^ Сидуэлл, Пол. 2015. Комплексный филогенетический анализ австроазиатских языков . Представлено на конференции Diversity Linguistics: Retrospect and Prospect, 1–3 мая 2015 г. (Лейпциг, Германия), заключительной конференции факультета лингвистики Института эволюционной антропологии им. Макса Планка.
^ Серый, РД; Драммонд, AJ; Гринхилл, SJ (2009). «Филогенез языка выявляет импульсы и паузы расширения в тихоокеанских поселениях». Наука . 323 (5913): 479–483. Bibcode : 2009Sci ... 323..479G . DOI : 10.1126 / science.1166858 . PMID 19164742 . S2CID 29838345 .
^ Бауэрн, Клэр и Аткинсон, Квентин, 2012. Вычислительная филогенетика и внутренняя структура Памы-Ньюнгана . Язык, Vol. 88, 817-845.
^ Bouckaert, Remco R .; Бауэрн, Клэр; Аткинсон, Квентин Д. (2018). «Происхождение и распространение пама-ньюнганских языков по всей Австралии». Природа, экология и эволюция . 2 (4): 741–749. DOI : 10.1038 / s41559-018-0489-3 . PMID 29531347 . S2CID 4208351 .
^ Карри, Томас Э .; Мид, Эндрю; Гийон, Миртилла; Мейс, Рут (2013). «Культурная филогеография языков банту в Африке к югу от Сахары» . Труды Королевского общества B: биологические науки . 280 (1762): 20130695. DOI : 10.1098 / rspb.2013.0695 . PMC 3673054 . PMID 23658203 .
^ Гроллемунд, Ребекка; Брэнфорд, Саймон; Бостоен, Коэн; Мид, Эндрю; Вендитти, Крис; Пагель, Марк (2015). «Расширение банту показывает, что среда обитания меняет маршрут и темп расселения людей» . Труды Национальной академии наук . 112 (43): 13296–13301. Bibcode : 2015PNAS..11213296G . DOI : 10.1073 / pnas.1503793112 . PMC 4629331 . PMID 26371302 .
^ Кухня, Андрей; Эрет, Кристофер; Ассефа, Шифероу; Маллиган, Конни Дж. (2009). «Байесовский филогенетический анализ семитских языков определяет происхождение семитских языков на Ближнем Востоке в раннем бронзовом веке» . Труды Королевского общества B: биологические науки . 276 (1668): 2703–2710. DOI : 10.1098 / rspb.2009.0408 . PMC 2839953 . PMID 19403539 .
^ Sicoli, Mark A .; Холтон, Гэри (2014). «Языковые филогении поддерживают обратную миграцию из Берингии в Азию» . PLOS ONE . 9 (3): e91722. Bibcode : 2014PLoSO ... 991722S . DOI : 10.1371 / journal.pone.0091722 . PMC 3951421 . PMID 24621925 .
^ Wheeler, Ward C .; Уайтли, Питер М. (2015). «Историческая лингвистика как проблема оптимизации последовательности: эволюция и биогеография уто-ацтекских языков» (PDF) . Кладистика . 31 (2): 113–125. DOI : 10.1111 / cla.12078 . S2CID 86030904 .
^ Аткинсон, QD (2006). От видов к языкам - филогенетический подход к истории человечества . Кандидатская диссертация, Оклендский университет, Окленд.
^ Уокер, Роберт С .; Рибейро, Линкольн А. (2011). "Байесовская филогеография экспансии Аравак в низменности Южной Америки" . Труды Королевского общества B: биологические науки . 278 (1718): 2562–2567. DOI : 10.1098 / rspb.2010.2579 . PMC 3136831 . PMID 21247954 .
^ Майкл, Лев, Наталья Чусу-Полидури, Кейт Бартоломей, Эрин Доннелли, Вивиан Воутерс, Серхио Мейра, Закари О'Хаган. 2015. Байесовская филогенетическая классификация тупи-гуарани . LIAMES 15 (2): 193-221.
^ Чжан, Мэнган; Ян, Ши; Пан, Уюнь; Цзинь, Ли (2019). «Филогенетические свидетельства китайско-тибетского происхождения на севере Китая в позднем неолите». Природа . 569 (7754): 112–115. Bibcode : 2019Natur.569..112Z . DOI : 10.1038 / s41586-019-1153-Z . PMID 31019300 . S2CID 129946000 .
^ Сагарт, Лоран; Жак, Гийом; Лай, Юньфань; Райдер, Робин; Узо, Валентин; Гринхилл, Саймон Дж .; Список, Иоганн-Маттис (2019). «Датированные языковые филогении проливают свет на происхождение сино-тибетцев» . Труды Национальной академии наук Соединенных Штатов Америки . 116 (21): 10317–10322. DOI : 10.1073 / pnas.1817972116 . PMC 6534992 . PMID 31061123 .
^ а б МакМахон, апрель, MS; МакМахон, Роберт (2005). Классификация языков по номерам . ISBN 978-0199279029.
^ Харрисон, SP (2003). «О пределах сравнительного метода». У Брайана Д. Джозефа; Ричард Д. Джанда (ред.). Справочник по исторической лингвистике . Блэквелл Паблишинг. С. 213–243. DOI : 10.1002 / 9781405166201.ch2 . ISBN 9781405166201.
^ Эмблтон, Шейла М (1986). Статистика в исторической лингвистике . Брокмейер. ISBN 9783883395371.
^ Хеггарти, Пол (2006). «Междисциплинарная недисциплина? Могут ли филогенетические методы значимо применяться к языковым данным - и к языку свиданий?» (PDF) . В Питере Форстере; Колин Ренфрю (ред.). Филогенетические методы и предыстория языков . Монографии Института Макдональда. Институт археологических исследований Макдональда.
^ Николс, Джоанна; Варнов, Тэнди (2008). "Учебное пособие по компьютерной лингвистической филогении". Язык и лингвистический компас . 2 (5): 760–820. DOI : 10.1111 / j.1749-818X.2008.00082.x .
^ Huson, Daniel H .; Брайант, Дэвид (2006). «Применение филогенетических сетей в эволюционных исследованиях» . Молекулярная биология и эволюция . 23 (2): 254–267. DOI : 10.1093 / molbev / msj030 . PMID 16221896 .
^ Аткинсон, QD; Мид, А .; Venditti, C .; Гринхилл, SJ; Пагель, М. (2008). «Языки развиваются пунктуационными всплесками». Наука . 319 (5863): 588. DOI : 10.1126 / science.1149683 . hdl : 1885/33371 . PMID 18239118 . S2CID 29740420 .
^ Сводеш, Моррис (1955). «К большей точности в лексикостатистическом датировании». Международный журнал американской лингвистики . 21 (2): 121–137. DOI : 10.1086 / 464321 . JSTOR 1263939 . S2CID 144581963 .
^ На http://www.idc.upenn.edu ^{[ постоянная мертвая ссылка ]}
^ Rexova, К. (2003). «Кладистический анализ языков: индоевропейская классификация на основе лексикостатистических данных». Кладистика . 19 (2): 120–127. DOI : 10.1016 / S0748-3007 (02) 00147-0 .
^ Публикации CSLI, 2001
^ Холман, Эрик В .; Wichmann, Søren; Браун, Сесил Н .; Велупиллай, Вивека; Мюллер, Андре; Баккер, Дик (2008). «Исследования в области автоматической классификации языков». Folia Linguistica . 42 (3–4). DOI : 10.1515 / FLIN.2008.331 . S2CID 82275473 .
^ Haspelmath et al. , Мировой атлас языковых структур, OUP 2005
^ О вычислении фактора случайности в языковом сравнении, Сделки Американского философского общества 82 (1992)
^ a b Классификация языков по номерам
^ Об обнаружении заимствования, Diachronia 20/2 (2003)
^ см., например, Bergsland и Vogt
^ Например, Пейджел, Аткинсон и Мид, Частота использования слов предсказывает темпы лексической эволюции на протяжении всей индоевропейской истории , Nature 449, 11 октября 2007 г.
↑ Аткинсон и Грей, Сколько лет индоевропейской семье (в Филогенетических методах и предыстории языков, Форстер и Ренфрю, 2006 г.
^ Индоевропейская и вычислительная кладистика, Сделки философского общества 100/1 (2002)
^ Nakhleh et al. Совершенные филогенные сети, Язык 81 (2005)
^ Метрополис и др. 1953 г.
^ http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.799.8282&rep=rep1&type=pdf
^ Райдер, Робин; Николлс, Джефф (2011), «Отсутствующие данные в стохастической модели Долло для родственных данных и их применение к датировке протоиндоевропейских» , Журнал Королевского статистического общества, серия C , 60 (1): 71– 92, DOI : 10.1111 / j.1467-9876.2010.00743.x
^ Бандельт и платье 1992
^ Saitou и Nei (1987)
^ Брайант и Моултон: Соседство, агломеративный метод построения филогенетических сетей - Молекулярная биология и эволюция 21 (2003)
^ Bandelt et al. 1995 г.
^ Брукс, Эрдем. Минетт и Ринге: кладистика на основе символов и программирование наборов ответов
^ МакМахон и МакМахон
^ Холм: Новый дендрарий индоевропейских деревьев - Журнал количественной лингвистики 14 (2007)
^ Nakhleh, Рошан, СентДжон, ВС и Warnow : Проектирование быстро сходящихся phylogentic методы - Bioinfomatics, ОУП 2001
^ Структурная филогенетика и реконструкция истории древнего языка , Science 309, 2072 (2005)
^ Как использовать типологические базы данных в историко-лингвистических исследованиях ^{[ постоянная мертвая ссылка ]} , Diachronica 24, 373 (2007)
^ См., Например, «Математическая оценка языковых отношений на большие расстояния - Язык и лингвистика» 2/5 (2008).
^ Кесслер и Лехтонен: многостороннее сравнение и проверка значимости
^ Николс: квазикодственные и лексические сдвиги типов (в филогенетике и предыстории языков, Форстер и Ренфрю, 2006)
^ Браун и др. : Автоматическая классификация языков мира, Sprachtypologie und Universalienforschung, 61.4: 285-308, 2008 г. Архивировано 23 июня 2010 г., на Wayback Machine
^ ASJP обработанных языков Архива 11 мая 2010, в Wayback Machine (15 марта 2010)
^ Мюллер, А., С. Вихманн, В. Велупиллай и др. 2010. Мировое дерево лексического сходства языков ASJP: версия 3 (июль 2010 г.) . Архивировано 30 июля 2010 года в Wayback Machine.
^ Индоевропейское языковое дерево по расстоянию Левенштейна
^ Количественная оценка изменений во времени в фонетике (в Time-depth in Historical Linguistics, Renfrew, McMahon and Trask, 2001)
^ Лингвистическое разнообразие в романских языках, язык 35 1959
^ Клюге и Farris, Systematic Зоология 18, 1-32 (1969)
^ Робинсон и Фулдс: Сравнение филогенетических деревьев - Математические биологические науки - 53 (1981)
^ Учебник по компьютерной лингвистической филогении, языку и лингвистическому компасу 2/5 (2008)
^ Сколько лет индоевропейской языковой семье? (в Филогенетических методах и предыстории языков, Форстер и Ренфрю, 2006)
^ CPHL: Вычислительная филогенетика в исторической лингвистике (домашняя страница), 2009 г. (17 октября 2017 г.).
^ Кладистический анализ языков, Кладистика 19/2 (2003)
^ Поиск семей, количественные методы в классификации языков. Труды Филологического общества 101 (2003)
^ Nakhleh, Warnow, Ringe и Evans, " Сравнение методов филогенетической реконструкции на наборе данных IE " (2005)
^ Лингвистическая филогенетика для трех австронезийских семей, бакалаврская диссертация Swarthmore College (2005)
^ Учебник по компьютерной лингвистической филогении
^ Критика метода разделения базы для генеалогической подгруппы, с данными из Mixe-Zoquean ^{[ постоянная мертвая ссылка ]} , Journal of Quantitative Linguistics 13, 225 (2006)
^ Барбанкон, Варнов, Эванс, Ринге и Накле, экспериментальное исследование, сравнивающее методы лингвистической филогенетической реконструкции
^ Салливан и Джойс, Выбор модели в филогенетике ^{[ постоянная мертвая ссылка ]} , Ежегодный обзор экологии, эволюции и систематики 36 (2005)

Библиография

Аткинсон, Николлс, Валлийский и Грей: От слов к датам - Труды Филологического общества 103 (2005).
Бандельт и Дрю: Разложение расщепления - Молекулярная филогенетическая эволюция 1 (1992).
Bandelt, Forster and Rohl: Median-join networks для вывода внутривидовых филогений - Molecular Biological Evolution 16 (1999).
Брайант, Филимон и Грей: Распутывание нашего прошлого: языки, деревья, расколы и сети ^{[ постоянная мертвая ссылка ]} (в «Эволюции культурного разнообразия» Мейса, Холдена и Шеннана, UCL 2005).
Эванс и Варноу : неидентифицируемые времена расхождения в моделях ставок по сайтам - IEEE / ACM Transactions on Computational Biology and Bioinformation 1 (2005).
Хюльзенбек и Ронквист: г-н Байес, Байесовский вывод филогении - Биоинфоматика 17 (2001).
Хьюсон: Splitstree, программа для анализа и визуализации данных эволюции - Bioinfomatics 14 (1) (1998).
Варнов , Эванс, Ринге и Наклех: стохастическая модель эволюции языка, включающая гомоплазию и заимствование (в Филогенетических методах и предыстории языков - Форстер и Ренфрю, 2006).
Эфрон, Холлоран и Холмс: Уровни достоверности начальной загрузки для филогенетических деревьев - Труды Национальной академии наук США 93 (1996).
Ковальски и Тортон: Выполнение филогении максимальной экономичности и вероятности при гетерогенной эволюции - Nature 431 (2004).
Фельзенштейн: Случаи, когда методы экономии и совместимости будут вводить в заблуждение - Systematic Zoology 27 (1978).
Роджерс: Оценка максимального правдоподобия филогенетических деревьев согласуется, когда коэффициенты замещения варьируются в зависимости от неизменных участков плюс гамма-распределение - Systematic Biology 59 (2001).

Внешние ссылки

Электронная лингвистика: количественная сравнительная лингвистика

[1] Сапир, Эдвард (1916). «Временная перспектива в американской культуре аборигенов: исследование в методе». Записка геологической службы 90, № 13 . Антропологическая серия. Оттава: Государственное бюро печати.

[2] Kroeber, AL; Кретьен, CD (1937). «Количественная классификация индоевропейских языков». Язык . 13 (2): 83–103. DOI : 10.2307 / 408715 . JSTOR 408715 .

[3] Росс, Алан SC (1950). «Филологические проблемы вероятности». Журнал Королевского статистического общества. Серия Б (Методическая) . 12 (1): 19–59. DOI : 10.1111 / j.2517-6161.1950.tb00040.x . JSTOR 2983831 .

[4] Сводеш, Моррис (1952). «Лексико-статистическое датирование доисторических этнических контактов: с особым упором на североамериканских индейцев и эскимосов». Труды Американского философского общества . 96 (4): 452–463. JSTOR 3143802 .

[5] Бергсланд, Кнут; Фогт, Ганс (1962). «О действительности глоттохронологии». Современная антропология . 3 (2): 115–153. DOI : 10,1086 / 200264 . JSTOR 2739527 . S2CID 144236043 .

[6] Дайен, Исидор; Крускал, Джозеф Б .; Черный, Пол (1992). «Индоевропейская классификация: лексикостатистический эксперимент». Труды Американского философского общества . 82 (5): iii – 132. DOI : 10.2307 / 1006517 . JSTOR 1006517 .

[7] Ринге, Дон; Варнов, Тэнди; Тейлор, Энн (2002). «Индоевропейская и вычислительная кладистика». Труды Филологического общества . 100 : 59–129. DOI : 10.1111 / 1467-968X.00091 .

[8] Первоначально объявлено в Грей, Рассел Д.; Аткинсон, Квентин Д. (2003). «Времена расхождения языка и дерева подтверждают анатолийскую теорию индоевропейского происхождения» . Природа . 426 (6965): 435–439. Bibcode : 2003Natur.426..435G . DOI : 10,1038 / природа02029 . PMID 14647380 . S2CID 42340 .

[9] Опубликовано Ренфрю, МакМэхоном и Траском в 2000 году.

[10] Bouckaert, R .; Lemey, P .; Dunn, M .; Гринхилл, SJ; Алексеенко, А.В.; Драммонд, AJ; Серый, РД; Сушард, Массачусетс; Аткинсон, QD (2012). «Картирование истоков и распространения индоевропейской языковой семьи» . Наука . 337 (6097): 957–960. Bibcode : 2012Sci ... 337..957B . DOI : 10.1126 / science.1219669 . PMC 4112997 . PMID 22923579 .

[11] Honkola, T .; Весакоски, O .; Корхонен, К .; Lehtinen, J .; Syrjänen, K .; Уолберг, Н. (2013). «Культурные и климатические изменения определяют эволюционную историю уральских языков» . Журнал эволюционной биологии . 26 (6): 1244–1253. DOI : 10.1111 / jeb.12107 . PMID 23675756 . S2CID 7966025 .

[12] Hruschka, Daniel J .; Брэнфорд, Саймон; Смит, Эрик Д .; Уилкинс, Джон; Мид, Эндрю; Пагель, Марк; Бхаттачарья, Танмой (2015). «Обнаружение регулярных звуковых изменений в лингвистике как событий согласованной эволюции» . Текущая биология . 25 (1): 1–9. DOI : 10.1016 / j.cub.2014.10.064 . PMC 4291143 . PMID 25532895 .

[13] Колипакам, Вишнуприя; Jordan, Fiona M .; Данн, Майкл; Гринхилл, Саймон Дж .; Bouckaert, Remco; Грей, Рассел Д.; Веркерк, Аннемари (2018). «Байесовское филогенетическое исследование дравидийской языковой семьи» . Королевское общество «Открытая наука» . 5 (3): 171504. Bibcode : 2018RSOS .... 571504K . DOI : 10,1098 / rsos.171504 . PMC 5882685 . PMID 29657761 .

[14] Сидуэлл, Пол. 2015. Комплексный филогенетический анализ австроазиатских языков . Представлено на конференции Diversity Linguistics: Retrospect and Prospect, 1–3 мая 2015 г. (Лейпциг, Германия), заключительной конференции факультета лингвистики Института эволюционной антропологии им. Макса Планка.

[15] Серый, РД; Драммонд, AJ; Гринхилл, SJ (2009). «Филогенез языка выявляет импульсы и паузы расширения в тихоокеанских поселениях». Наука . 323 (5913): 479–483. Bibcode : 2009Sci ... 323..479G . DOI : 10.1126 / science.1166858 . PMID 19164742 . S2CID 29838345 .

[16] Бауэрн, Клэр и Аткинсон, Квентин, 2012. Вычислительная филогенетика и внутренняя структура Памы-Ньюнгана . Язык, Vol. 88, 817-845.

[17] Bouckaert, Remco R .; Бауэрн, Клэр; Аткинсон, Квентин Д. (2018). «Происхождение и распространение пама-ньюнганских языков по всей Австралии». Природа, экология и эволюция . 2 (4): 741–749. DOI : 10.1038 / s41559-018-0489-3 . PMID 29531347 . S2CID 4208351 .

[18] Карри, Томас Э .; Мид, Эндрю; Гийон, Миртилла; Мейс, Рут (2013). «Культурная филогеография языков банту в Африке к югу от Сахары» . Труды Королевского общества B: биологические науки . 280 (1762): 20130695. DOI : 10.1098 / rspb.2013.0695 . PMC 3673054 . PMID 23658203 .

[19] Гроллемунд, Ребекка; Брэнфорд, Саймон; Бостоен, Коэн; Мид, Эндрю; Вендитти, Крис; Пагель, Марк (2015). «Расширение банту показывает, что среда обитания меняет маршрут и темп расселения людей» . Труды Национальной академии наук . 112 (43): 13296–13301. Bibcode : 2015PNAS..11213296G . DOI : 10.1073 / pnas.1503793112 . PMC 4629331 . PMID 26371302 .

[20] Кухня, Андрей; Эрет, Кристофер; Ассефа, Шифероу; Маллиган, Конни Дж. (2009). «Байесовский филогенетический анализ семитских языков определяет происхождение семитских языков на Ближнем Востоке в раннем бронзовом веке» . Труды Королевского общества B: биологические науки . 276 (1668): 2703–2710. DOI : 10.1098 / rspb.2009.0408 . PMC 2839953 . PMID 19403539 .

[21] Sicoli, Mark A .; Холтон, Гэри (2014). «Языковые филогении поддерживают обратную миграцию из Берингии в Азию» . PLOS ONE . 9 (3): e91722. Bibcode : 2014PLoSO ... 991722S . DOI : 10.1371 / journal.pone.0091722 . PMC 3951421 . PMID 24621925 .

[22] Wheeler, Ward C .; Уайтли, Питер М. (2015). «Историческая лингвистика как проблема оптимизации последовательности: эволюция и биогеография уто-ацтекских языков» (PDF) . Кладистика . 31 (2): 113–125. DOI : 10.1111 / cla.12078 . S2CID 86030904 .

[23] Аткинсон, QD (2006). От видов к языкам - филогенетический подход к истории человечества . Кандидатская диссертация, Оклендский университет, Окленд.

[24] Уокер, Роберт С .; Рибейро, Линкольн А. (2011). "Байесовская филогеография экспансии Аравак в низменности Южной Америки" . Труды Королевского общества B: биологические науки . 278 (1718): 2562–2567. DOI : 10.1098 / rspb.2010.2579 . PMC 3136831 . PMID 21247954 .

[25] Майкл, Лев, Наталья Чусу-Полидури, Кейт Бартоломей, Эрин Доннелли, Вивиан Воутерс, Серхио Мейра, Закари О'Хаган. 2015. Байесовская филогенетическая классификация тупи-гуарани . LIAMES 15 (2): 193-221.

[26] Чжан, Мэнган; Ян, Ши; Пан, Уюнь; Цзинь, Ли (2019). «Филогенетические свидетельства китайско-тибетского происхождения на севере Китая в позднем неолите». Природа . 569 (7754): 112–115. Bibcode : 2019Natur.569..112Z . DOI : 10.1038 / s41586-019-1153-Z . PMID 31019300 . S2CID 129946000 .

[27] Сагарт, Лоран; Жак, Гийом; Лай, Юньфань; Райдер, Робин; Узо, Валентин; Гринхилл, Саймон Дж .; Список, Иоганн-Маттис (2019). «Датированные языковые филогении проливают свет на происхождение сино-тибетцев» . Труды Национальной академии наук Соединенных Штатов Америки . 116 (21): 10317–10322. DOI : 10.1073 / pnas.1817972116 . PMC 6534992 . PMID 31061123 .

[Language_Classification_by_Numbers-28] а б МакМахон, апрель, MS; МакМахон, Роберт (2005). Классификация языков по номерам . ISBN 978-0199279029.

[29] Харрисон, SP (2003). «О пределах сравнительного метода». У Брайана Д. Джозефа; Ричард Д. Джанда (ред.). Справочник по исторической лингвистике . Блэквелл Паблишинг. С. 213–243. DOI : 10.1002 / 9781405166201.ch2 . ISBN 9781405166201.

[30] Эмблтон, Шейла М (1986). Статистика в исторической лингвистике . Брокмейер. ISBN 9783883395371.

[31] Хеггарти, Пол (2006). «Междисциплинарная недисциплина? Могут ли филогенетические методы значимо применяться к языковым данным - и к языку свиданий?» (PDF) . В Питере Форстере; Колин Ренфрю (ред.). Филогенетические методы и предыстория языков . Монографии Института Макдональда. Институт археологических исследований Макдональда.

[32] Николс, Джоанна; Варнов, Тэнди (2008). "Учебное пособие по компьютерной лингвистической филогении". Язык и лингвистический компас . 2 (5): 760–820. DOI : 10.1111 / j.1749-818X.2008.00082.x .

[33] Huson, Daniel H .; Брайант, Дэвид (2006). «Применение филогенетических сетей в эволюционных исследованиях» . Молекулярная биология и эволюция . 23 (2): 254–267. DOI : 10.1093 / molbev / msj030 . PMID 16221896 .

[34] Аткинсон, QD; Мид, А .; Venditti, C .; Гринхилл, SJ; Пагель, М. (2008). «Языки развиваются пунктуационными всплесками». Наука . 319 (5863): 588. DOI : 10.1126 / science.1149683 . hdl : 1885/33371 . PMID 18239118 . S2CID 29740420 .

[35] Сводеш, Моррис (1955). «К большей точности в лексикостатистическом датировании». Международный журнал американской лингвистики . 21 (2): 121–137. DOI : 10.1086 / 464321 . JSTOR 1263939 . S2CID 144581963 .

[36] На http://www.idc.upenn.edu ^{[ постоянная мертвая ссылка ]}

[37] Rexova, К. (2003). «Кладистический анализ языков: индоевропейская классификация на основе лексикостатистических данных». Кладистика . 19 (2): 120–127. DOI : 10.1016 / S0748-3007 (02) 00147-0 .

[38] Публикации CSLI, 2001

[39] Холман, Эрик В .; Wichmann, Søren; Браун, Сесил Н .; Велупиллай, Вивека; Мюллер, Андре; Баккер, Дик (2008). «Исследования в области автоматической классификации языков». Folia Linguistica . 42 (3–4). DOI : 10.1515 / FLIN.2008.331 . S2CID 82275473 .

[40] Haspelmath et al. , Мировой атлас языковых структур, OUP 2005

[41] О вычислении фактора случайности в языковом сравнении, Сделки Американского философского общества 82 (1992)

[autogenerated1-42] Классификация языков по номерам

[43] Об обнаружении заимствования, Diachronia 20/2 (2003)

[44] см., например, Bergsland и Vogt

[45] Например, Пейджел, Аткинсон и Мид, Частота использования слов предсказывает темпы лексической эволюции на протяжении всей индоевропейской истории , Nature 449, 11 октября 2007 г.

[46] Аткинсон и Грей, Сколько лет индоевропейской семье (в Филогенетических методах и предыстории языков, Форстер и Ренфрю, 2006 г.

[47] Индоевропейская и вычислительная кладистика, Сделки философского общества 100/1 (2002)

[48] Nakhleh et al. Совершенные филогенные сети, Язык 81 (2005)

[49] Метрополис и др. 1953 г.

[50] ttp://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.799.8282&rep=rep1&type=pdf

[51] Райдер, Робин; Николлс, Джефф (2011), «Отсутствующие данные в стохастической модели Долло для родственных данных и их применение к датировке протоиндоевропейских» , Журнал Королевского статистического общества, серия C , 60 (1): 71– 92, DOI : 10.1111 / j.1467-9876.2010.00743.x

[52] Бандельт и платье 1992

[53] Saitou и Nei (1987)

[54] Брайант и Моултон: Соседство, агломеративный метод построения филогенетических сетей - Молекулярная биология и эволюция 21 (2003)

[55] Bandelt et al. 1995 г.

[56] Брукс, Эрдем. Минетт и Ринге: кладистика на основе символов и программирование наборов ответов

[57] МакМахон и МакМахон

[58] Холм: Новый дендрарий индоевропейских деревьев - Журнал количественной лингвистики 14 (2007)

[59] Nakhleh, Рошан, СентДжон, ВС и Warnow : Проектирование быстро сходящихся phylogentic методы - Bioinfomatics, ОУП 2001

[60] Структурная филогенетика и реконструкция истории древнего языка , Science 309, 2072 (2005)

[61] Как использовать типологические базы данных в историко-лингвистических исследованиях ^{[ постоянная мертвая ссылка ]} , Diachronica 24, 373 (2007)

[62] См., Например, «Математическая оценка языковых отношений на большие расстояния - Язык и лингвистика» 2/5 (2008).

[63] Кесслер и Лехтонен: многостороннее сравнение и проверка значимости

[64] Николс: квазикодственные и лексические сдвиги типов (в филогенетике и предыстории языков, Форстер и Ренфрю, 2006)

[65] Браун и др. : Автоматическая классификация языков мира, Sprachtypologie und Universalienforschung, 61.4: 285-308, 2008 г. Архивировано 23 июня 2010 г., на Wayback Machine

[66] ASJP обработанных языков Архива 11 мая 2010, в Wayback Machine (15 марта 2010)

[67] Мюллер, А., С. Вихманн, В. Велупиллай и др. 2010. Мировое дерево лексического сходства языков ASJP: версия 3 (июль 2010 г.) . Архивировано 30 июля 2010 года в Wayback Machine.

[68] Индоевропейское языковое дерево по расстоянию Левенштейна

[69] Количественная оценка изменений во времени в фонетике (в Time-depth in Historical Linguistics, Renfrew, McMahon and Trask, 2001)

[70] Лингвистическое разнообразие в романских языках, язык 35 1959

[71] Клюге и Farris, Systematic Зоология 18, 1-32 (1969)

[72] Робинсон и Фулдс: Сравнение филогенетических деревьев - Математические биологические науки - 53 (1981)

[73] Учебник по компьютерной лингвистической филогении, языку и лингвистическому компасу 2/5 (2008)

[74] Сколько лет индоевропейской языковой семье? (в Филогенетических методах и предыстории языков, Форстер и Ренфрю, 2006)

[75] CPHL: Вычислительная филогенетика в исторической лингвистике (домашняя страница), 2009 г. (17 октября 2017 г.).

[76] Кладистический анализ языков, Кладистика 19/2 (2003)

[77] Поиск семей, количественные методы в классификации языков. Труды Филологического общества 101 (2003)

[78] Nakhleh, Warnow, Ringe и Evans, " Сравнение методов филогенетической реконструкции на наборе данных IE " (2005)

[79] Лингвистическая филогенетика для трех австронезийских семей, бакалаврская диссертация Swarthmore College (2005)

[80] Учебник по компьютерной лингвистической филогении

[81] Критика метода разделения базы для генеалогической подгруппы, с данными из Mixe-Zoquean ^{[ постоянная мертвая ссылка ]} , Journal of Quantitative Linguistics 13, 225 (2006)

[82] Барбанкон, Варнов, Эванс, Ринге и Накле, экспериментальное исследование, сравнивающее методы лингвистической филогенетической реконструкции

[83] Салливан и Джойс, Выбор модели в филогенетике ^{[ постоянная мертвая ссылка ]} , Ежегодный обзор экологии, эволюции и систематики 36 (2005)

[1], в