Оптимальное сопоставление - это метод анализа последовательности, используемый в социальных науках для оценки несходства упорядоченных массивов токенов, которые обычно представляют упорядоченную по времени последовательность социально-экономических состояний, в которых находятся два человека. После того, как такие расстояния были рассчитаны для набора наблюдений (например, отдельных лиц в когорте ), можно использовать классические инструменты (например, кластерный анализ ). Этот метод был адаптирован для социальных наук [1] на основе метода, первоначально использованного для изучения молекулярно-биологических (белковых или генетических) последовательностей (см. Выравнивание последовательностей ). Оптимальное сопоставление использует алгоритм Нидлмана-Вунша .
Алгоритм
Позволять быть последовательностью состояний принадлежащий конечному множеству возможных состояний. Обозначим пространство последовательностей, т.е. множество всех возможных последовательностей состояний.
Оптимальные алгоритмы сопоставления работают путем определения простых операторных алгебр, которые управляют последовательностями, то есть набором операторов.. В самом простом подходе используется набор, состоящий всего из трех основных операций преобразования последовательностей:
- одно государство вставляется в последовательность
- одно состояние удаляется из последовательности а также
- Штат заменяется (заменяется) состоянием , .
Представьте себе, что стоимость связан с каждым оператором. Учитывая две последовательности а также , идея состоит в том, чтобы измерить стоимость получения из с помощью операторов из алгебры. Позволять последовательность операторов такая, что применение всех операторов этой последовательности к первой последовательности дает вторую последовательность : где обозначает составной оператор. С этим набором ассоциируем стоимость, который представляет собой общую стоимость преобразования. Здесь следует учитывать, что могут существовать разные такие последовательности. это преобразование в ; разумный выбор - выбрать самую дешевую из таких последовательностей. Таким образом, мы называем расстояние
то есть стоимость наименее дорогостоящего набора преобразований, которые превращают в . Заметь по определению неотрицательна, поскольку представляет собой сумму положительных затрат, и тривиально если и только если , то есть нет стоимости. Функция расстояния симметрична, если затраты на вставку и удаление равны.; термин INDEL стоимость , как правило , относится к общей стоимости вставки и удаления.
Если рассматривать набор, состоящий только из трех основных операций, описанных выше, эта мера близости удовлетворяет треугольному неравенству. Однако транзитивность зависит от определения набора элементарных операций.
Критика
Хотя методы оптимального соответствия широко используются в социологии и демографии, у таких методов также есть свои недостатки. Как указывалось несколькими авторами (например, LL Wu [2] ), основная проблема в применении оптимального соответствия состоит в том, чтобы надлежащим образом определить затраты.
Оптимальное соответствие в причинном моделировании
Оптимальное соответствие также является термином, используемым в статистическом моделировании причинно-следственных связей . В этом контексте он относится к сопоставлению «случаев» с «элементами управления» и полностью отделен от смысла анализа последовательностей.
Программное обеспечение
- TDA - это мощная программа, предлагающая доступ к некоторым из последних разработок в области анализа данных переходного периода.
- STATA внедрила пакет для выполнения анализа оптимального соответствия.
- TraMineR - это R- пакет с открытым исходным кодом для анализа и визуализации состояний и последовательностей событий, включая анализ оптимального соответствия.
Ссылки и примечания
- ^ A. Abbott и A. Tsay, (2000) Анализ последовательностей и методы оптимального сопоставления в социологии: обзор и перспективы социологических методов и исследований], Vol. 29, 3-33. DOI : 10,1177 / 0049124100029001001
- ^ LL Ву. (2000) Некоторые комментарии к «Анализ последовательностей и оптимальные методы сопоставления в социологии: обзор и перспективы». Архивировано 24 октября 2006 г. в Wayback Machine Sociological Methods & Research, 29 41-64. DOI : 10,1177 / 0049124100029001003