TRACE - это коннекционистская модель восприятия речи , предложенная Джеймсом Макклелландом и Джеффри Элманом в 1986 году. [1] Она основана на структуре, называемой «След», динамической структуре обработки, состоящей из сети единиц, которая действует как рабочая память системы, а также механизм обработки восприятия. [2] TRACE была преобразована в рабочую компьютерную программу для моделирования перцептивного моделирования. Эти симуляции представляют собой предсказания того, как человеческий мозг / мозг обрабатывает звуки речи и слова, когда они слышны в реальном времени.
Вдохновение
TRACE был создан в период формирования коннекционизма и был включен в качестве главы в книгу «Параллельная распределенная обработка: исследования микроструктур познания» . [3] Исследователи обнаружили, что определенные проблемы, связанные с восприятием речи, можно концептуализировать в терминах модели интерактивной активации коннекционизма. Проблемы заключались в том, что (1) речь растягивается во времени, (2) звуки речи (фонемы) накладываются друг на друга, (3) на артикуляцию речевого звука влияют звуки, которые идут до и после него, и (4) естественная изменчивость речи (например, иностранный акцент), а также шум в окружающей среде (например, оживленный ресторан). Каждый из них приводит к тому, что речевой сигнал становится сложным и часто неоднозначным, из-за чего человеческому разуму / мозгу сложно решить, какие слова он на самом деле слышит. Проще говоря, интерактивная модель активации решает эту проблему, размещая различные типы блоков обработки (фонемы, слова) в изолированных слоях, позволяя активированным блокам передавать информацию между слоями, и позволяя блокам внутри слоев конкурировать друг с другом до тех пор, пока « победитель »считается« признанным »моделью.
Ключевые результаты
«TRACE была первой моделью, которая продемонстрировала активацию нескольких слов-кандидатов, соответствующих любой части речевого ввода». [4] Моделирование восприятия речи включает в себя представление компьютерной программы TRACE с имитацией речевого ввода, запуск программы и генерирование результата. Успешное моделирование показывает, что результат существенно схож с тем, как люди обрабатывают речь.
Распознавание слов во времени
В психолингвистике общепринято, что (1) когда слышно начало слова, в памяти активируется набор слов, имеющих один и тот же исходный звук, [5] (2) слова, которые активируются, конкурируют друг с другом, в то время как слышно все больше и больше слова, [6] (3) в какой-то момент, как из-за слухового ввода, так и из-за лексической конкуренции, распознается одно слово. [1]
Например, слушатель слышит начало лысины , и слова лысый, мяч, плохой, законопроект становятся активными в памяти. Затем, вскоре после этого, в соревновании остаются только лысина и мяч (плохо, счет был удален, потому что гласный звук не соответствует входному). Вскоре признают лысину. TRACE моделирует этот процесс, представляя временное измерение речи, позволяя словам в лексиконе различаться по силе активации, а также за счет конкуренции слов во время обработки. На рисунке 1 показан линейный график активации слов в простой симуляции TRACE.
Лексическое влияние на восприятие фонемы
Если произносится неоднозначный речевой звук, который находится точно между / t / и / d / , слушатель может иметь трудности с определением, что это такое. Но если тот же самый неоднозначный звук слышен в конце слова вроде woo /? / (Где? - неоднозначный звук), то слушающий с большей вероятностью будет воспринимать звук как a / d / . Вероятно, это происходит потому, что дерево - это слово, а шерсть - нет. Неоднозначная фонема, представленная в лексическом контексте, будет восприниматься как совместимая с окружающим лексическим контекстом. Этот эффект восприятия известен как эффект Ганонга. [7] TRACE надежно моделирует это и может объяснить это относительно просто. По сути, лексическая единица, которая стала активированной при вводе (например, дерево), передает активацию на уровень фонемы, усиливая активацию составляющих ее фонем (например, / d / ), тем самым разрешая неоднозначность.
Лексическая основа сегментации
Ораторы обычно не оставляют пауз между словами во время разговора [ необходима цитата ] , но слушателям, кажется, не составляет труда слышать речь как последовательность слов. Это известно как проблема сегментации и является одной из старейших проблем в психологии языка . TRACE предложила следующее решение, подкрепленное моделированием. Когда слова активируются и распознаются, это показывает расположение границ слова. Более сильная активация слова приводит к большей уверенности в границах слова, что информирует слушателя о том, где ожидать, что следующее слово должно начинаться. [1]
Процесс
Модель TRACE - это сеть коннекционистов с входным слоем и тремя слоями обработки: псевдоспектром (признак), фонемой и словом. На рисунке 2 показана схематическая диаграмма TRACE. Существует три типа связности: (1) возбуждающие связи с прямой связью от входа к функциям, функций к фонемам и фонем к словам; (2) боковые (т. Е. Внутри слоя) тормозящие связи на уровне признаков, фонем и слов; и (3) нисходящие возбуждающие связи с обратной связью от слов к фонемам. Вход в TRACE работает следующим образом. Пользователь предоставляет последовательность фонем, которая преобразуется в многомерный вектор признаков. Это приближение акустических спектров, растянутых во времени. Входной вектор раскрывается понемногу, чтобы моделировать временную природу речи. При представлении каждого нового блока ввода данные об активности передаются по сетевым соединениям, изменяя значения активации на уровнях обработки. Функции активируют единицы фонем, а фонемы активируют единицы слова. Параметры определяют силу возбуждающих и тормозных связей, а также многие другие детали обработки. Не существует специального механизма, который определяет, когда слово или фонема было распознано. Если моделирование сравнивается с данными о времени реакции из перцептивного эксперимента (например, лексическое решение), то обычно используется порог активации. Это позволяет интерпретировать поведение модели как распознавание, а время распознавания записывать как количество прошедших циклов обработки. Для более глубокого понимания динамики обработки TRACE читатели могут обратиться к оригинальной публикации [1] и к программному инструменту TRACE , который запускает моделирование с графическим пользовательским интерфейсом.
Критика
Модульность обсуждения разума
Актуальность TRACE для дебатов о модульности недавно была выдвинута на первый план в отчете Норриса, Катлера и Маккуина (2001) о модели восприятия речи Merge (?) . [8] Хотя он имеет ряд общих черт с TRACE, ключевое отличие состоит в следующем. В то время как TRACE позволяет словарным единицам возвращать активацию на уровень фонем, Merge ограничивает свою обработку соединениями с прямой связью. В рамках этой дискуссии считается, что TRACE нарушает принцип инкапсуляции информации, центральный для модульности, когда он позволяет более поздней стадии обработки (слова) отправлять информацию на более раннюю стадию (фонемы). Merge выступает за модульность, утверждая, что тот же класс явлений восприятия, который учитывается в TRACE, может быть объяснен в архитектуре коннекционизма, которая не включает обратные связи. Норрис и др. Отметьте, что когда две теории могут объяснить одно и то же явление, экономия подсказывает, что более простая теория предпочтительнее.
Приложения
Речевая и языковая терапия
Модели языковой обработки можно использовать для осмысления характера нарушений у людей с речевыми и языковыми расстройствами . Например, было высказано предположение, что языковой дефицит при экспрессивной афазии может быть вызван чрезмерной конкуренцией между лексическими единицами, что препятствует тому, чтобы любое слово стало в достаточной степени активным. [9] Аргументы в пользу этой гипотезы считают, что психическая дисфункция может быть объяснена незначительным нарушением обработки сетевой модели. Это новое направление исследований включает в себя широкий спектр теорий и моделей, и TRACE представляет собой лишь часть растущей головоломки.
Отличие от программного обеспечения для распознавания речи
Психолингвистические модели восприятия речи, например TRACE, следует отличать от компьютерных средств распознавания речи . Первые представляют собой психологические теории о том, как человеческий разум / мозг обрабатывает информацию. Последние представляют собой инженерные решения для преобразования акустического сигнала в текст. Исторически эти два поля почти не контактировали, но это начинает меняться. [10]
Влияние
Влияние TRACE на психологическую литературу можно оценить по количеству статей, в которых он цитируется. В базе данных PsycINFO 345 ссылок на McClelland and Elman (1986) . На рисунке 3 показано распределение этих цитирований по годам после публикации. Цифра свидетельствует о том, что интерес к TRACE значительно вырос в 2001 году и остается высоким - около 30 цитирований в год.
Смотрите также
- Моторная теория восприятия речи (конкурирующая теория)
- Когортная модель (теория соперничества)
Рекомендации
- ^ a b c d Макклелланд, JL, и Элман, JL (1986)
- ^ Макклелланд, Джеймс; Элман, Джеффри (январь 1986). «Модель восприятия речи TRACE». Когнитивная психология . 18 (1): 1–86. DOI : 10.1016 / 0010-0285 (86) 90015-0 . PMID 3753912 .
- ↑ McClelland, JL, DE Rumelhart и Исследовательская группа PDP (1986). Параллельная распределенная обработка: исследования микроструктуры познания. Том 2: Психологические и биологические модели, Кембридж, Массачусетс: MIT Press
- ^ Вебер, Андреа; Шеренборг, Одетта (01.05.2012). «Модели распознавания устного слова». Междисциплинарные обзоры Wiley: когнитивная наука . 3 (3): 387–401. DOI : 10.1002 / wcs.1178 . hdl : 11858 / 00-001M-0000-0012-29E4-5 . ISSN 1939-5086 . PMID 26301470 .
- ^ Marslen-Wilson, W .; Тайлер, LK (1980). «Временная структура понимания разговорной речи». Познание . 8 (1): 1–71. CiteSeerX 10.1.1.299.7676 . DOI : 10.1016 / 0010-0277 (80) 90015-3 . PMID 7363578 .
- ^ Люс, Пенсильвания; Писони, ДБ (1998). «Распознавание произнесенных слов: модель активации соседства» . Ухо и слух . 19 : 1–36. DOI : 10.1097 / 00003446-199802000-00001 . PMC 3467695 .
- ^ Ganong, WF (1980). Фонетическая категоризация слухового восприятия. Журнал экспериментальной психологии: человеческое восприятие и производительность, 6, 110–125.
- ^ Norris, D .; Маккуин, JM; Катлер, А. (2000). «Объединение информации при распознавании речи: обратная связь никогда не нужна». Поведенческие науки и науки о мозге . 23 : 299–370. DOI : 10.1017 / s0140525x00003241 . hdl : 11858 / 00-001M-0000-0013-3790-1 .
- ^ Самоорганизующаяся динамика лексического доступа у нормальных и афазиков. Макнеллис, Марк Дж .; Блюмштейн, Шейла Э .; Journal of Cognitive Neuroscience, Том 13 (2), февраль 2001 г., стр. 151-170.
- ^ Scharenborg, O .; Norris, D .; ten Bosch, L .; Маккуин, Дж. М. (2005). «Как должен работать распознаватель речи?». Когнитивная наука . 29 (6): 867–918. DOI : 10.1207 / s15516709cog0000_37 . hdl : 11858 / 00-001M-0000-0013-1E5D-C . PMID 21702797 .
Внешние ссылки
- jTRACE - повторная реализация модели TRACE на Java. Программное обеспечение с открытым исходным кодом, независимое от платформы. Страница также включает загрузку более ранней реализации TRACE на языке c.