Из Википедии, бесплатной энциклопедии
  (Перенаправлено из Trace (психолингвистика) )
Перейти к навигации Перейти к поиску

TRACE - это коннекционистская модель восприятия речи , предложенная Джеймсом Макклелландом и Джеффри Элманом в 1986 году. [1] Она основана на структуре, называемой «След», динамической структуре обработки, состоящей из сети единиц, которая действует как рабочая память системы, а также механизм обработки восприятия. [2] TRACE был преобразован в рабочую компьютерную программу для моделирования перцептивного моделирования. Эти симуляции представляют собой предсказания того, как человеческий мозг / мозг обрабатывает звуки речи и слова, когда они слышны в реальном времени.

Вдохновение [ править ]

TRACE был создан в период формирования коннекционизма и был включен в качестве главы в книгу «Параллельная распределенная обработка: исследования микроструктур познания» . [3]Исследователи обнаружили, что определенные проблемы, связанные с восприятием речи, можно концептуализировать в терминах модели интерактивной активации коннекционизма. Проблемы заключались в том, что (1) речь растягивается во времени, (2) звуки речи (фонемы) накладываются друг на друга, (3) на артикуляцию речевого звука влияют звуки, которые идут до и после него, и (4) естественная изменчивость речи (например, иностранный акцент), а также шум в окружающей среде (например, оживленный ресторан). Каждый из них приводит к тому, что речевой сигнал становится сложным и часто неоднозначным, из-за чего человеческому разуму / мозгу сложно решить, какие слова он действительно слышит. Проще говоря, интерактивная модель активации решает эту проблему, помещая различные типы блоков обработки (фонемы, слова) в изолированные слои,позволяя активированным единицам передавать информацию между уровнями, и иметь единицы внутри слоев конкурировать друг с другом, пока «победитель» не будет считаться «признанным» моделью.

Основные выводы [ править ]

«TRACE была первой моделью, которая продемонстрировала активацию нескольких слов-кандидатов, соответствующих любой части речевого ввода». [4] Моделирование восприятия речи включает в себя представление компьютерной программы TRACE с имитацией речевого ввода, запуск программы и генерирование результата. Успешное моделирование показывает, что результат существенно схож с тем, как люди обрабатывают речь.

Время распознавания слов [ править ]

В психолингвистике общепринято, что (1) когда слышится начало слова, в памяти активируется набор слов, имеющих один и тот же исходный звук, [5] (2) слова, которые активируются, конкурируют друг с другом, пока слышно все больше и больше слова, [6] (3) в какой-то момент, благодаря как слуховому входу, так и лексической конкуренции, распознается одно слово. [1]

Например, слушатель слышит начало лысого , и в памяти становятся активными слова лысый, мяч, плохой, законопроект. Затем, вскоре после этого, в соревновании остаются только лысина и мяч (плохо, счет был исключен, потому что гласный звук не соответствует входному). Вскоре признают лысину. TRACE моделирует этот процесс, представляя временное измерение речи, позволяя словам в лексиконе различаться по силе активации, и за счет конкуренции слов во время обработки. На рисунке 1 показан линейный график активации слов в простой симуляции TRACE.

Рисунок 1 - Простое моделирование TRACE. Активация слов и соревнование разворачиваются во времени. В этой симуляции слово «лысый» становится наиболее активным, поэтому оно считается распознаваемым.

Лексический эффект на восприятие фонем [ править ]

Если произносится неоднозначный речевой звук, который находится точно между / t / и / d / , слушатель может иметь трудности с определением, что это такое. Но если тот же самый неоднозначный звук слышен в конце слова вроде woo /? / (Где? - неоднозначный звук), то слушатель с большей вероятностью будет воспринимать звук как a / d / . Вероятно, это происходит потому, что дерево - это слово, а шерсть - нет. Неоднозначная фонема, представленная в лексическом контексте, будет восприниматься как совместимая с окружающим лексическим контекстом. Этот эффект восприятия известен как эффект Ганонга. [7]TRACE надежно моделирует это и может объяснить это относительно просто. По сути, лексическая единица, которая стала активированной при вводе (например, дерево), передает активацию обратно на уровень фонемы, усиливая активацию составляющих ее фонем (например, / d / ), тем самым разрешая неоднозначность.

Лексическая основа сегментации [ править ]

Ораторы обычно не оставляют пауз между словами во время разговора [ необходима цитата ] , но слушатели, похоже, без труда слышат речь как последовательность слов. Это известно как проблема сегментации и является одной из самых старых проблем в психологии языка . TRACE предложил следующее решение, подкрепленное моделированием. Когда слова активируются и распознаются, это показывает расположение границ слова. Более сильная активация слова приводит к большей уверенности в границах слова, что информирует слушателя о том, где ожидать, что следующее слово начнется. [1]

Как работает TRACE [ править ]

Модель TRACE - это сеть коннекционистов с входным слоем и тремя слоями обработки: псевдоспектром (признак), фонемой и словом. На рисунке 2 показана схематическая диаграмма TRACE. Существует три типа связности: (1) возбуждающие связи с прямой связью от входа к функциям, функций к фонемам и фонем к словам; (2) боковые (т. Е. Внутри слоя) тормозящие связи на слоях признаков, фонем и слов; и (3) возбуждающие связи с обратной связью сверху вниз от слов к фонемам. Вход в TRACE работает следующим образом. Пользователь предоставляет последовательность фонем, которая преобразуется в многомерный вектор признаков. Это приближение акустических спектров, расширенных во времени. Входной вектор раскрывается понемногу, чтобы моделировать временную природу речи. При представлении каждого нового фрагмента вводаэто отправляет активность по сетевым соединениям, изменяя значения активации на уровнях обработки. Функции активируют единицы фонем, а фонемы активируют единицы слова. Параметры определяют силу возбуждающих и тормозных связей, а также многие другие детали обработки. Не существует специального механизма, который определяет, когда слово или фонема было распознано. Если моделирование сравнивается с данными о времени реакции из перцептивного эксперимента (например, лексическое решение), то обычно используется порог активации. Это позволяет интерпретировать поведение модели как распознавание, а время распознавания записывать как количество прошедших циклов обработки. Для более глубокого понимания динамики обработки TRACE читателям рекомендуется обратиться к оригинальной публикации.изменение значений активации в слоях обработки. Функции активируют единицы фонем, а фонемы активируют единицы слова. Параметры определяют силу возбуждающих и тормозных связей, а также многие другие детали обработки. Не существует специального механизма, который определяет, когда слово или фонема было распознано. Если моделирование сравнивается с данными о времени реакции из перцептивного эксперимента (например, лексическое решение), то обычно используется порог активации. Это позволяет интерпретировать поведение модели как распознавание, а время распознавания записывать как количество прошедших циклов обработки. Для более глубокого понимания динамики обработки TRACE читателям рекомендуется обратиться к оригинальной публикации.изменение значений активации в слоях обработки. Функции активируют единицы фонем, а фонемы активируют единицы слова. Параметры определяют силу возбуждающих и тормозных связей, а также многие другие детали обработки. Не существует специального механизма, который определяет, когда слово или фонема было распознано. Если моделирование сравнивается с данными о времени реакции из перцептивного эксперимента (например, лексическое решение), то обычно используется порог активации. Это позволяет интерпретировать поведение модели как распознавание, а время распознавания записывать как количество прошедших циклов обработки. Для более глубокого понимания динамики обработки TRACE читателям рекомендуется обратиться к оригинальной публикации.а фонемы активируют словарные единицы. Параметры определяют силу возбуждающих и тормозных связей, а также многие другие детали обработки. Не существует специального механизма, который определяет, когда слово или фонема было распознано. Если моделирование сравнивается с данными о времени реакции из перцептивного эксперимента (например, лексическое решение), то обычно используется порог активации. Это позволяет интерпретировать поведение модели как распознавание, а время распознавания записывать как количество прошедших циклов обработки. Для более глубокого понимания динамики обработки TRACE читателям рекомендуется обратиться к оригинальной публикации.а фонемы активируют словарные единицы. Параметры определяют силу возбуждающих и тормозных связей, а также многие другие детали обработки. Не существует специального механизма, который определяет, когда слово или фонема было распознано. Если моделирование сравнивается с данными о времени реакции из перцептивного эксперимента (например, лексическое решение), то обычно используется порог активации. Это позволяет интерпретировать поведение модели как распознавание, а время распознавания записывать как количество прошедших циклов обработки. Для более глубокого понимания динамики обработки TRACE читателям рекомендуется обратиться к оригинальной публикации.Не существует специального механизма, который определяет, когда слово или фонема было распознано. Если моделирование сравнивается с данными о времени реакции из перцептивного эксперимента (например, лексическое решение), то обычно используется порог активации. Это позволяет интерпретировать поведение модели как распознавание, а время распознавания записывать как количество прошедших циклов обработки. Для более глубокого понимания динамики обработки TRACE читателям рекомендуется обратиться к оригинальной публикации.Не существует специального механизма, который определяет, когда слово или фонема было распознано. Если моделирование сравнивается с данными о времени реакции из перцептивного эксперимента (например, лексическое решение), то обычно используется порог активации. Это позволяет интерпретировать поведение модели как распознавание, а время распознавания записывать как количество прошедших циклов обработки. Для более глубокого понимания динамики обработки TRACE читателям рекомендуется обратиться к оригинальной публикации.и время распознавания, которое должно быть записано как количество прошедших циклов обработки. Для более глубокого понимания динамики обработки TRACE читателям рекомендуется обратиться к оригинальной публикации.и время распознавания, которое должно быть записано как количество прошедших циклов обработки. Для более глубокого понимания динамики обработки TRACE читателям рекомендуется обратиться к оригинальной публикации.[1] и программному инструменту TRACE , который запускает моделирование с помощью графического пользовательского интерфейса.

Рисунок 2 - Принципиальная схема архитектуры TRACE.

Критика [ править ]

Модульность обсуждения разума [ править ]

Актуальность TRACE для дебатов о модульности недавно была выдвинута на первый план в отчете Норриса, Катлера и Маккуина (2001) о модели восприятия речи Merge (?) . [8]Хотя он имеет ряд общих функций с TRACE, ключевое отличие заключается в следующем. В то время как TRACE позволяет словарным единицам возвращать активацию на уровень фонем, Merge ограничивает свою обработку соединениями с прямой связью. В рамках этой дискуссии считается, что TRACE нарушает принцип инкапсуляции информации, центральный для модульности, когда он позволяет более позднему этапу обработки (слова) отправлять информацию на более ранний этап (фонемы). Merge выступает за модульность, утверждая, что тот же класс перцептивных явлений, который учитывается в TRACE, можно объяснить в архитектуре коннекционизма, которая не включает обратные связи. Норрис и др. указывают на то, что когда две теории могут объяснить одно и то же явление, экономия диктует, что более простая теория предпочтительнее.

Приложения [ править ]

Речевая и языковая терапия [ править ]

Модели языковой обработки могут использоваться для концептуального осмысления природы нарушений у людей с речью и языковыми расстройствами . Например, было высказано предположение, что языковой дефицит при экспрессивной афазии может быть вызван чрезмерной конкуренцией между лексическими единицами, что препятствует тому, чтобы любое слово стало достаточно активным. [9] Аргументы в пользу этой гипотезы заключаются в том, что психическая дисфункция может быть объяснена незначительным нарушением обработки сетевой модели. Это новое направление исследований включает в себя широкий спектр теорий и моделей, и TRACE представляет собой лишь часть растущей головоломки.

Отличие от программного обеспечения для распознавания речи [ править ]

Психолингвистические модели восприятия речи, например TRACE, следует отличать от компьютерных средств распознавания речи . Первые представляют собой психологические теории о том, как человеческий разум / мозг обрабатывает информацию. Последние представляют собой инженерные решения для преобразования звукового сигнала в текст. Исторически эти два поля почти не контактировали, но это начинает меняться. [10]

Влияние [ править ]

Влияние TRACE на психологическую литературу можно оценить по количеству статей, в которых он цитируется. В базе данных PsycINFO 345 цитат из McClelland and Elman (1986) . На рисунке 3 показано распределение этих цитирований по годам после публикации. Цифра предполагает, что интерес к TRACE значительно вырос в 2001 году и остается высоким - около 30 цитирований в год.

Рисунок 3 - Годовая разбивка цитирований TRACE в исследовательской базе данных PsycINFO.

См. Также [ править ]

  • Моторная теория восприятия речи (теория соперничества)

Ссылки [ править ]

  1. ^ a b c d Макклелланд, JL, и Элман, JL (1986)
  2. ^ Макклелланд, Джеймс; Элман, Джеффри (январь 1986). «Модель восприятия речи TRACE». Когнитивная психология . 18 (1): 1–86. DOI : 10.1016 / 0010-0285 (86) 90015-0 . PMID  3753912 .
  3. Перейти ↑ McClelland, JL, DE Rumelhart and the PDP Research Group (1986). Параллельная распределенная обработка: исследования микроструктуры познания. Том 2: Психологические и биологические модели, Кембридж, Массачусетс: MIT Press
  4. ^ Вебер, Андреа; Шеренборг, Одетт (01.05.2012). «Модели распознавания устного слова». Междисциплинарные обзоры Wiley: когнитивная наука . 3 (3): 387–401. DOI : 10.1002 / wcs.1178 . hdl : 11858 / 00-001M-0000-0012-29E4-5 . ISSN 1939-5086 . PMID 26301470 .  
  5. ^ Марслен-Уилсон, В .; Тайлер, LK (1980). «Временная структура понимания разговорной речи». Познание . 8 (1): 1–71. CiteSeerX 10.1.1.299.7676 . DOI : 10.1016 / 0010-0277 (80) 90015-3 . PMID 7363578 .  
  6. ^ Люс, Пенсильвания; Писони, ДБ (1998). «Распознавание произнесенных слов: модель активации соседства» . Ухо и слух . 19 : 1–36. DOI : 10.1097 / 00003446-199802000-00001 . PMC 3467695 .  
  7. ^ Ganong, WF (1980). Фонетическая категоризация слухового восприятия. Журнал экспериментальной психологии: человеческое восприятие и производительность, 6, 110–125.
  8. ^ Норрис, Д .; Маккуин, JM; Катлер, А. (2000). «Объединение информации при распознавании речи: обратная связь никогда не нужна». Поведенческие науки и науки о мозге . 23 : 299–370. DOI : 10.1017 / s0140525x00003241 . hdl : 11858 / 00-001M-0000-0013-3790-1 .
  9. ^ Самоорганизующаяся динамика лексического доступа у нормальных и афазиков. Макнеллис, Марк Дж .; Blumstein, Sheila E .; Журнал когнитивной нейробиологии, том 13 (2), февраль 2001 г., стр. 151-170.
  10. ^ Scharenborg, O .; Norris, D .; ten Bosch, L .; Маккуин, Дж. М. (2005). «Как должен работать распознаватель речи?». Когнитивная наука . 29 (6): 867–918. DOI : 10.1207 / s15516709cog0000_37 . hdl : 11858 / 00-001M-0000-0013-1E5D-C . PMID 21702797 . 

Внешние ссылки [ править ]

  • jTRACE - повторная реализация модели TRACE на Java. Программное обеспечение с открытым исходным кодом, независимое от платформы. Страница также включает загрузку более ранней реализации TRACE на языке c.