Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Фредерик Елинек (18 ноября 1932 - 14 сентября 2010) был чешско-американским исследователем в области теории информации , автоматического распознавания речи и обработки естественного языка . Он хорошо известен своим часто цитируемым заявлением: «Каждый раз, когда я увольняю лингвиста, производительность распознавателя речи повышается». [примечание 1]

Елинек родился в Чехословакии перед Второй мировой войной и эмигрировал со своей семьей в Соединенные Штаты в первые годы коммунистического режима. Он изучал инженерное дело в Массачусетском технологическом институте и 10 лет преподавал в Корнельском университете, прежде чем устроился на работу в IBM Research . В 1961 году он женился на чешской сценаристе Милене Елинек . В IBM его команда продвинула подходы к компьютерному распознаванию речи и машинному переводу. После IBM он возглавил Центр обработки языка и речи в Университете Джонса Хопкинса. в течение 17 лет, где он все еще работал в день своей смерти.

Личная жизнь [ править ]

Елинек родился 18 ноября 1932 года, как Бедржих Елинек [6] в Кладно, в семье Вилема и Трюде Елинек. [7] Его отец был евреем; его мать родилась в Швейцарии в семье чешских католиков и обратилась в иудаизм. [8] [9] Елинек старший, дантист, планировал рано сбежать от нацистской оккупации и бежать в Англию; он договорился о паспорте, визе и доставке стоматологических материалов. Пара планировала отдать сына в английскую частную школу . Тем не менее, Вилем решил остаться в последнюю минуту , и в конце концов отправили в концлагерь Терезиенштадт , [10] , где он умер в 1945 году [7] [9]Семья была вынуждена переехать в Прагу в 1941 году, но Фредерик, его сестра и мать - благодаря прошлому - бежали из концентрационных лагерей. [9]

Принято считать, что научный талант проявляется в ранней юности. ... Это было не в моем случае. Я как-то соскользнул в свою научную профессию. Моя мама хотела, чтобы я стал врачом, как и мой отец. ... Я сам хотел быть адвокатом, защитником несправедливо обвиняемых. Но моя карьера - это результат политических обстоятельств, академических возможностей и счастливых случайностей.

- Рассказывая о своей жизни в речи 2001 года. [10]

После войны Елинек поступил в гимназию , несмотря на то, что пропустил несколько лет обучения, потому что образование еврейских детей было запрещено с 1942 года. Его мать, обеспокоенная тем, чтобы ее сын получил хорошее образование, приложила большие усилия для их эмиграции, [примечание 2], особенно когда стало ясно, что ему не позволят даже попытаться сдать выпускной экзамен. Его мать надеялась, что ее сын станет врачом, но Елинек мечтала стать юристом. Он изучал инженерное дело в вечерних классах Городского колледжа Нью-Йорка и получал стипендию от Национального комитета за свободную Европу, что позволило ему учиться в Массачусетском технологическом институте.. О выборе специальности он сказал: «К счастью, к электротехнике принадлежала дисциплина, целью которой не было построение физических систем: теория информации». [10] Он получил докторскую степень. в 1962 году с Робертом Фано в качестве его советника. [11] [12]

В 1957 году Елинек нанес неожиданный визит в Прагу. Он был в Вене и подал заявление на визу, надеясь снова увидеть своих бывших знакомых. Он встретился со своим старым другом Милошем Форманом , который познакомил его со студенткой кинематографа Миленой Тоболовой, по сценарию которой был снят фильм « Легкая жизнь» ( Snadný život ). [13] [14] Его рейс обратно в США сделал остановку в Мюнхене, во время которой он позвонил ей, чтобы сделать предложение. [9] Тоболова считалась диссиденткой, и власти были недовольны ее фильмом. [14] Елинек попросил помощи у Джерома Визнера и Сайруса Итона., последний лоббировал Никиту Хрущева . [13] После инаугурации Джона Ф. Кеннеди группе чешских диссидентов было разрешено эмигрировать в январе 1961 года. Благодаря лоббированию будущая Милена Елинек стала одной из них. [9] [13]

После завершения учебы в аспирантуре Елинек, проявивший интерес к лингвистике , планировал работать с Чарльзом Ф. Хокеттом в Корнельском университете . Однако они провалились, и в течение следующих десяти лет он продолжал изучать теорию информации. [10] Ранее он работал в IBM во время творческого отпуска, а в 1972 году начал работать полный рабочий день - сначала в отпуске в Корнелле, но на постоянной основе с 1974 года. Он оставался там более двадцати лет. Хотя сначала ему предложили постоянную исследовательскую работу, по прибытии он узнал, что Йозеф Равив недавно был назначен главой недавно открытой исследовательской лаборатории IBM в Хайфе., и стал руководителем группы распознавания непрерывной речи в Исследовательском центре Томаса Дж. Уотсона . [10] [12] Несмотря на успехи его команды в этой области, работа Елинека оставалась малоизвестной в его родной стране, поскольку чешским ученым не разрешалось участвовать в ключевых конференциях. [13]

После падения коммунизма в 1989 году Елинек помог установить научные отношения, регулярно посещая лекции и помогая убедить IBM создать вычислительный центр в Карловом университете . [8] [10] [15] В 1993 году он ушел из IBM и перешел в Центр языковой обработки и обработки речи Университета Джона Хопкинса , где он был директором и профессором электротехники и вычислительной техники Джулиана Синклера Смита. [11] [16] Он все еще работал там на момент своей смерти; Елинек умер от сердечного приступа в конце обычного рабочего дня в середине сентября 2010 года. [9] [16] У него остались жена, дочь и сын, сестра, сводная сестра и трое внуков, включая Софи Голд Елинек.

Исследования и наследие [ править ]

Теория информации была модным научным подходом в середине 50-х годов. [12] Однако пионер Клод Шеннон писал в 1956 году, что эта тенденция была опасна. Он сказал: «Наши коллеги-ученые во многих различных областях, привлеченные фанфарами и новыми возможностями, открытыми для научного анализа, используют эти идеи в своих собственных проблемах ... Нашему несколько искусственному процветанию будет слишком легко рухнуть. в мгновение ока, когда становится понятно, что использование нескольких захватывающих слов, таких как информация, энтропия, избыточность, не решает всех наших проблем ». [17] В течение следующего десятилетия сочетание факторов остановило применение теории информации к проблемам обработки естественного языка (НЛП), в частностимашинный перевод . Одним из факторов была публикация в 1957 году книги Ноама Хомского « Синтаксические структуры» , в которой говорилось, что «вероятностные модели не дают понимания основных проблем синтаксической структуры». [18] Это хорошо соответствовало философии исследований искусственного интеллекта того времени, которые продвигали подходы, основанные на правилах. Другим фактором был отчет ALPAC 1966 года , в котором правительству рекомендовалось прекратить финансирование исследований в области машинного перевода. Председатель ALPAC Джон Пирспозже сказал, что это поле было заполнено «сумасшедшими изобретателями или ненадежными инженерами». Он сказал, что основные лингвистические проблемы должны быть решены, прежде чем попытки НЛП станут разумными. Эти элементы фактически остановили исследования в этой области. [5] [19]

Елинек начал проявлять интерес к лингвистике после иммиграции своей жены, которая сначала поступила на лингвистическую программу Массачусетского технологического института с помощью Романа Якобсона . Елинек часто сопровождал ее на лекции Хомского и даже обсуждал возможность смены ориентации со своим наставником. Фано был «очень расстроен», и после провала его проекта с Хокеттом в Корнелле, он не возвращался к этой области исследований, пока не начал работать в IBM. [12] Объем исследований в IBM значительно отличался от такового в большинстве других команд. По словам Марка Либермана«В то время как [Елинек] возглавлял усилия IBM по решению общей проблемы диктовки в течение приблизительно десяти лет после 1972 года, большинство других американских компаний и академических исследователей работали над очень ограниченными проблемами ... или вообще оставались вне поля зрения». [19]

Он не был пионером распознавания речи, он был пионером распознавания речи.

—Стив Янг (2010) [5]

Елинек считал распознавание речи проблемой теории информации - зашумленным каналом , в данном случае акустическим сигналом, - что некоторые наблюдатели сочли смелым подходом. [5] [16] [19] Концепция недоумения была введена в их первой модели, [12] New Raleigh Grammar, которая была опубликована в 1976 году как статья «Распознавание непрерывной речи статистическими методами» в журнале Proceedings of the IEEE . [5] По словам Янга, основной подход с использованием шумных каналов «сводил проблему распознавания речи к одной из двух статистических моделей». [5] В то время как New Raleigh Grammar былаСкрытая марковская модель , их следующая модель, названная Tangora, была шире и включала n-граммы , в частности триграммы. Несмотря на то, что «всем было очевидно, что эта модель безнадежно обеднела», она не была улучшена до тех пор, пока Елинек не представил еще одну статью в 1999 году. [5] Тот же подход триграмм был применен к телефонам в отдельных словах. Хотя идентификация частей речи оказалась не очень полезной для распознавания речи, методы маркировки, разработанные в ходе этих проектов, теперь используются в различных приложениях НЛП. [12]

Методы инкрементальных исследований, разработанные в IBM, в конечном итоге стали доминирующими в этой области после того , как в середине 80-х DARPA вернулось к исследованиям НЛП и навязало эту методологию участвующим командам, разделив общие цели, данные и точные показатели оценки. [19] Исследование Continuous Speech Recognition Group, которое требовало больших объемов данных для обучения алгоритмов, в конечном итоге привело к созданию Консорциума лингвистических данных . В 1980-х годах, хотя более широкая проблема распознавания речи оставалась нерешенной, они пытались применить разработанные методы к другим проблемам; машинный перевод и прогнозирование стоимости акций рассматривались как варианты. Группа исследователей IBM продолжила работу наРенессансные технологии . Елинек писал: «О деятельности фонда Renaissance ходят легенды, но я понятия не имею, использовались ли когда-либо какие-либо методы, которые мы впервые применили в IBM. Мои бывшие коллеги не скажут мне: их действия очень секретны!» [12] Методы, очень похожие на методы, разработанные для распознавания речи, лежат в основе большинства используемых сегодня систем машинного перевода. Наблюдатели заявили, что парадигма Пирса, согласно которой инженерные достижения в этой области будут основываться на научном прогрессе, была перевернута, и достижения в области инженерии лежат в основе ряда научных открытий. [5] [19]

Работы Елинека неоднократно получали награды «лучшая бумага», а за время работы в IBM он получил несколько наград компании. [5] [11] Он получил награду Общества за «выдающийся технический вклад и лидерство» от Общества обработки сигналов IEEE за 1997 год [20] и медаль ESCA за научные достижения в 1999 году. [21] Он был лауреатом награды. IEEE третьей медаль тысячелетия в 2000 году, Европейская ассоциация лингвистических ресурсов «s первых Антонио Замполл премии в 2004 году, [22] в 2005 год Джеймс Л. Фланаган речь и премия обработки аудио , [23]и награда за выслугу 2009 г. от Ассоциации компьютерной лингвистики . [11] [12] Он получил почетную степень доктора философии. из Карлова университета в 2001 г. [24] был избран членом Национальной инженерной академии в 2006 г. и стал одним из двенадцати первых стипендиатов Международной ассоциации речевой коммуникации в 2008 г. [5]

Избранные публикации [ править ]

  • Елинек, Фредерик (1968). Вероятностная теория информации: дискретные модели и модели без памяти . Серия Макгроу-Хилла по системной науке. Нью-Йорк: Макгроу-Хилл. 689п. LCCN  68-11611 [1] (обзор)
  • ———————- (1969). «Алгоритм быстрого последовательного декодирования с использованием стека». Журнал исследований и разработок IBM 13 (6): 675–685. DOI : 10.1147 / rd.136.0675 .
  • ———————- (1969). «Древовидное кодирование дискретных по времени источников без памяти с критерием верности». IEEE Transactions по теории информации 15 (5): 584–590. DOI : 10.1109 / TIT.1969.1054355 . (получил премию 1971 г. за лучшую работу)
  • Bahl, Lalit R .; Джон Кок , Фредерик Елинек, Йозеф Равив (1974). «Оптимальное декодирование линейных кодов для минимизации ошибок символа». IEEE Transactions по теории информации 20 (2): 284–287. DOI : 10.1109 / TIT.1974.1055186 . (получил бумажную премию Общества теории информации "Золотой юбилей")
  • ———————- (1976). «Распознавание слитной речи статистическими методами». Труды IEEE 64 (4): 532–556. DOI : 10,1109 / PROC.1976.10159 .
  • Brown, P .; Дж. Кок, С. Делла Пьетра, В. Делла Пьетра, Ф. Елинек, Р., Мерсер и П. Руссен (1988). «Статистический подход к языковому переводу» . В Денес Варга, изд. Coling 88: Материалы 12-й конференции по компьютерной лингвистике, том 1 . Будапешт: Общество компьютерных наук Джона фон Неймана. С. 71–76. DOI : 10.3115 / 991635.991651 . ISBN  963-8431-56-3 .
  • ———————- (1990). «Самоорганизованное моделирование языка для распознавания речи». В Алексе Вайбеле и Кай-Фу Ли, ред. Чтения при распознавании речи . Сан-Матео: Морган Кауфманн. 629p. ISBN 1-55860-124-4 . 
  • ———————-; Джон Д. Лафферти и Роберт Л. Мерсер. (1990) "Основные методы вероятностных контекстно-свободных грамматик". Технический отчет RC 16374 (72684), IBM.
    • Перепечатано в Лафасе, Пьетро; Ренато Де Мори (1992). Распознавание и понимание речи: последние достижения, тенденции и приложения . Серия НАТО ASI. Серия F, Компьютерные и системные науки, 75 . Нью-Йорк: Springer-Verlag. С. 345–360. ISBN 0-387-54032-6 . 
  • ———————- (1997). Статистические методы распознавания речи . Кембридж, Массачусетс: MIT Press. 283стр. ISBN 0-262-10066-5 . (обзор) (обзор 2) 
  • Челба, Киприан; Фредерик Елинек (2000). «Структурированное языковое моделирование». Компьютерная речь и язык 14 (4): 283–332. doi : 10.1006 / csla.2000.0147 (получил награду «Лучшая статья 2002»).
    • Расширенная версия презентации на NLDB'99. Клагенфурт, Австрия, 17–19 июня 1999 г. ( arXiv : cs / 0001023 ).
  • Сюй, Пэн; Ахмад Эмами и Фредерик Елинек (2003). « Обучение коннекционистских моделей для структурированной языковой модели ». В Майкл Коллинз и Марк Стидман, ред. EMNLP '03 Труды конференции 2003 г. по эмпирическим методам обработки естественного языка . Ист-Страудсбург, Пенсильвания: Ассоциация компьютерной лингвистики. С. 160–167. ISBN 1-932432-13-2 . DOI : 10.3115 / 1119355.1119376 . (выиграл премию "Лучшая статья") 

Ссылки [ править ]

Заметки
  1. ^ Хотя его слава и культовый статус неоспоримы (например, он был использован в качестве названия речи Юлии Хиршберг в 1998 году) [1], его контекст неизвестен, а его конкретная формулировка и датировка неясны. По словам Дэниела Джурафски и Джеймса Х. Мартина, сам Елинек вспомнил эту цитату, как «Каждый раз, когда лингвист покидает группу, уровень узнаваемости повышается» и датировал ее декабрем 1988 года (Уэйн, Пенсильвания), отметив, что цитата в опубликованный протокол [2] [3], в то время как Роджер К. Мур дал формулировку «Каждый раз, когда мы увольняем фонетика / лингвиста, производительность нашей системы повышается» и датировал его проведенным семинаром IEEE по автоматическому распознаванию и пониманию речи в 1985 г.[4] По словам Стива Янга, «история гласит, что однажды один из его лингвистов ушел в отставку, и Фред решил заменить его не другим лингвистом, а инженером. Немного позже Фред заметил, что производительность его системы улучшилась. Значительно. Поэтому он призвал другого лингвиста найти альтернативную работу, и, конечно же, производительность снова улучшилась ". [5]
  2. Как он выразился, «она не хотела повторять большую ошибку моего отца».
Рекомендации
  1. Хиршберг, Юлия (29 июля 1998 г.).«Каждый раз, когда я увольняю лингвиста, моя успеваемость повышается» и другие мифы о революции в области статистической обработки естественного языка (Речь). 15-я Национальная конференция по искусственному интеллекту, Мэдисон, Висконсин.CS1 maint: location ( ссылка ) Приглашенное выступление.
  2. ^ Джурафски, Даниэль; Джеймс Х. Мартин (2009). Обработка речи и языка: введение в обработку естественного языка, вычислительную лингвистику и распознавание речи . Серия Prentice Hall по искусственному интеллекту (2-е изд.). Верхнее седло, Нью-Джерси: Прентис-Холл. п. 83 . ISBN 978-0-13-187321-6.
  3. ^ Палмер, Марта; Тим Финин (1990). «Отчет о семинаре по оценке систем обработки естественного языка» (PDF) . Компьютерная лингвистика . 16 (1): 171–185.
  4. ^ Мур, Роджер К. (2005). Результаты опроса участников ASRU 1997 и 2003 гг. (PDF) . ИНТЕРСПИЧ-2005. Лиссабон, 4–8 сентября 2005 г. Архивировано 20 июля 2011 г. из оригинала (PDF) . CS1 maint: не рекомендуется параметр ( ссылка ) CS1 maint: location ( ссылка )
  5. ^ a b c d e f g h i j Янг, Стив (ноябрь 2010 г.). "Фредерик Елинек 1932–2010: Пионер технологии распознавания речи" . Информационный бюллетень Технического комитета по обработке речи и языка . Общество обработки сигналов IEEE . Архивировано из оригинального 28 июля 2011 года . Проверено 16 декабря 2010 года . CS1 maint: обескураженный параметр ( ссылка ) Взято из речи, произнесенной в 2006 году.
  6. ^ Rejžek Ян (17 сентября 2010). «Некролог» . Lidové noviny . Проверено 17 декабря 2010 года . CS1 maint: обескураженный параметр ( ссылка )
  7. ^ a b Елинек, Фредерик (1997). Статистические методы распознавания речи . Кембридж, Массачусетс: MIT Press. п. v. ISBN 0-262-10066-5.
  8. ↑ a b Hajic, январь (ноябрь 2010 г.). «Проф. Фредерик Елинек, 1932–2010» . Информационный бюллетень EACL . 12 . Проверено 19 декабря 2010 года . CS1 maint: обескураженный параметр ( ссылка )
  9. ^ Б с д е е Лора, Стив (24 сентября 2010). «Фредерик Елинек, давший машинам ключ к человеческой речи, умер в возрасте 77 лет» . Нью-Йорк Таймс . п. B10 . Проверено 16 декабря 2010 года . CS1 maint: обескураженный параметр ( ссылка )
  10. ^ a b c d e f Елинек, Фредерик (22 ноября 2001 г.). Как я сюда попал (выступление). Карлов университет, Прага, Чехословакия. Архивировано из оригинала на 16 марта 2008 года . Проверено 17 декабря 2010 года . CS1 maint: обескураженный параметр ( ссылка ) Речь для принятия степени Honoris causa.
  11. ^ a b c d Ян, Елинек (13 июня 2006 г.). "Биографическая справка" . Архивировано из оригинала на 3 сентября 2006 года . Проверено 17 декабря 2010 года . CS1 maint: обескураженный параметр ( ссылка )
  12. ^ a b c d e f g h Елинек, Фред (декабрь 2009 г.). «Рассвет статистической ASR и MT». Компьютерная лингвистика . 35 (4): 483–494. DOI : 10,1162 / coli.2009.35.4.35401 . S2CID 1486422 . 
  13. ^ a b c d Хершенсон, Роберта (31 декабря 1989 г.). «Чешская пара не спускает глаз с Родины» . Нью-Йорк Таймс . Проверено 17 декабря 2010 года . CS1 maint: обескураженный параметр ( ссылка )
  14. ^ a b Уиллоуби, Ян (9 июня 2008 г.). «Милена Елинек - представитель золотого поколения чешских режиссеров, сейчас преподающая сценарии в Колумбийском университете» . Один на один . Радио Прага . Проверено 1 февраля 2014 года . CS1 maint: обескураженный параметр ( ссылка )
  15. Комод, Майкл (19 сентября 2010 г.). «Умер Фредерик Елинек, пионер распознавания речи» . Балтимор Сан . Проверено 16 декабря 2010 года . CS1 maint: обескураженный параметр ( ссылка )
  16. ^ a b c Снейдерман, Фил (20 сентября 2010 г.). «Фредерик Елинек, 77 лет, пионер в технологии распознавания речи и текста» . The JHU Gazette . Университет Джона Хопкинса . Проверено 16 декабря 2010 года . CS1 maint: обескураженный параметр ( ссылка )
  17. Цитируется у Либермана (2010).
  18. Цитируется у Янга (2010).
  19. ^ a b c d e Либерман, Марк (декабрь 2010 г.). «Некролог: Фред Елинек» . Компьютерная лингвистика . 36 (4): 595–599. DOI : 10,1162 / coli_a_00032 . CS1 maint: обескураженный параметр ( ссылка )
  20. ^ "Премия Общества" . Общество обработки сигналов IEEE . Проверено 21 декабря 2010 года . CS1 maint: обескураженный параметр ( ссылка )
  21. ^ "Медаль ESCA 1999 за научные достижения" . Международная ассоциация речевой коммуникации. 1999. Архивировано из оригинала 2 августа 2009 года . Проверено 21 декабря 2010 года . CS1 maint: обескураженный параметр ( ссылка )
  22. ^ "В честь профессора Антонио Замполли" . Европейская ассоциация языковых ресурсов. Архивировано из оригинального 21 июля 2011 года . Проверено 21 декабря 2010 года . CS1 maint: обескураженный параметр ( ссылка )
  23. ^ "Получатели премии IEEE Джеймса Л. Фланагана за речь и обработку звука" . IEEE . Проверено 21 декабря 2010 года . CS1 maint: обескураженный параметр ( ссылка )
  24. ^ "Доктор hc prof. F. Jelinek" (пресс-релиз). Карлов университет в Праге. 22 ноября 2001 . Проверено 17 декабря 2010 года . CS1 maint: обескураженный параметр ( ссылка )

Внешние ссылки [ править ]

  • Институциональная страница в университете Джона Хопкинса