Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Вычислительная лингвистика - это междисциплинарная область, связанная с компьютерным моделированием естественного языка , а также изучением соответствующих вычислительных подходов к лингвистическим вопросам. В целом компьютерная лингвистика опирается на лингвистику , информатику , искусственный интеллект , математику , логику , философию , когнитивную науку , когнитивную психологию , психолингвистику , антропологию и нейробиологию и другие.

Подполя и связанные области [ править ]

Традиционно компьютерная лингвистика возникла как область искусственного интеллекта, выполняемая учеными-компьютерщиками , которые специализировались на применении компьютеров для обработки естественного языка . С образованием Ассоциации компьютерной лингвистики (ACL) [1] и учреждением серии независимых конференций, эта область консолидировалась в течение 1970-х и 1980-х годов.

Ассоциация компьютерной лингвистики определяет компьютерную лингвистику как:

... научное изучение языка с вычислительной точки зрения. Компьютерные лингвисты заинтересованы в предоставлении компьютерных моделей различных лингвистических явлений. [2]

Термин «компьютерная лингвистика» в настоящее время (2020 г.) считается почти синонимом технологии обработки естественного языка (НЛП) и (человеческого) языка . В этих терминах больше внимания уделяется аспектам практического применения, чем теоретическим исследованиям, начиная с 2000-х годов. На практике они в значительной степени заменили термин «компьютерная лингвистика» в сообществе NLP / ACL [3], хотя они конкретно относятся только к подполе прикладной компьютерной лингвистики.

Компьютерная лингвистика имеет как теоретические, так и прикладные компоненты. Теоретическая компьютерная лингвистика занимается вопросами теоретической лингвистики и когнитивной науки. [4] Прикладная компьютерная лингвистика фокусируется на практических результатах моделирования использования человеческого языка. [4]

Теоретическая компьютерная лингвистика включает разработку формальных теорий грамматики ( синтаксического анализа ) и семантики, часто основанных на формальной логике и символических ( основанных на знаниях ) подходах. Области исследований, изучаемые теоретической компьютерной лингвистикой, включают:

  • Вычислительная сложность естественного языка, в значительной степени смоделированная на основе теории автоматов , с применением контекстно-зависимой грамматики и линейно ограниченных машин Тьюринга .
  • Вычислительная семантика включает определение подходящей логики для представления лингвистического значения , автоматическое их построение и рассуждение с ними.

В прикладной компьютерной лингвистике преобладает машинное обучение , традиционно использующее статистические методы , с середины 2010-х годов - нейронные сети : Socher et al. (2012) [5] был ранним учебником по глубокому обучению на ACL 2012 и встретил как интерес, так и (в то время) скептицизм большинства участников. До этого нейронное обучение в основном отвергалось из-за отсутствия статистической интерпретируемости. До 2015 года глубокое обучение превратилось в основную основу НЛП. О задачах, решаемых прикладной компьютерной лингвистикой, читайте в статье Обработка естественного языка . Сюда входят классические проблемы, такие как проектированиеPOS-тегеры (тегеры части речи) , синтаксические анализаторы для естественных языков или такие задачи, как машинный перевод (MT), подраздел компьютерной лингвистики, занимающийся компьютерным переводом между языками. Как одно из самых ранних и сложных приложений компьютерной лингвистики, машинное обучение опирается на множество подполей, как теоретических, так и прикладных аспектов. Традиционно автоматический языковой перевод считался печально известным разделом компьютерной лингвистики. [6]

Помимо дихотомии между теоретической и прикладной компьютерной лингвистикой, существуют другие подразделения вычислительной техники на основные области в соответствии с различными критериями, в том числе:

  • среда языка обрабатываемый, будь то говорил или текстуальное: распознавание речи и синтез речи дело с тем, как разговорный язык можно понимать или созданные с помощью компьютеров.
  • выполняемая задача , например, анализирует ли язык (распознавание) или синтезирует язык (генерация) : синтаксический анализ и генерация являются подразделами компьютерной лингвистики, занимающимися соответственно разделением языка и его объединением.

Традиционно применение компьютеров для решения исследовательских задач в других отраслях лингвистики описывалось как задачи компьютерной лингвистики. Среди прочего, это включает

  • Компьютерная корпусная лингвистика , которая используется с 1970-х годов как способ детального прогресса в области анализа дискурса [7]
  • Моделирование и изучение языковой эволюции в исторической лингвистике / глоттохронологии . [8]

Истоки [ править ]

Вычислительную лингвистику часто относят к области искусственного интеллекта, но она присутствовала до появления искусственного интеллекта. Вычислительная лингвистика зародилась в 1950-х годах, когда в Соединенных Штатах Америки были предприняты попытки использовать компьютеры для автоматического перевода текстов с иностранных языков, особенно из российских научных журналов, на английский. [9] Поскольку компьютеры могут производить арифметические (систематические) вычисления намного быстрее и точнее, чем люди, считалось, что это лишь короткий вопрос времени, прежде чем они смогут начать обрабатывать язык. [10]Вычислительные и количественные методы также исторически используются при попытках реконструкции более ранних форм современных языков и подгруппы современных языков в языковые семьи. Было доказано, что более ранние методы, такие как лексикостатистика и глоттохронология , являются преждевременными и неточными. Однако недавние междисциплинарные исследования, в которых заимствованы концепции из биологических исследований, особенно картирования генов , показали, что они дают более сложные аналитические инструменты и более надежные результаты. [11]

Когда машинный перевод (также известный как механический перевод) не сразу давал точные переводы, автоматическая обработка человеческих языков была признана гораздо более сложной, чем предполагалось изначально. Вычислительная лингвистика родилась как название новой области исследований, посвященной разработке алгоритмов и программного обеспечения для интеллектуальной обработки языковых данных. Сам термин «компьютерная лингвистика» впервые был введен Дэвидом Хейсом , одним из основателей Ассоциации компьютерной лингвистики (ACL) и Международного комитета компьютерной лингвистики (ICCL). [12]

Было замечено, что для перевода одного языка на другой необходимо понимать грамматику обоих языков, включая как морфологию (грамматику словоформ), так и синтаксис (грамматику структуры предложения). Чтобы понять синтаксис, нужно было также понимать семантику и лексикон (или «словарь») и даже кое-что из прагматики использования языка. Таким образом, то, что начиналось как попытка перевода между языками, превратилось в целую дисциплину, посвященную пониманию того, как представлять и обрабатывать естественные языки с помощью компьютеров. [13]

В настоящее время исследования в области компьютерной лингвистики проводятся на факультетах компьютерной лингвистики, [14] лабораториях компьютерной лингвистики, [15] факультетах компьютерных наук [16] и факультетах лингвистики. [17] [18] Некоторые исследования в области компьютерной лингвистики направлены на создание рабочих систем обработки речи или текста, в то время как другие нацелены на создание системы, обеспечивающей взаимодействие человека и машины. Программы, предназначенные для взаимодействия человека с машиной, называются диалоговыми агентами . [19]

Подходы [ править ]

Подобно тому, как компьютерная лингвистика может выполняться экспертами в самых разных областях и через широкий спектр отделов, также области исследований могут охватывать широкий круг тем. В следующих разделах обсуждается некоторая литература, доступная во всей области, разбитая на четыре основные области дискурса: лингвистика развития, структурная лингвистика, лингвистическое производство и лингвистическое понимание.

Подходы к развитию [ править ]

Язык - это познавательный навык, который развивается на протяжении всей жизни человека. Этот процесс развития был исследован с использованием нескольких методов, и вычислительный подход является одним из них. Развитие человеческого языка действительно имеет некоторые ограничения, которые затрудняют применение вычислительного метода для его понимания. Например, во время овладения языком человеческие дети в основном получают только положительные доказательства. [20] Это означает, что во время языкового развития человека предоставляется единственное доказательство того, что является правильной формой, и никаких доказательств того, что является неправильным. Этой информации недостаточно для простой процедуры проверки гипотез для такой сложной информации, как язык [21].и тем самым устанавливает определенные границы для вычислительного подхода к моделированию развития и усвоения языка индивидом.

Были предприняты попытки смоделировать процесс развития усвоения языка у детей с вычислительной точки зрения, что привело как к статистическим грамматикам, так и к моделям коннекционизма . [22] Работа в этой сфере также была предложена как метод объяснения эволюции языка на протяжении истории. Используя модели, было показано, что языки можно изучать с помощью комбинации простых входных данных, которые вводятся постепенно, по мере того, как ребенок развивает лучшую память и большую продолжительность внимания. [23] Это одновременно было выдвинуто как причина длительного периода развития человеческих детей. [23] Оба вывода были сделаны из-за силы искусственной нейронной сети. которую создал проект.

Способность младенцев развивать язык также была смоделирована с помощью роботов [24] для проверки лингвистических теорий. Модель, позволяющая учиться наравне с детьми, была создана на основе модели аффорданса, в которой были созданы сопоставления между действиями, восприятием и эффектами и связаны с произнесенными словами. Важно отметить, что эти роботы смогли получить действующие преобразования слова в значение, не нуждаясь в грамматической структуре, что значительно упростило процесс обучения и пролило свет на информацию, которая способствует нынешнему пониманию языкового развития. Важно отметить, что эту информацию можно было проверить только эмпирически с использованием вычислительного подхода.

Поскольку наше понимание языкового развития человека в течение жизни постоянно улучшается с использованием нейронных сетей и обучающих роботизированных систем , также важно помнить, что сами языки меняются и развиваются с течением времени. Вычислительные подходы к пониманию этого явления обнаружили очень интересную информацию. Используя уравнение Прайса и динамику урны Полиа , исследователи создали систему, которая не только предсказывает будущую лингвистическую эволюцию, но и дает представление об эволюционной истории современных языков. [25] С помощью компьютерной лингвистики удалось добиться этого моделирования, чего в противном случае было бы невозможно.

Ясно, что понимание лингвистического развития у людей, а также на протяжении всего эволюционного периода было фантастически улучшено благодаря достижениям компьютерной лингвистики. Способность моделировать и модифицировать системы по своему желанию дает науке этический метод проверки гипотез, которые в противном случае были бы трудноразрешимыми.

Структурные подходы [ править ]

Для создания более совершенных вычислительных моделей языка решающее значение имеет понимание структуры языка. С этой целью английский язык был тщательно изучен с использованием вычислительных подходов, чтобы лучше понять, как язык работает на структурном уровне. Одним из наиболее важных аспектов изучения лингвистической структуры является наличие больших лингвистических корпусов или образцов. Это предоставляет компьютерным лингвистам необработанные данные, необходимые для запуска их моделей и лучшего понимания базовых структур, присутствующих в огромном количестве данных, содержащихся на любом отдельном языке. Один из самых цитируемых английских лингвистических корпусов - Penn Treebank . [26]Этот корпус, составленный из самых разных источников, таких как компьютерные руководства IBM и расшифровки телефонных разговоров, содержит более 4,5 миллионов слов американского английского. Этот корпус был в основном аннотирован с использованием тегов частей речи и синтаксических скобок и дал существенные эмпирические наблюдения, связанные со структурой языка. [27]

Также были разработаны теоретические подходы к структуре языков. Эти работы позволяют компьютерной лингвистике иметь основу для разработки гипотез, которые будут способствовать пониманию языка множеством способов. Один из оригинальных теоретических тезисов об интернализации грамматики и структуры языка предлагал модели двух типов. [21] В этих моделях усвоенные правила или паттерны усиливаются с частотой их встреч. [21] Работа также поставила вопрос перед компьютерными лингвистами, на который они должны были ответить: как младенец выучивает специфическую и ненормальную грамматику ( нормальная форма Хомского ), не изучая чрезмерно обобщенную версию и не застревая? [21]Подобные теоретические усилия задают направление исследованиям на ранних этапах существования области исследования и имеют решающее значение для развития этой области.

Структурная информация о языках позволяет обнаруживать и реализовывать распознавание сходства между парами текстовых высказываний. [28] Например, недавно было доказано, что на основе структурной информации, присутствующей в паттернах человеческого дискурса, графики концептуальной повторяемости могут использоваться для моделирования и визуализации тенденций в данных и создания надежных мер сходства между естественными текстовыми высказываниями. [28] Этот метод является мощным инструментом для дальнейшего исследования структуры человеческого дискурса . Без вычислительного подхода к этому вопросу чрезвычайно сложная информация, содержащаяся в данных дискурса, осталась бы недоступной для ученых.

Информация о структурных данных языка доступна как для английского, так и для других языков, например, для японского . [29] С помощью вычислительных методов были проанализированы японские корпуса предложений, и была обнаружена закономерность логарифмической нормальности в зависимости от длины предложения. [29]Хотя точная причина этой логнормальности остается неизвестной, именно такую ​​информацию компьютерная лингвистика призвана выявить. Эта информация может привести к дальнейшим важным открытиям, касающимся основной структуры японского языка, и может иметь любое количество эффектов на понимание японского языка как языка. Вычислительная лингвистика позволяет очень быстро пополнять базу научных знаний, не оставляя места для сомнений.

Без вычислительного подхода к структуре лингвистических данных большая часть информации, доступной сейчас, все равно была бы скрыта под огромным объемом данных на любом отдельном языке. Вычислительная лингвистика позволяет ученым надежно и эффективно анализировать огромные объемы данных, создавая возможность для открытий, которых нет в большинстве других подходов.

Производственные подходы [ править ]

Производство языка является столь же сложным в предоставляемой информации и необходимых навыках , которые свободно говорят производитель должен иметь. То есть понимание - это только половина проблемы общения. Другая половина - это то, как система производит язык, и компьютерная лингвистика сделала интересные открытия в этой области.

Алан Тьюринг: компьютерный ученый и одноименный разработчик теста Тьюринга как метода измерения интеллекта машины.

В известной теперь статье, опубликованной в 1950 году, Алан Тьюринг предположил возможность того, что однажды машины смогут «думать». В качестве мысленного эксперимента для того, что могло бы определить концепцию мышления в машинах, он предложил «имитационный тест», в котором человеческий субъект ведет два текстовых разговора, один с другим человеком, а другой с машиной, пытающейся реагировать как человек. . Тьюринг предполагает, что, если субъект не может отличить человека от машины, можно сделать вывод, что машина способна мыслить. [30] Сегодня этот тест известен как тест Тьюринга и остается важной идеей в области искусственного интеллекта.

Джозеф Вайценбаум : бывший профессор Массачусетского технологического института и ученый-компьютерщик, разработавший ELIZA , примитивную компьютерную программу, использующую обработку естественного языка .

Одним из самых ранних и наиболее известных примеров компьютерной программы, предназначенной для естественного общения с людьми, является программа ELIZA, разработанная Джозефом Вайценбаумом из Массачусетского технологического института в 1966 году. Программа подражала психотерапевту Роджера. при ответе на письменные заявления и вопросы пользователя. Казалось, что он способен понимать, что ему говорят, и разумно реагировать, но на самом деле он просто следовал процедуре сопоставления с образцом, которая полагалась только на понимание нескольких ключевых слов в каждом предложении. Его ответы были получены путем объединения неизвестных частей предложения вокруг правильно переведенных версий известных слов. Например, во фразе «Кажется, ты меня ненавидишь» ELIZA понимает «ты» и «меня», что соответствует общему шаблону «ты [несколько слов] меня», позволяя ELIZA обновлять слова «ты» и «я». на «Я» и «ты» и отвечая: «Почему ты думаешь, что я тебя ненавижу?». В этом примере ELIZA не понимает слова «ненависть»,но это не требуется для логической реакции в контексте этого типа психотерапии.[31]

Некоторые проекты все еще пытаются решить проблему, из-за которой компьютерная лингвистика была изначально сферой деятельности. Однако методы стали более совершенными, и, следовательно, результаты, полученные компьютерными лингвистами, стали более информативными. Чтобы улучшить компьютерный перевод , было проведено сравнение нескольких моделей, в том числе скрытых марковских моделей , методов сглаживания и конкретных усовершенствований тех, которые применяются к переводу глаголов. [32] Модель, которая, как было установлено, обеспечивает наиболее естественные переводы немецкого и французского языков.Words представлял собой усовершенствованную модель согласования с зависимостью первого порядка и модель фертильности. Они также предоставляют эффективные алгоритмы обучения для представленных моделей, которые могут дать другим ученым возможность улучшить свои результаты. Этот тип работы специфичен для компьютерной лингвистики и имеет приложения, которые могут значительно улучшить понимание того, как язык создается и воспринимается компьютерами.

Также была проделана работа по созданию компьютеров более естественным образом. Используя лингвистический ввод от людей, были созданы алгоритмы, которые могут изменять стиль производства системы на основе такого фактора, как лингвистический ввод от человека, или более абстрактных факторов, таких как вежливость или любое из пяти основных измерений личности . [33] В этой работе используется вычислительный подход с использованием моделей оценки параметров, чтобы классифицировать широкий спектр языковых стилей, которые мы видим у людей, и упростить его для компьютера, чтобы он работал таким же образом, что делает взаимодействие человека с компьютером более естественным.

Текстовый интерактивный подход [ править ]

Многие из самых ранних и простых моделей взаимодействия человека с компьютером, такие как, например, ELIZA, предполагают ввод текста от пользователя для генерации ответа от компьютера. С помощью этого метода слова, вводимые пользователем, заставляют компьютер распознавать определенные шаблоны и отвечать соответствующим образом посредством процесса, известного как определение ключевых слов .

Речевой интерактивный подход [ править ]

В последних технологиях больше внимания уделяется речевым интерактивным системам. Эти системы, такие как Siri в операционной системе iOS , работают по той же методике распознавания образов, что и текстовые системы, но в первой из них пользовательский ввод осуществляется посредством распознавания речи . Эта ветвь лингвистики включает в себя обработку речи пользователя в виде звуковых волн и интерпретацию акустических и языковых паттернов, чтобы компьютер распознал ввод. [34]

Понимание подходов [ править ]

Большая часть внимания современной компьютерной лингвистики уделяется пониманию. С распространением Интернета и обилием легкодоступного письменного человеческого языка способность создавать программы, способные понимать человеческий язык, будет иметь множество широких и захватывающих возможностей, включая улучшенные поисковые системы, автоматическое обслуживание клиентов и онлайн-образование.

Ранняя работа по пониманию включала применение байесовской статистики к задаче оптического распознавания символов, как это проиллюстрировали Бледсо и Брауинг в 1959 году, в которых большой словарь возможных букв был создан путем «обучения» на примерах букв и затем на вероятности того, что любой из них выученные примеры соответствовали новым входным данным, которые были объединены для принятия окончательного решения. [35] Другие попытки применить байесовскую статистику к языковому анализу включали работу Мостеллера и Уоллеса (1963), в которой анализ слов, используемых в «Записках федералиста», использовался для попытки определить их авторство (заключая, что Мэдисон, скорее всего, является автором большинство статей). [36]

В 1971 году Терри Виноград разработал ранний механизм обработки естественного языка, способный интерпретировать естественно написанные команды в простой среде, управляемой правилами. Программа синтаксического анализа основного языка в этом проекте называлась SHRDLU , которая могла вести отчасти естественный диалог с пользователем, давая ему команды, но только в рамках игрушечной среды, разработанной для этой задачи. Эта среда состояла из блоков разной формы и цвета, и SHRDLU был способен интерпретировать такие команды, как «Найдите блок, который выше, чем тот, который вы держите, и поместите его в коробку». и задавать вопросы типа «Я не понимаю, о какой пирамиде вы имеете в виду» в ответ на ввод пользователя. [37]Несмотря на то, что такая обработка естественного языка впечатляет, она оказалась намного более сложной за пределами ограниченного объема игрушечной среды. Точно так же проект, разработанный НАСА под названием LUNAR, был разработан, чтобы дать ответы на естественно написанные вопросы о геологическом анализе лунных пород, возвращенных миссиями Apollo. [38] Такого рода проблемы называются ответами на вопросы .

Первоначальные попытки понять разговорный язык были основаны на работе, проделанной в 1960-х и 1970-х годах по моделированию сигналов, когда неизвестный сигнал анализируется для поиска закономерностей и прогнозирования на основе его истории. Первоначальный и в некоторой степени успешный подход к применению этого вида моделирования сигналов к языку был достигнут с использованием скрытых марковских моделей, подробно описанных Рабинером в 1989 году. [39] Этот подход пытается определить вероятности для произвольного количества моделей, которые могут существовать. используется для генерации речи, а также для моделирования вероятностей для различных слов, генерируемых каждой из этих возможных моделей. Подобные подходы использовались в ранних попытках распознавания речи, начиная с конца 70-х годов в IBM, с использованием вероятностей пары слово / часть речи.[40]

Совсем недавно эти виды статистических подходов стали применяться к более сложным задачам, таким как идентификация темы с использованием оценки байесовских параметров для определения вероятностей темы в текстовых документах. [41]

Приложения [ править ]

Прикладная компьютерная лингвистика во многом эквивалентна обработке естественного языка . Примеры приложений для конечных пользователей включают программное обеспечение для распознавания речи, такое как функция Apple Siri, инструменты проверки орфографии, программы синтеза речи , которые часто используются для демонстрации произношения или помощи инвалидам, а также программы и веб-сайты машинного перевода, такие как Google Translate. [42]

Вычислительная лингвистика также полезна в ситуациях, связанных с социальными сетями и Интернетом , например, для обеспечения фильтров контента в чатах или при поиске на веб-сайтах, [42] для группировки и организации контента посредством анализа социальных сетей , [43] поиска документов и кластеризации. Например, если человек ищет «красный, большой четырехколесный автомобиль», чтобы найти изображения красного грузовика, поисковая машина все равно найдет нужную информацию, сопоставив такие слова, как «четырехколесный» с «автомобилем». [44]

Вычислительные подходы также важны для поддержки лингвистических исследований, например, в корпусной лингвистике [7] или исторической лингвистике . Что касается изучения изменений во времени, вычислительные методы могут способствовать моделированию и идентификации языковых семей [8] (см. Дальнейшую количественную сравнительную лингвистику или филогенетику ), а также моделированию изменений звука [45] и значения. [46]

Наследие [ править ]

Тема компьютерной лингвистики неоднократно влияла на популярную культуру:

  • Star Trek франшизы особенности сильно классических приложений НЛП, наиболее особенно машинного перевода ( универсальный переводчик ), естественный язык пользовательских интерфейсов и вопрос с ответом . [47]
  • В фильме 1983 года « Военные игры» изображен молодой компьютерный хакер, который взаимодействует с суперкомпьютером с искусственным интеллектом. [48]
  • Фильм 1997 года « Зачатие Ады» посвящен Аде Лавлейс , считающейся одним из первых ученых-информатиков, а также темам компьютерной лингвистики. [49]
  • Ее , фильм 2013, изображает взаимодействие в человеке, с «мировым первых искусственного интеллекта операционной системы.» [50]
  • Фильм 2014 года «Имитационная игра» рассказывает о жизни компьютерного ученого Алана Тьюринга, разработчика теста Тьюринга. [51]
  • Фильм 2015 года Ex Machina посвящен взаимодействию человека с искусственным интеллектом. [52]
  • В фильме « Прибытие» 2016 года , основанном на « Истории вашей жизни» Теда Чанга , используется совершенно новый лингвистический подход к общению с развитой инопланетной расой, называемой гептаподами. [53]

См. Также [ править ]

Ссылки [ править ]

  1. ^ "Портал члена ACL | Портал члена ассоциации компьютерной лингвистики" . www.aclweb.org . Проверено 17 августа 2020 .
  2. ^ "Что такое компьютерная лингвистика?" . Ассоциация компьютерной лингвистики. Февраль 2005 г.
  3. Как указал, например, Идо Даган в своем выступлении на банкете ACL 2010 в Упсале, Швеция.
  4. ^ a b Uszkoreit, Ганс. "Что такое компьютерная лингвистика?" . Кафедра компьютерной лингвистики и фонетики Саарландского университета.
  5. ^ Сохер, Ричард. «Учебное пособие по глубокому обучению для NLP-ACL 2012» . Сохер . Проверено 17 августа 2020 .
  6. Перейти ↑ Oettinger, AG (1965). Компьютерная лингвистика . Американский математический ежемесячник, Vol. 72, No. 2, Part 2: Computing and Computing, pp. 147–150.
  7. ^ a b МакЭнери, Томас (1996). Корпусная лингвистика: введение . Эдинбург: Издательство Эдинбургского университета. п. 114. ISBN 978-0748611652.
  8. ^ a b Бауэрн, Клэр. «Вычислительная филогенетика». Ежегодный обзор лингвистики 4 (2018): 281-296.
  9. ^ Джон Хатчинс: Ретроспектива и перспективы в компьютерном переводе. Труды MT Summit VII, 1999, стр. 30–44.
  10. ^ Арнольд Б. Барах: Переводная машина 1975: и грядущие изменения.
  11. ^ Т. Кроули., К. Бауэрн. Введение в историческую лингвистику. Окленд, Новая Зеландия: Oxford UP, 1992. Печать.
  12. ^ «Умершие члены» . Члены ICCL . Проверено 15 ноября 2017 года .
  13. ^ Обработка естественного языка Лиз Лидди, Эдуард Хови, Джимми Лин, Джон Прагер, Драгомир Радев, Люси Вандервенде, Ральф Вайшедель
  14. ^ "Компьютерная лингвистика и фонетика" .
  15. ^ "Лаборатория компьютерной лингвистики Яцко" .
  16. ^ "ЗАЖИМ" .
  17. ^ Компьютерная лингвистика - Департамент лингвистики - Джорджтаунский колледж
  18. ^ "UPenn Linguistics: Компьютерная лингвистика" .
  19. ^ Jurafsky Д., и Мартин, JH (2009). Обработка речи и языка: введение в обработку естественного языка, вычислительную лингвистику и распознавание речи. Река Аппер Сэдл, Нью-Джерси: Пирсон Прентис Холл
  20. ^ Бауэрман, М. (1988). Проблема «отсутствия отрицательных доказательств»: как дети избегают построения излишне общей грамматики. Объяснение языковых универсалий .
  21. ^ а б в г Брейн, MDS (1971). О двух типах моделей усвоения грамматик. В Д. И. Слобин (ред.), Онтогенез грамматики: теоретическая перспектива. Нью-Йорк: Academic Press.
  22. ^ Пауэрс, DMW & Turk, CCR (1989). Машинное обучение естественного языка . Springer-Verlag. ISBN 978-0-387-19557-5 . 
  23. ^ a b Эльман, Джеффри Л. (1993). «Обучение и развитие в нейронных сетях: важность начала с малого». Познание . 48 (1): 71–99. DOI : 10.1016 / 0010-0277 (93) 90058-4 . PMID 8403835 . S2CID 2105042 .  
  24. ^ Salvi, G .; Montesano, L .; Бернардино, А .; Сантос-Виктор, Дж. (2012). «Языковая самонастройка: изучение значений слов из ассоциации восприятие-действие». IEEE Transactions по системам, человеку и кибернетике. Часть B . 42 (3): 660–71. arXiv : 1711.09714 . DOI : 10.1109 / TSMCB.2011.2172420 . PMID 22106152 . S2CID 977486 .  
  25. ^ Гонг, Т .; Shuai, L .; Тамариз, М., Джагер, Г. (2012). Э. Скалас (ред.). "Изучение изменения языка с помощью уравнения цен и динамики Полиа-урны" . PLOS ONE . 7 (3): e33171. Bibcode : 2012PLoSO ... 733171G . DOI : 10.1371 / journal.pone.0033171 . PMC 3299756 . PMID 22427981 .  
  26. Перейти ↑ Marcus, M. & Marcinkiewicz, M. (1993). «Создание большого аннотированного корпуса английского языка: Penn Treebank» (PDF) . Компьютерная лингвистика . 19 (2): 313–330.
  27. ^ Тейлор, Энн (2003). «1». Берега деревьев . Весенние Нидерланды. С. 5–22.
  28. ^ a b Angus, D .; Смит А. и Уайлс Дж. (2012). «Сюжеты концептуального повторения: выявление закономерностей в человеческом дискурсе» (PDF) . IEEE Transactions по визуализации и компьютерной графике . 18 (6): 988–97. DOI : 10.1109 / TVCG.2011.100 . PMID 22499664 . S2CID 359497 .   
  29. ^ а б Фурухаси, С. & Хаякава, Ю. (2012). «Логнормальность распределения японских длин предложений». Журнал Физического общества Японии . 81 (3): 034004. Bibcode : 2012JPSJ ... 81c4004F . DOI : 10,1143 / JPSJ.81.034004 .
  30. ^ Тьюринг, AM (1950). «Вычислительная техника и интеллект». Разум . 59 (236): 433–460. DOI : 10,1093 / ум / lix.236.433 . JSTOR 2251299 . 
  31. ^ Weizenbaum, J. (1966). «ELIZA - компьютерная программа для изучения естественного языка общения между человеком и машиной». Коммуникации ACM . 9 (1): 36–45. DOI : 10.1145 / 365153.365168 . S2CID 1896290 . 
  32. ^ Оч, FJ; Ней, Х. (2003). «Систематическое сравнение различных статистических моделей сопоставления» . Компьютерная лингвистика . 29 (1): 19–51. DOI : 10.1162 / 089120103321337421 .
  33. ^ Мэресс, F. (2011). «Управление восприятием пользователем языкового стиля: обучаемое поколение личностных качеств» . Компьютерная лингвистика . 37 (3): 455–488. DOI : 10.1162 / COLI_a_00063 .
  34. ^ Языковые файлы . Факультет лингвистики Университета штата Огайо. 2011. С. 624–634. ISBN 9780814251799.
  35. ^ Bledsoe, WW & Browning, И. (1959). Распознавание образов и чтение машиной . Доклады, представленные на 1–3 декабря 1959 г., восточной совместной компьютерной конференции IRE-AIEE-ACM на - IRE-AIEE-ACM '59 (Восточный). Нью-Йорк, Нью-Йорк, США: ACM Press. С. 225–232. DOI : 10.1145 / 1460299.1460326 .
  36. ^ Мостеллер, Ф. (1963). «Вывод в проблеме авторства». Журнал Американской статистической ассоциации . 58 (302): 275–309. DOI : 10.2307 / 2283270 . JSTOR 2283270 . 
  37. ^ Виноград, Т. (1971). «Процедуры как представление данных в компьютерной программе для понимания естественного языка» (отчет). Цитировать журнал требует |journal=( помощь )
  38. ^ Woods, W .; Каплан Р. и Нэш-Уэббер Б. (1972). "Информационная система естественного языка наук о Луна" (Отчет). Цитировать журнал требует |journal=( помощь )
  39. ^ Рабинер, Л. (1989). «Учебное пособие по скрытым марковским моделям и избранным приложениям в распознавании речи». Труды IEEE . 77 (2): 257–286. CiteSeerX 10.1.1.381.3454 . DOI : 10.1109 / 5.18626 . 
  40. ^ Bahl, L .; Baker, J .; Cohen, P .; Елинек, Ф. (1978). «Распознавание непрерывно читаемого естественного корпуса». Акустика, речь и сигнал . 3 : 422–424. DOI : 10.1109 / ICASSP.1978.1170402 .
  41. ^ Blei, D. & Ng, A. (2003). «Скрытое размещение дирихле» . Журнал машинного обучения . 3 : 993–1022.
  42. ^ а б "Карьера в компьютерной лингвистике" . Калифорнийский государственный университет . Проверено 19 сентября 2016 года .
  43. ^ Marujo, Lus et al. «Автоматическое извлечение ключевых слов в Twitter». Институт языковых технологий, Университет Карнеги-Меллона, nd Web. 19 сентября 2016 г.
  44. ^ «Компьютерная лингвистика» . Стэнфордская энциклопедия философии . Лаборатория метафизических исследований Стэнфордского университета. 26 февраля 2014 . Проверено 19 апреля 2017 года .
  45. ^ Пиголи, Давиде и др. «Анализ акустических фонетических данных: изучение различий в разговорных романских языках». препринт arXiv arXiv: 1507.07587 985 (2015); Группа, Функциональные филогении. «Филогенетический вывод для функционально-значимых черт: эволюция звуков речи». Тенденции в экологии и эволюции 27.3 (2012): 160-166 ..
  46. ^ например, Гамильтон, Уильям Л., Юре Лесковец и Дэн Джурафски. «Диахронические вложения слов раскрывают статистические законы семантического изменения». Препринт arXiv arXiv: 1605.09096 (2016).
  47. ^ « Переводчики Star Trek“тянуться за последний рубеж» . www.cnn.com . Проверено 17 августа 2020 .
  48. ^ Бэдхэм, Джон (1983-06-03), WarGames , получено 22.02.2016
  49. ^ Hershman-Лисон, Линн (1999-02-19), зачатие Ada , извлекаться 2016-02-22
  50. ^ Джонз, Spike (2014-01-10), Ее , извлекаются 2016-02-18
  51. ^ Tyldum, Morten (2014-12-25), Игра в имитацию , извлекаться 2016-02-18
  52. ^ Garland, Alex (2015-04-24), Ex Machina , извлекаться 2016-02-18
  53. ^ Вильнев, Дени (2016-10-10). «Прибытие» . Проверено 18 декабря 2019 .

Дальнейшее чтение [ править ]

  • Бейтс, М. (1995). «Модели понимания естественного языка» . Труды Национальной академии наук Соединенных Штатов Америки . 92 (22): 9977–9982. Bibcode : 1995PNAS ... 92.9977B . DOI : 10.1073 / pnas.92.22.9977 . PMC  40721 . PMID  7479812 .
  • Стивен Берд, Юэн Кляйн и Эдвард Лопер (2009). Обработка естественного языка с помощью Python . O'Reilly Media. ISBN 978-0-596-51649-9 . 
  • Дэниел Джурафски и Джеймс Х. Мартин (2008). Обработка речи и языка , 2-е издание. Пирсон Прентис Холл. ISBN 978-0-13-187321-6 . 
  • Мохамед Закария КУРДИ (2016). Обработка естественного языка и компьютерная лингвистика: речь, морфология и синтаксис , Том 1. ISTE-Wiley. ISBN 978-1848218482 . 
  • Мохамед Закария КУРДИ (2017). Обработка естественного языка и компьютерная лингвистика: семантика, дискурс и приложения , Том 2. ISTE-Wiley. ISBN 978-1848219212 . 

Внешние ссылки [ править ]

  • Ассоциация компьютерной лингвистики (ACL)
    • ACL Антология научных статей
    • ACL Wiki для компьютерной лингвистики
  • Ежегодные конференции CICLing по компьютерной лингвистике
  • Компьютерная лингвистика - Мастерская по применению
  • Бесплатная вводная онлайн-книга по компьютерной лингвистике на Wayback Machine (архив 25 января 2008 г.)
  • Мир языковых технологий
  • Ресурсы для обработки текста, речи и языка
  • Исследовательская группа по компьютерной лингвистике