Статистическая семантика

В лингвистике , статистическая семантика применяет методу статистики к задаче определения значения слов или фраз, в идеале через неконтролируемое обучение , до степени точности , по меньшей мере , достаточной для целей поиска информации .

История

Термин статистическая семантика впервые был использован Уорреном Уивером в его известной статье о машинном переводе . ^[1] Он утверждал, что устранение неоднозначности смысла слова для машинного перевода должно основываться на частоте совпадения контекстных слов рядом с заданным целевым словом. Основополагающее предположение о том, что «слово характеризует компания, которую оно составляет», было поддержано Дж . Р. Фертом . ^[2] Это предположение известно в лингвистике как гипотеза распределения . ^[3] Эмиль Делавенэ определил статистическую семантику как «статистическое исследование значений слов, их частоты и порядка повторения». ^[4] « Фурнаш и др., 1983» часто упоминаются как основополагающий вклад в статистическую семантику. ^[5] Первым успехом в этой области был скрытый семантический анализ .

Приложения

Исследования статистической семантики привели к появлению широкого спектра алгоритмов, которые используют гипотезу распределения для обнаружения многих аспектов семантики , применяя статистические методы к большим корпусам :

Измерение сходства значений слов ^[6]^[7]^[8]^[9]
Измерение сходства в словесных отношениях ^[10]
Моделирование обобщения на основе подобия ^[11]
Обнаружение слов с заданным отношением ^[12]
Классификация отношений между словами ^[13]
Извлечение ключевых слов из документов ^[14]^[15]
Измерение связности текста ^[16]
Открытие различных значений слов ^[17]
Различение разных значений слов ^[18]
Субкогнитивные аспекты слов ^[19]
Как отличить похвалу от критики ^[20]

Связанные поля

Статистическая семантика фокусируется на значениях общих слов и отношениях между общими словами, в отличие от интеллектуального анализа текста , который имеет тенденцию фокусироваться на целых документах, коллекциях документов или именованных объектах (имена людей, мест и организаций). Статистическая семантика - это подполе вычислительной семантики , которое, в свою очередь, является подполем компьютерной лингвистики и обработки естественного языка .

Многие приложения статистической семантики (перечисленные выше) также могут быть решены с помощью алгоритмов на основе лексики , а не алгоритмов статистической семантики на основе корпусов . Одним из преимуществ корпусных алгоритмов является то, что они обычно не так трудоемки, как алгоритмы, основанные на лексике. Еще одно преимущество состоит в том, что их обычно легче адаптировать к новым языкам, чем алгоритмы, основанные на лексике. Однако наилучшая производительность в приложении часто достигается за счет сочетания двух подходов. ^[21]

Смотрите также

Совместное появление
Компьютерная лингвистика
Поиск информации
Скрытый семантический анализ
Скрытое семантическое индексирование
Семантическая аналитика
Семантическое сходство
Статистическая обработка естественного языка
Текстовый корпус
Текстовый майнинг
Веб-майнинг

Рекомендации

^ Уивер 1955
^ Ферт 1957
^ Sahlgren 2008
^ Delavenay 1960
^ Фурнаш и др. 1983 г.
^ Lund, Burgess & Atchley 1995
^ Ландауэр & Дюмэ 1997
^ Макдональд и Рамскар 2001
^ Терра и Кларк 2003
^ Терни 2006
^ Ярлетт 2008
^ Херст 1992
^ Терни и Литтман 2005
^ Франк и др. 1999 г.
^ Терни 2000
^ Терни 2003
^ Пантель и Лин 2002
^ Терни 2004
^ Терни 2001
^ Терни и Литтман 2003
^ Терни и др. 2003 г.

Источники

Delavenay, Эмиль (1960). Введение в машинный перевод . Нью-Йорк, Нью-Йорк: Темза и Гудзон . OCLC 1001646 .
Ферт, Джон Р. (1957). «Краткий обзор лингвистической теории 1930-1955 годов». Исследования в области лингвистического анализа . Оксфорд: Филологическое общество : 1–32.
Перепечатано в Палмер, Франция, изд. (1968). Избранные статьи Дж. Р. Ферта 1952–1959 . Лондон: Лонгман. OCLC 123573912 .
Франк, Эйбе; Пэйнтер, Гордон В.; Виттен, Ян Х .; Гутвин, Карл; Невилл-Мэннинг, Крейг Г. (1999). «Извлечение ключевой фразы, зависящей от домена». Материалы шестнадцатой международной совместной конференции по искусственному интеллекту . IJCAI-99 . 2 . Калифорния: Морган Кауфманн. С. 668–673. CiteSeerX 10.1.1.148.3598 . ISBN 1-55860-613-0.
Фурнас, Джордж У .; Ландауэр, Т.К .; Гомес, Л. М.; Дюмэ, СТ (1983). «Статистическая семантика: анализ потенциальной производительности информационных систем по ключевым словам» (PDF) . Технический журнал Bell System . 62 (6): 1753–1806. DOI : 10.1002 / j.1538-7305.1983.tb03513.x . S2CID 22483184 . Архивировано из оригинального (PDF) 04 марта 2016 года . Проверено 12 июля 2012 .
Херст, Марти А. (1992). «Автоматическое получение гипонимов из больших текстовых корпусов» (PDF) . Труды четырнадцатой международной конференции по компьютерной лингвистике . COLING 92 года . Нант, Франция. С. 539–545. CiteSeerX 10.1.1.36.701 . DOI : 10.3115 / 992133.992154 . Архивировано из оригинального (PDF) 22 мая 2012 года . Проверено 12 июля 2012 .
Ландауэр, Томас К .; Дюмэ, Сьюзан Т. (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний» . Психологический обзор . 104 (2): 211–240. CiteSeerX 10.1.1.184.4759 . DOI : 10.1037 / 0033-295x.104.2.211 .
Лунд, Кевин; Берджесс, Курт; Эчли, Рут Энн (1995). «Семантическое и ассоциативное праймирование в многомерном семантическом пространстве» (PDF) . Труды 17-й ежегодной конференции Общества когнитивных наук . Общество когнитивных наук . С. 660–665.^{[ постоянная мертвая ссылка ]}
Макдональд, Скотт; Рамскар, Майкл (2001). «Проверка распределительной гипотезы: влияние контекста на суждения о семантическом сходстве» (PDF) . Материалы 23-й ежегодной конференции Общества когнитивных наук . С. 611–616. CiteSeerX 10.1.1.104.7535 .^{[ постоянная мертвая ссылка ]}
Пантель, Патрик; Лин, Деканг (2002). «Обнаружение смысла слова из текста». Труды конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных . KDD '02 . С. 613–619. CiteSeerX 10.1.1.12.6771 . DOI : 10.1145 / 775047.775138 . ISBN 1-58113-567-X.
Сальгрен, Магнус (2008). «Распределительная гипотеза» (PDF) . Rivista di Linguistica . 20 (1): 33–53.
Terra, Egidio L .; Кларк, Чарльз Л.А. (2003). "Частотные оценки статистических мер сходства слов" (PDF) . Материалы человеческого языка технологии и Североамериканской Глава Ассоциации вычислительной лингвистики конференции 2003 . HLT / NAACL 2003. С. 244–251. CiteSeerX 10.1.1.12.9041 . DOI : 10.3115 / 1073445.1073477 . Архивировано из оригинального (PDF) 3 ноября 2013 года . Проверено 12 июля 2012 .
Терни, Питер Д. (май 2000 г.). «Алгоритмы обучения для извлечения ключевых фраз». Информационный поиск . 2 (4): 303–336. arXiv : cs / 0212020 . CiteSeerX 10.1.1.11.1829 . DOI : 10,1023 / A: 1009976227802 . S2CID 7007323 .
Терни, Питер Д. (2001). «Отвечая на вопросы субкогнитивного теста Тьюринга: ответ на французский язык». Журнал экспериментального и теоретического искусственного интеллекта . 13 (4): 409–419. arXiv : cs / 0212015 . CiteSeerX 10.1.1.12.8734 . DOI : 10.1080 / 09528130110100270 . S2CID 59099 .
Терни, Питер Д. (2003). «Последовательное извлечение ключевых фраз с помощью веб-майнинга». Материалы восемнадцатой международной совместной конференции по искусственному интеллекту . IJCAI-03. Акапулько, Мексика. С. 434–439. arXiv : cs / 0308033 . Bibcode : 2003cs ........ 8033T . CiteSeerX 10.1.1.100.3751 .
Терни, Питер Д. (2004). «Устранение неоднозначности смысла слов с помощью веб-интеллектуального анализа вероятностей совпадения слов» . Материалы Третьего международного семинара по оценке систем семантического анализа текста . СЕНСЕВАЛ-3. Барселона, Испания. С. 239–242. arXiv : cs / 0407065 . Bibcode : 2004cs ........ 7065T .
Терни, Питер Д. (2006). «Сходство смысловых отношений» . Компьютерная лингвистика . 32 (3): 379–416. arXiv : cs / 0608100 . Bibcode : 2006cs ........ 8100T . CiteSeerX 10.1.1.75.8007 . DOI : 10,1162 / coli.2006.32.3.379 . S2CID 2468783 .
Терни, Питер Д .; Литтман, Майкл Л. (октябрь 2003 г.). «Измерение похвалы и критики: вывод смысловой ориентации из ассоциации» . ACM-транзакции в информационных системах . 21 (4): 315–346. arXiv : cs / 0309034 . Bibcode : 2003cs ........ 9034T . CiteSeerX 10.1.1.9.64 25 . DOI : 10.1145 / 944012.944013 . S2CID 2024 .
Терни, Питер Д .; Литтман, Майкл Л. (2005). «Корпоративное изучение аналогий и семантических отношений» . Машинное обучение . 60 (1–3): 251–278. arXiv : cs / 0508103 . Bibcode : 2005cs ........ 8103T . CiteSeerX 10.1.1.90.9819 . DOI : 10.1007 / s10994-005-0913-1 . S2CID 9322367 .
Терни, Питер Д .; Littman, Michael L .; Бигхэм, Джеффри; Шнайдер, Виктор (2003). «Объединение независимых модулей для решения проблем синонимов и аналогий с множественным выбором» . Труды Международной конференции по последним достижениям в обработке естественного языка . РАНЛП-03. Боровец , Болгария. С. 482–489. arXiv : cs / 0309035 . Bibcode : 2003cs ........ 9035T . CiteSeerX 10.1.1.5.2939 .
Уивер, Уоррен (1955). «Перевод» (PDF) . В Локке, WN; Бут, Д.А. (ред.). Машинный перевод языков . Кембридж, Массачусетс : MIT Press . С. 15–23. ISBN 0-8371-8434-7.
Ярлетт, Дэниел Г. (2008). Изучение языков через обобщение на основе сходства (PDF) (докторская диссертация). Стэндфордский Университет. Архивировано из оригинального (PDF) 19 апреля 2014 года.

[1] Уивер 1955

[2] Ферт 1957

[3] Sahlgren 2008

[4] Delavenay 1960

[5] Фурнаш и др. 1983 г.

[6] Lund, Burgess & Atchley 1995

[7] Ландауэр & Дюмэ 1997

[8] Макдональд и Рамскар 2001

[9] Терра и Кларк 2003

[10] Терни 2006

[11] Ярлетт 2008

[12] Херст 1992

[13] Терни и Литтман 2005

[14] Франк и др. 1999 г.

[15] Терни 2000

[16] Терни 2003

[17] Пантель и Лин 2002

[18] Терни 2004

[19] Терни 2001

[20] Терни и Литтман 2003

[21] Терни и др. 2003 г.

[1]