В лингвистике , статистическая семантика применяет методу статистики к задаче определения значения слов или фраз, в идеале через неконтролируемое обучение , до степени точности , по меньшей мере , достаточной для целей поиска информации .
История
Термин статистическая семантика впервые был использован Уорреном Уивером в его известной статье о машинном переводе . [1] Он утверждал, что устранение неоднозначности смысла слова для машинного перевода должно основываться на частоте совпадения контекстных слов рядом с заданным целевым словом. Основополагающее предположение о том, что «слово характеризует компания, которую оно составляет», было поддержано Дж . Р. Фертом . [2] Это предположение известно в лингвистике как гипотеза распределения . [3] Эмиль Делавенэ определил статистическую семантику как «статистическое исследование значений слов, их частоты и порядка повторения». [4] « Фурнаш и др., 1983» часто упоминаются как основополагающий вклад в статистическую семантику. [5] Первым успехом в этой области был скрытый семантический анализ .
Приложения
Исследования статистической семантики привели к появлению широкого спектра алгоритмов, которые используют гипотезу распределения для обнаружения многих аспектов семантики , применяя статистические методы к большим корпусам :
- Измерение сходства значений слов [6] [7] [8] [9]
- Измерение сходства в словесных отношениях [10]
- Моделирование обобщения на основе подобия [11]
- Обнаружение слов с заданным отношением [12]
- Классификация отношений между словами [13]
- Извлечение ключевых слов из документов [14] [15]
- Измерение связности текста [16]
- Открытие различных значений слов [17]
- Различение разных значений слов [18]
- Субкогнитивные аспекты слов [19]
- Как отличить похвалу от критики [20]
Связанные поля
Статистическая семантика фокусируется на значениях общих слов и отношениях между общими словами, в отличие от интеллектуального анализа текста , который имеет тенденцию фокусироваться на целых документах, коллекциях документов или именованных объектах (имена людей, мест и организаций). Статистическая семантика - это подполе вычислительной семантики , которое, в свою очередь, является подполем компьютерной лингвистики и обработки естественного языка .
Многие приложения статистической семантики (перечисленные выше) также могут быть решены с помощью алгоритмов на основе лексики , а не алгоритмов статистической семантики на основе корпусов . Одним из преимуществ корпусных алгоритмов является то, что они обычно не так трудоемки, как алгоритмы, основанные на лексике. Еще одно преимущество состоит в том, что их обычно легче адаптировать к новым языкам, чем алгоритмы, основанные на лексике. Однако наилучшая производительность в приложении часто достигается за счет сочетания двух подходов. [21]
Смотрите также
- Совместное появление
- Компьютерная лингвистика
- Поиск информации
- Скрытый семантический анализ
- Скрытое семантическое индексирование
- Семантическая аналитика
- Семантическое сходство
- Статистическая обработка естественного языка
- Текстовый корпус
- Текстовый майнинг
- Веб-майнинг
Рекомендации
- ^ Уивер 1955
- ^ Ферт 1957
- ^ Sahlgren 2008
- ^ Delavenay 1960
- ^ Фурнаш и др. 1983 г.
- ^ Lund, Burgess & Atchley 1995
- ^ Ландауэр & Дюмэ 1997
- ^ Макдональд и Рамскар 2001
- ^ Терра и Кларк 2003
- ^ Терни 2006
- ^ Ярлетт 2008
- ^ Херст 1992
- ^ Терни и Литтман 2005
- ^ Франк и др. 1999 г.
- ^ Терни 2000
- ^ Терни 2003
- ^ Пантель и Лин 2002
- ^ Терни 2004
- ^ Терни 2001
- ^ Терни и Литтман 2003
- ^ Терни и др. 2003 г.
Источники
- Delavenay, Эмиль (1960). Введение в машинный перевод . Нью-Йорк, Нью-Йорк: Темза и Гудзон . OCLC 1001646 .
- Ферт, Джон Р. (1957). «Краткий обзор лингвистической теории 1930-1955 годов». Исследования в области лингвистического анализа . Оксфорд: Филологическое общество : 1–32.
- Перепечатано в Палмер, Франция, изд. (1968). Избранные статьи Дж. Р. Ферта 1952–1959 . Лондон: Лонгман. OCLC 123573912 .
- Франк, Эйбе; Пэйнтер, Гордон В.; Виттен, Ян Х .; Гутвин, Карл; Невилл-Мэннинг, Крейг Г. (1999). «Извлечение ключевой фразы, зависящей от домена». Материалы шестнадцатой международной совместной конференции по искусственному интеллекту . IJCAI-99 . 2 . Калифорния: Морган Кауфманн. С. 668–673. CiteSeerX 10.1.1.148.3598 . ISBN 1-55860-613-0.
- Фурнас, Джордж У .; Ландауэр, Т.К .; Гомес, Л. М.; Дюмэ, СТ (1983). «Статистическая семантика: анализ потенциальной производительности информационных систем по ключевым словам» (PDF) . Технический журнал Bell System . 62 (6): 1753–1806. DOI : 10.1002 / j.1538-7305.1983.tb03513.x . S2CID 22483184 . Архивировано из оригинального (PDF) 04 марта 2016 года . Проверено 12 июля 2012 .
- Херст, Марти А. (1992). «Автоматическое получение гипонимов из больших текстовых корпусов» (PDF) . Труды четырнадцатой международной конференции по компьютерной лингвистике . COLING 92 года . Нант, Франция. С. 539–545. CiteSeerX 10.1.1.36.701 . DOI : 10.3115 / 992133.992154 . Архивировано из оригинального (PDF) 22 мая 2012 года . Проверено 12 июля 2012 .
- Ландауэр, Томас К .; Дюмэ, Сьюзан Т. (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний» . Психологический обзор . 104 (2): 211–240. CiteSeerX 10.1.1.184.4759 . DOI : 10.1037 / 0033-295x.104.2.211 .
- Лунд, Кевин; Берджесс, Курт; Эчли, Рут Энн (1995). «Семантическое и ассоциативное праймирование в многомерном семантическом пространстве» (PDF) . Труды 17-й ежегодной конференции Общества когнитивных наук . Общество когнитивных наук . С. 660–665.[ постоянная мертвая ссылка ]
- Макдональд, Скотт; Рамскар, Майкл (2001). «Проверка распределительной гипотезы: влияние контекста на суждения о семантическом сходстве» (PDF) . Материалы 23-й ежегодной конференции Общества когнитивных наук . С. 611–616. CiteSeerX 10.1.1.104.7535 .[ постоянная мертвая ссылка ]
- Пантель, Патрик; Лин, Деканг (2002). «Обнаружение смысла слова из текста». Труды конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных . KDD '02 . С. 613–619. CiteSeerX 10.1.1.12.6771 . DOI : 10.1145 / 775047.775138 . ISBN 1-58113-567-X.
- Сальгрен, Магнус (2008). «Распределительная гипотеза» (PDF) . Rivista di Linguistica . 20 (1): 33–53.
- Terra, Egidio L .; Кларк, Чарльз Л.А. (2003). "Частотные оценки статистических мер сходства слов" (PDF) . Материалы человеческого языка технологии и Североамериканской Глава Ассоциации вычислительной лингвистики конференции 2003 . HLT / NAACL 2003. С. 244–251. CiteSeerX 10.1.1.12.9041 . DOI : 10.3115 / 1073445.1073477 . Архивировано из оригинального (PDF) 3 ноября 2013 года . Проверено 12 июля 2012 .
- Терни, Питер Д. (май 2000 г.). «Алгоритмы обучения для извлечения ключевых фраз». Информационный поиск . 2 (4): 303–336. arXiv : cs / 0212020 . CiteSeerX 10.1.1.11.1829 . DOI : 10,1023 / A: 1009976227802 . S2CID 7007323 .
- Терни, Питер Д. (2001). «Отвечая на вопросы субкогнитивного теста Тьюринга: ответ на французский язык». Журнал экспериментального и теоретического искусственного интеллекта . 13 (4): 409–419. arXiv : cs / 0212015 . CiteSeerX 10.1.1.12.8734 . DOI : 10.1080 / 09528130110100270 . S2CID 59099 .
- Терни, Питер Д. (2003). «Последовательное извлечение ключевых фраз с помощью веб-майнинга». Материалы восемнадцатой международной совместной конференции по искусственному интеллекту . IJCAI-03. Акапулько, Мексика. С. 434–439. arXiv : cs / 0308033 . Bibcode : 2003cs ........ 8033T . CiteSeerX 10.1.1.100.3751 .
- Терни, Питер Д. (2004). «Устранение неоднозначности смысла слов с помощью веб-интеллектуального анализа вероятностей совпадения слов» . Материалы Третьего международного семинара по оценке систем семантического анализа текста . СЕНСЕВАЛ-3. Барселона, Испания. С. 239–242. arXiv : cs / 0407065 . Bibcode : 2004cs ........ 7065T .
- Терни, Питер Д. (2006). «Сходство смысловых отношений» . Компьютерная лингвистика . 32 (3): 379–416. arXiv : cs / 0608100 . Bibcode : 2006cs ........ 8100T . CiteSeerX 10.1.1.75.8007 . DOI : 10,1162 / coli.2006.32.3.379 . S2CID 2468783 .
- Терни, Питер Д .; Литтман, Майкл Л. (октябрь 2003 г.). «Измерение похвалы и критики: вывод смысловой ориентации из ассоциации» . ACM-транзакции в информационных системах . 21 (4): 315–346. arXiv : cs / 0309034 . Bibcode : 2003cs ........ 9034T . CiteSeerX 10.1.1.9.64 25 . DOI : 10.1145 / 944012.944013 . S2CID 2024 .
- Терни, Питер Д .; Литтман, Майкл Л. (2005). «Корпоративное изучение аналогий и семантических отношений» . Машинное обучение . 60 (1–3): 251–278. arXiv : cs / 0508103 . Bibcode : 2005cs ........ 8103T . CiteSeerX 10.1.1.90.9819 . DOI : 10.1007 / s10994-005-0913-1 . S2CID 9322367 .
- Терни, Питер Д .; Littman, Michael L .; Бигхэм, Джеффри; Шнайдер, Виктор (2003). «Объединение независимых модулей для решения проблем синонимов и аналогий с множественным выбором» . Труды Международной конференции по последним достижениям в обработке естественного языка . РАНЛП-03. Боровец , Болгария. С. 482–489. arXiv : cs / 0309035 . Bibcode : 2003cs ........ 9035T . CiteSeerX 10.1.1.5.2939 .
- Уивер, Уоррен (1955). «Перевод» (PDF) . В Локке, WN; Бут, Д.А. (ред.). Машинный перевод языков . Кембридж, Массачусетс : MIT Press . С. 15–23. ISBN 0-8371-8434-7.
- Ярлетт, Дэниел Г. (2008). Изучение языков через обобщение на основе сходства (PDF) (докторская диссертация). Стэндфордский Университет. Архивировано из оригинального (PDF) 19 апреля 2014 года.