Модель мешка слов

Модель мешка слов — это упрощающее представление, используемое при обработке естественного языка и поиске информации (IR). В этой модели текст (например, предложение или документ) представляется в виде набора (мультимножества) его слов без учета грамматики и даже порядка слов, но с сохранением множественности . Модель мешка слов также использовалась для компьютерного зрения . ^[1]

Модель мешка слов обычно используется в методах классификации документов , где (частота) появления каждого слова используется в качестве признака для обучения классификатора . ^[2]

Раннее упоминание «мешка слов» в лингвистическом контексте можно найти в статье Зеллига Харриса 1954 года о структуре распределения . ^[3]

Представление каждого набора слов в виде объекта JSON и приписывание соответствующей переменной JavaScript :

Каждый ключ — это слово, а каждое значение — это количество вхождений этого слова в данный текстовый документ.

Порядок элементов свободный, поэтому, например {"too":1,"Mary":1,"movies":2,"John":1,"watch":1,"likes":2,"to":1}, также эквивалентен BoW1 . Это также то, что мы ожидаем от строгого представления объекта JSON .