Случайная индексация

Случайное индексирование - это метод уменьшения размерности и вычислительная структура для семантики распределения , основанная на понимании того, что реализации модели векторного пространства очень высокой размерности непрактичны, что модели не должны увеличиваться в размерности, когда встречаются новые элементы (например, новая терминология), и что многомерная модель может быть спроецирована в пространство более низкой размерности без ущерба для метрики расстояния L2, если результирующие размеры выбраны надлежащим образом.

Это исходная точка подхода случайной проекции к уменьшению размерности, впервые сформулированная как лемма Джонсона – Линденштрауса , и хеширование с учетом локальности имеет некоторые из тех же отправных точек. Случайное индексирование, используемое в представлении языка, происходит от работы Пентти Канерва ^[1]^[2]^[3]^[4]^[5] по разреженной распределенной памяти и может быть описано как инкрементная формулировка случайной проекции. ^[6]

Также можно проверить, что случайное индексирование - это техника случайного проецирования для построения евклидовых пространств, т. Е. Нормированных векторных пространств L2. ^[7] В евклидовых пространствах случайные проекции поясняются с помощью леммы Джонсона – Линденштрауса. ^[8]

Метод TopSig ^[9] расширяет модель случайной индексации для создания битовых векторов для сравнения с функцией подобия расстояния Хэмминга . Он используется для повышения производительности поиска информации и кластеризации документов . В аналогичном направлении исследований предлагается случайное манхэттенское целочисленное индексирование (RMII) ^[10] для повышения производительности методов, использующих манхэттенское расстояние между текстовыми единицами. Многие методы случайной индексации в первую очередь генерируют сходство за счет совместного появления элементов в корпусе. Рефлексивное случайное индексирование (RRI) ^[11] генерирует сходство из совпадения и из общего вхождения с другими элементами.

Веб ссылки

Заде Бехранг Касеми, Хандшу Зигфрид. (2015) Случайное индексирование с высокой вероятностью , TSD.

Рекомендации

^ Канерва, Пентти, Кристоферсон, Ян и Холст, Андерс (2000): случайное индексирование текстовых выборок для скрытого семантического анализа , Труды 22-й ежегодной конференции Общества когнитивных наук, стр. 1036. Махва, Нью-Джерси: Эрлбаум, 2000.
^ Сальгрен, Магнус (2005) Введение в случайное индексирование , материалы семинара по методам и приложениям семантического индексирования на 7-й Международной конференции по терминологии и инженерии знаний, TKE 2005, 16 августа, Копенгаген, Дания
^ Сальгрен, Магнус, Холст, Андерс и Пентти Канерва (2008) Перестановки как средство кодирования порядка в пространстве слов , В трудах 30-й ежегодной конференции Общества когнитивной науки: 1300-1305.
^ Канерва, Пентти (2009) Гиперпространственные вычисления: Введение в вычисления в распределенном представлении с многомерными случайными векторами , Когнитивные вычисления, Том 1, Выпуск 2, стр. 139–159.
^ Joshi, Адитие, Йохано Halseth и Пентти Канерв. « Распознавание языков с использованием случайной индексации ». Препринт arXiv arXiv: 1412.7026 (2014).
^ Реккья, Габриэль и др. « Кодирование последовательной информации в семантических моделях векторного пространства: сравнение голографического сокращенного представления и случайной перестановки ». (2010): 865-870.
^ Qasemi зад, Behrang & Handschuh, Siegrfied. (2014) Случайная манхэттенская индексация , в материалах 25-го международного семинара по приложениям баз данных и экспертных систем.
^ Джонсон, В. и Линденштраус, Дж. (1984) Расширения липшицевых отображений в гильбертово пространство , в современной математике. Американское математическое общество, т. 26. С. 189–206.
^ Geva, S. & De Vries, CM (2011) TopSig: Топология Сохранение документа Подписи , Труды конференции по информации и управления знаниями 2011, 24-28 октября 2011, Глазго, Шотландия.
^ Касеми Заде, Бехранг. & Handschuh, Зигфрид. (2014) random Manhattan integer indexing: Incremental L1 Normed Vector Space Construction , In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1713-1723, October 25-29, 2014, Doha, Qatar.
^ Коэн Т., Шваневельдт Роджер и Уиддоус Доминик (2009) Отражающее случайное индексирование и косвенный вывод: масштабируемый метод обнаружения неявных связей , Журнал биомедицинской информатики, 43 (2): 240-56.

Эта статья по информатике незавершена . Вы можете помочь Википедии, расширив ее .

[1] Канерва, Пентти, Кристоферсон, Ян и Холст, Андерс (2000): случайное индексирование текстовых выборок для скрытого семантического анализа , Труды 22-й ежегодной конференции Общества когнитивных наук, стр. 1036. Махва, Нью-Джерси: Эрлбаум, 2000.

[2] Сальгрен, Магнус (2005) Введение в случайное индексирование , материалы семинара по методам и приложениям семантического индексирования на 7-й Международной конференции по терминологии и инженерии знаний, TKE 2005, 16 августа, Копенгаген, Дания

[3] Сальгрен, Магнус, Холст, Андерс и Пентти Канерва (2008) Перестановки как средство кодирования порядка в пространстве слов , В трудах 30-й ежегодной конференции Общества когнитивной науки: 1300-1305.

[4] Канерва, Пентти (2009) Гиперпространственные вычисления: Введение в вычисления в распределенном представлении с многомерными случайными векторами , Когнитивные вычисления, Том 1, Выпуск 2, стр. 139–159.

[5] Joshi, Адитие, Йохано Halseth и Пентти Канерв. « Распознавание языков с использованием случайной индексации ». Препринт arXiv arXiv: 1412.7026 (2014).

[6] Реккья, Габриэль и др. « Кодирование последовательной информации в семантических моделях векторного пространства: сравнение голографического сокращенного представления и случайной перестановки ». (2010): 865-870.

[7] Qasemi зад, Behrang & Handschuh, Siegrfied. (2014) Случайная манхэттенская индексация , в материалах 25-го международного семинара по приложениям баз данных и экспертных систем.

[8] Джонсон, В. и Линденштраус, Дж. (1984) Расширения липшицевых отображений в гильбертово пространство , в современной математике. Американское математическое общество, т. 26. С. 189–206.

[9] Geva, S. & De Vries, CM (2011) TopSig: Топология Сохранение документа Подписи , Труды конференции по информации и управления знаниями 2011, 24-28 октября 2011, Глазго, Шотландия.

[10] Касеми Заде, Бехранг. & Handschuh, Зигфрид. (2014) random Manhattan integer indexing: Incremental L1 Normed Vector Space Construction , In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1713-1723, October 25-29, 2014, Doha, Qatar.

[11] Коэн Т., Шваневельдт Роджер и Уиддоус Доминик (2009) Отражающее случайное индексирование и косвенный вывод: масштабируемый метод обнаружения неявных связей , Журнал биомедицинской информатики, 43 (2): 240-56.

[1]