Система поиска информации SMART

SMART (система для механического анализа и поиска текста) ИПС является информационно - поисковой системой , разработанной в Корнельском университете в 1960 - х годах. Многие важные концепции в поиске информации были разработаны в рамках исследования системы SMART ^{[ dead link ]} , включая модель векторного пространства , обратную связь по релевантности и классификацию Роккио .

Джерард Солтон возглавил группу, которая разработала SMART. Среди других участников был Майк Леск .

Система SMART также предоставляет набор корпусов, запросов и рейтингов ссылок, взятых из различных предметов, в частности

ADI ^{[ мертвая ссылка ]} : публикации из обзоров информатики
Информатика
Коллекция Крэнфилда ^{[ мертвая ссылка ]} : публикации из авиационных обзоров
Судебная медицина: библиотечное дело
Коллекция медларов ^{[ мертвая ссылка ]} : публикации из медицинских обзоров
Собрание журнала Time : архивы универсального обозрения Time в 1963 г.

К наследию системы SMART принадлежит так называемая тройная нотация SMART, мнемоническая схема для обозначения вариантов взвешивания tf-idf в модели векторного пространства. Мнемоника для представления комбинации весов принимает форму ddd.qqq, где первые три буквы представляют собой весовой термин для вектора документа коллекции, а вторые три буквы представляют термин весовой коэффициент для вектора документа запроса. Например, ltc.lnnпредставляет собой ltcвесовой коэффициент, примененный к документу коллекции, и lnnвесовой коэффициент, примененный к документу запроса.

Следующие таблицы устанавливают нотацию SMART: ^[1]

Символы и обозначения
${\ textstyle D_ {i} = \ {w_ {i_ {1}}, w_ {i_ {2}}, \ ldots, w_ {i_ {t}} \}}$ представляет вектор документа, где ${\ textstyle w_ {i_ {k}}}$ это вес термина ${\ textstyle T_ {k}}$ в ${\ textstyle D_ {i}}$ а также ${\ displaystyle t}$ количество уникальных терминов в ${\ textstyle D_ {i}}$ . Положительные характеристики характеризуют термины, которые присутствуют в документе, а нулевой вес используется для терминов, которые отсутствуют в документе.
${\ textstyle f_ {i_ {k}}}$	Частота встречаемости термина ${\ textstyle T_ {k}}$ в документе ${\ textstyle D_ {i}}$	${\ textstyle u_ {i}}$	Количество уникальных терминов в документе ${\ textstyle D_ {i}}$
${\ displaystyle N}$	Количество инкассовых документов	${\ displaystyle \ operatorname {avg} (u)}$	Среднее количество уникальных терминов в документе
${\ textstyle n_ {k}}$	Количество документов со сроком ${\ textstyle T_ {k}}$ настоящее время	${\ displaystyle b_ {t}}$	Количество знаков в документе ${\ displaystyle D_ {i}}$
${\ Displaystyle \ макс (е_ {я_ {к}})}$	Частота встречаемости наиболее употребительного термина в документе ${\ displaystyle D_ {i}}$	${\ textstyle \ operatorname {avg} (b)}$	Среднее количество символов в документе
${\ displaystyle \ operatorname {avg} (f_ {i_ {k}})}$	Средняя частота встречаемости термина в документе ${\ displaystyle D_ {i}}$	${\ textstyle G}$	Статистика глобального сбора
${\ displaystyle s}$	Наклон в контексте нормализации длины повернутого документа ^[2]

Умная тройная нотация с взвешиванием термов
Частота сроков ${\ textstyle {\ text {tf}} (е_ {я_ {k}})}$				Частота документов ${\ textstyle {\ текст {df}} (N, n_ {k})}$				Нормализация длины документа ${\ textstyle g (G, D_ {i})}$
	`b`	${\ textstyle 1}$	Двоичный вес	`x`	`n`	${\ textstyle 1}$	Не учитывает частоту сбора	`x`	`n`	${\ textstyle 1}$	Нет нормализации длины документа
`t`	`n`	${\ textstyle f_ {i_ {k}}}$	Частота необработанных терминов	`f`		${\ displaystyle \ log _ {2} \ left ({\ frac {N} {n_ {k}}} \ right)}$	Частота обратного сбора		`c`	${\ displaystyle {\ sqrt {\ sum _ {k = 1} ^ {t} w_ {i_ {k}} ^ {2}}}}$	Косинусная нормализация
	`a`	${\ textstyle 0,5 + 0,5 {\ frac {f_ {i_ {k}}} {\ max (f_ {i_ {k}})}}}$	Увеличенная нормализованная частота терминов		`t`	${\ displaystyle \ log _ {2} \ left ({\ frac {N + 1} {n_ {k}}} \ right)}$	Частота обратного сбора		`u`	${\ displaystyle 1-s + s {\ frac {u_ {i}} {\ operatorname {avg} (u)}}}$	Поворотная уникальная нормализация ^[2]
	`l`	${\ displaystyle 1+ \ log _ {2} f_ {i_ {k}}}$	Логарифм	`p`		${\ displaystyle \ log _ {2} \ left ({\ frac {N-n_ {k}} {n_ {k}}} \ right)}$	Вероятностная обратная частота сбора		`b`	${\ displaystyle 1-s + s {\ frac {b_ {i}} {\ operatorname {avg} (b)}}}$	Нормализация длины повернутого символа ^[2]
	`L`	${\ displaystyle {\ frac {1+ \ log _ {2} (f_ {i_ {k}})} {1+ \ log _ {2} (\ operatorname {avg} (f_ {i_ {k}})) }}}$	Нормализация на основе среднесрочной частоты ^[2]
	`d`	${\ displaystyle 1+ \ log _ {2} (1+ \ log _ {2} (f_ {i_ {k}}))}$	Двойной логарифм

Серые буквы в первом, пятом и девятом столбцах - это схема, использованная Солтоном и Бакли в их статье 1988 года. ^[3] Жирными буквами во втором, шестом и десятом столбцах обозначена схема, использованная в экспериментах, о которых сообщалось после этого.

Внешние ссылки

Наборы программного обеспечения и тестов ^{[ мертвая ссылка ]} (FTP в Корнельском университете )
Интерактивное руководство по SMART ^{[ мертвая ссылка ]}

Эта статья о программной инженерии незавершена . Вы можете помочь Википедии, расширив ее .

[1] Palchowdhury, Sauparna (2016). «О происхождении tf-idf» . sauparna.sdf.org . Проверено 29 июля 2019 .

[:0-2] Сингхал А., Бакли К. и Митра М. (1996). Нормализация длины сводного документа . СИГИР Форум, 51 , 176-184.

[3] Перейти ↑ Salton, G., & Buckley, C. (1988). Подходы с взвешиванием терминов в автоматическом поиске текста . Инф. Процесс. Управ. , 24 , 513-523.

[1]

Система поиска информации SMART

Рекомендации

Внешние ссылки