SMART (система для механического анализа и поиска текста) ИПС является информационно - поисковой системой , разработанной в Корнельском университете в 1960 - х годах. Многие важные концепции в поиске информации были разработаны в рамках исследования системы SMART [ dead link ] , включая модель векторного пространства , обратную связь по релевантности и классификацию Роккио .
Джерард Солтон возглавил группу, которая разработала SMART. Среди других участников был Майк Леск .
Система SMART также предоставляет набор корпусов, запросов и рейтингов ссылок, взятых из различных предметов, в частности
- ADI [ мертвая ссылка ] : публикации из обзоров информатики
- Информатика
- Коллекция Крэнфилда [ мертвая ссылка ] : публикации из авиационных обзоров
- Судебная медицина: библиотечное дело
- Коллекция медларов [ мертвая ссылка ] : публикации из медицинских обзоров
- Собрание журнала Time : архивы универсального обозрения Time в 1963 г.
К наследию системы SMART принадлежит так называемая тройная нотация SMART, мнемоническая схема для обозначения вариантов взвешивания tf-idf в модели векторного пространства. Мнемоника для представления комбинации весов принимает форму ddd.qqq
, где первые три буквы представляют собой весовой термин для вектора документа коллекции, а вторые три буквы представляют термин весовой коэффициент для вектора документа запроса. Например, ltc.lnn
представляет собой ltc
весовой коэффициент, примененный к документу коллекции, и lnn
весовой коэффициент, примененный к документу запроса.
Следующие таблицы устанавливают нотацию SMART: [1]
представляет вектор документа, где это вес термина в а также количество уникальных терминов в . Положительные характеристики характеризуют термины, которые присутствуют в документе, а нулевой вес используется для терминов, которые отсутствуют в документе. | |||
Частота встречаемости термина в документе | Количество уникальных терминов в документе | ||
Количество инкассовых документов | Среднее количество уникальных терминов в документе | ||
Количество документов со сроком настоящее время | Количество знаков в документе | ||
Частота встречаемости наиболее употребительного термина в документе | Среднее количество символов в документе | ||
Средняя частота встречаемости термина в документе | Статистика глобального сбора | ||
Наклон в контексте нормализации длины повернутого документа [2] |
Частота сроков | Частота документов | Нормализация длины документа | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
b | Двоичный вес | x | n | Не учитывает частоту сбора | x | n | Нет нормализации длины документа | ||||
t | n | Частота необработанных терминов | f | Частота обратного сбора | c | Косинусная нормализация | |||||
a | Увеличенная нормализованная частота терминов | t | Частота обратного сбора | u | Поворотная уникальная нормализация [2] | ||||||
l | Логарифм | p | Вероятностная обратная частота сбора | b | Нормализация длины повернутого символа [2] | ||||||
L | Нормализация на основе среднесрочной частоты [2] | ||||||||||
d | Двойной логарифм |
Серые буквы в первом, пятом и девятом столбцах - это схема, использованная Солтоном и Бакли в их статье 1988 года. [3] Жирными буквами во втором, шестом и десятом столбцах обозначена схема, использованная в экспериментах, о которых сообщалось после этого.
Рекомендации
- ^ Palchowdhury, Sauparna (2016). «О происхождении tf-idf» . sauparna.sdf.org . Проверено 29 июля 2019 .
- ^ a b c d Сингхал А., Бакли К. и Митра М. (1996). Нормализация длины сводного документа . СИГИР Форум, 51 , 176-184.
- Перейти ↑ Salton, G., & Buckley, C. (1988). Подходы с взвешиванием терминов в автоматическом поиске текста . Инф. Процесс. Управ. , 24 , 513-523.
Внешние ссылки
- Наборы программного обеспечения и тестов [ мертвая ссылка ] (FTP в Корнельском университете )
- Интерактивное руководство по SMART [ мертвая ссылка ]