Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В информатике , SimHash это метод быстро оценить , насколько подобные два набора. Алгоритм используется Google Crawler найти вблизи дубликатов страниц. Он был создан дизайнером Moses Charikar . В 2021 году Google объявила об использовании этого алгоритма во вновь созданном FLoC (Federated Learning of Cohorts) . [1]

Оценка и тесты [ править ]

Крупномасштабная оценка была проведена Google в 2006 году [2] для сравнения производительности алгоритмов Minhash и Simhash [3] . В 2007 году Google сообщил об использовании Simhash для обнаружения дубликатов при сканировании веб-страниц [4] и об использовании Minhash и LSH для персонализации новостей Google . [5]

См. Также [ править ]

Ссылки [ править ]

  1. ^ Cyphers, Bennett (2021-03-03). «FLoC от Google - ужасная идея» . Electronic Frontier Foundation . Проверено 13 апреля 2021 .
  2. ^ Хенцингер, Моника (2006), «Поиск почти дублирующих веб-страниц: широкомасштабная оценка алгоритмов», Труды 29-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска , стр. 284, DOI : 10,1145 / 1148170,1148222 , ISBN 978-1595933690.
  3. ^ Чарикар, Моисей С. (2002), "Методы оценки подобия на основе алгоритмов округления", Труды 34-го ежегодного симпозиума ACM по теории вычислений , стр. 380, DOI : 10,1145 / 509907,509965 , ISBN 978-1581134957.
  4. ^ Гермит Сингх, Manku; Джайн, Арвинд; Дас Сарма, Аниш (2007), «Обнаружение почти дубликатов для сканирования Интернета», Труды 16-й Международной конференции по всемирной паутине (PDF) , стр. 141, DOI : 10,1145 / 1242572,1242592 , ISBN  9781595936547.
  5. ^ Das, Abhinandan S .; Датар, Маюр; Гарг, Ашутош; Раджарам, Шьям; и другие. (2007), «Персонализация новостей Google: масштабируемая совместная фильтрация в Интернете», Труды 16-й Международной конференции по всемирной паутине , стр. 271, DOI : 10,1145 / 1242572,1242610 , ISBN 9781595936547.

Внешние ссылки [ править ]

  • Simhash Princeton Paper
  • Симхаш объяснил
  • Сравнение MinHash и Simhash