Из Википедии, бесплатной энциклопедии
  (Перенаправлено с CiteSeerX (идентификатор) )
Перейти к навигации Перейти к поиску

CiteSeer x (первоначально называвшийся CiteSeer ) - это общедоступная поисковая система и электронная библиотека для научных и академических статей, в первую очередь в области компьютерных наук и информатики . CiteSeer считается предшественником таких инструментов академического поиска, как Google Scholar и Microsoft Academic Search . [ необходима ссылка ] Механизмы и архивы, подобные CiteSeer, обычно собирают документы только с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в указателе.

Целью CiteSeer является улучшение распространения и доступа к академической и научной литературе. Как некоммерческий сервис, которым может свободно пользоваться кто угодно, он рассматривается как часть движения за открытый доступ , которое пытается изменить академические и научные публикации, чтобы обеспечить больший доступ к научной литературе. CiteSeer бесплатно предоставляет метаданные Open Archives Initiative всех проиндексированных документов и связывает проиндексированные документы, когда это возможно, с другими источниками метаданных, такими как DBLP и ACM Portal . Для продвижения открытых данных , CiteSeer х обменивается данными для некоммерческих целей в соответствии с лицензией Creative Commons.[1]

В какой-то момент CiteSeer изменил свое название на ResearchIndex, а затем вернул его обратно. [ необходима цитата ]

История [ править ]

CiteSeer и CiteSeer.IST [ править ]

CiteSeer был создан исследователями Ли Джайлсом , Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они работали в Исследовательском институте NEC (ныне NEC Labs ) в Принстоне, Нью-Джерси , США. Целью CiteSeer было активное сканирование и сбор академических и научных документов в Интернете и использование автономной индексации цитирования, чтобы разрешить запросы по цитированию или по документу, ранжируя их по влиянию цитирования . Когда-то это называлось ResearchIndex.

CiteSeer стал общедоступным в 1998 году и имел много новых функций, недоступных в то время в академических поисковых системах. К ним относятся:

  • Autonomous Citation Indexing автоматически создает индекс цитирования, который можно использовать для поиска и оценки литературы.
  • Статистика цитирования и связанные документы были рассчитаны для всех статей, цитируемых в базе данных, а не только для проиндексированных статей.
  • Ссылки на ссылки, позволяющие просматривать базу данных с помощью ссылок для цитирования.
  • Контекст цитирования показывает контекст цитирования данной статьи, позволяя исследователю быстро и легко увидеть, что другие исследователи говорят об интересующей статье.
  • Связанные документы были показаны с использованием показателей цитирования и слов, и для каждого документа показана активная и постоянно обновляемая библиография.

CiteSeer был выдан патент США № 6289342 под названием « Автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования » 11 сентября 2001 г. Патент был подан 20 мая 1998 г. и имеет приоритет до 5 января 1998 г. Продолжение патент (патент США № 6738780) был подан 16 мая 2001 г. и выдан 18 мая 2004 г.

После NEC в 2004 году он был размещен как CiteSeer.IST во всемирной паутине Колледжа информационных наук и технологий Университета штата Пенсильвания и содержал более 700 000 документов. Для улучшения доступа, производительности и исследований аналогичные версии CiteSeer были поддержаны в таких университетах, как Массачусетский технологический институт , Цюрихский университет и Национальный университет Сингапура . Однако эти версии CiteSeer оказалось трудно поддерживать, и они больше не доступны. Поскольку CiteSeer индексирует только свободно доступные статьи в Интернете и не имеет доступа к метаданным издателя, он возвращает меньше цитирований, чем сайты, такие как Google Scholar., у которых есть метаданные издателя.

CiteSeer не обновлялся полностью с 2005 года из-за ограничений в его архитектуре. В нем была репрезентативная выборка исследовательских документов в области информатики и информатики, но она была ограничена по охвату, поскольку ограничивалась общедоступными статьями, обычно на домашней странице автора, или теми, которые были представлены автором. Чтобы преодолеть некоторые из этих ограничений, для CiteSeer была разработана модульная архитектура с открытым исходным кодом - CiteSeer x .

CiteSeer x [ править ]

CiteSeer x заменил CiteSeer, и все запросы к CiteSeer были перенаправлены. CiteSeer х [2] является публичной поисковой и цифровая библиотека и хранилище для научных и учебных работ , в первую очередь с акцентом на компьютерной и информационной науки . [2] Однако в последнее время CiteSeer x расширяется в другие области науки, такие как экономика, физика и другие. Выпущенный в 2008 году, он был основан на предыдущей поисковой системе и цифровой библиотеке CiteSeer и построен с новым открытым исходным кодом.инфраструктура, SeerSuite, а также новые алгоритмы и их реализации. Она была разработана исследователями доктора Исаака Councill и д - р С. Ли Giles в колледже информационных наук и технологий , Университета штата Пенсильвания. Он продолжает поддерживать цели, обозначенные CiteSeer, по активному сканированию и сбору академических и научных документов в общедоступной сети, а также использованию запроса цитирования путем цитирования и ранжирования документов по влиянию цитирования. В настоящее время Ли Джайлс, Прасенджит Митра, Сьюзан Гауч, Мин-Йен Кан, Прадип Тереговда, Хуан Пабло Фернандес Рамирес, Пактада Триратпитук, Цзян Ву, Дуглас Джордан, Стив Карман, Джек Кэрролл, Джим Янсен и Шуйи Чжэн активно участвовали или были участвует в его разработке. Недавно появилась возможность поиска по таблице. [3] Он финансируется Национальным научным фондом , НАСА и Microsoft Research .

CiteSeer x продолжает оставаться одним из лучших мировых репозиториев и в июле 2010 года занял первое место. [4] В настоящее время он насчитывает более 6 миллионов документов с почти 6 миллионами уникальных авторов и 120 миллионами ссылок.

CiteSeer x также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время это Amazon S3 и rsync . [5] Его новая модульная архитектура с открытым исходным кодом и программное обеспечение (ранее доступные на SourceForge, но теперь на GitHub ) построены на Apache Solr и других инструментах Apache и с открытым исходным кодом, что позволяет ему быть испытательной площадкой для новых алгоритмов сбора, ранжирования и индексации документов. , и извлечение информации.

CiteSeer x кэширует некоторые отсканированные PDF-файлы. Таким образом, на каждой странице есть ссылка DMCA, которую можно использовать для сообщения о нарушениях авторских прав. [6]

Текущие функции [ править ]

Автоматическое извлечение информации [ править ]

CiteSeer x использует инструменты автоматического извлечения информации , обычно основанные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научных документов, таких как заголовок, авторы, аннотация, цитаты и т. Д. Таким образом, иногда возникают ошибки в авторах и заголовках. Другие академические поисковые системы имеют похожие ошибки.

Целенаправленное сканирование [ править ]

CiteSeer x сканирует общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателя. Таким образом, количество цитирований в CiteSeer x обычно меньше, чем в Google Scholar и Microsoft Academic Search, у которых есть доступ к метаданным издателя.

Использование [ править ]

У CiteSeer x почти 1 миллион пользователей по всему миру с уникальными IP-адресами и миллионы посещений ежедневно. Ежегодное скачивание PDF-файлов с документами в 2015 г.

Данные [ редактировать ]

Данные CiteSeer x регулярно передаются по лицензии Creative Commons BY-NC-SA исследователям по всему миру и используются во многих экспериментах и ​​соревнованиях.

Благодаря своей конечной точке OAI-PMH [7] CiteSeerX является открытым архивом, и его содержимое индексируется как институциональный репозиторий в академических поисковых системах , например, потребителях BASE и Unpaywall .

Другие поисковые системы на базе SeerSuite [ править ]

Модель CiteSeer была расширена для охвата академических документов в бизнесе с помощью SmealSearch и в электронном бизнесе с помощью eBizSearch . Однако их спонсоры не поддерживали их. Более старую версию обоих из них можно было когда-то найти на BizSeer.IST, но она больше не используется.

Другие подобные Seer системы поиска и репозитория были созданы для химии Chem X Seer и для археологии ArchSeer. Другой был создан для поиска файлов robots.txt, BotSeer . Все они построены на инструменте с открытым исходным кодом SeerSuite , который использует индексатор с открытым исходным кодом Lucene .

См. Также [ править ]

  • Arnetminer
  • arXiv
  • Коллекция библиографий по информатике
  • DBLP (проект электронной библиографии и библиотеки)
  • Дисциплинарное хранилище
  • Google ученый
  • Список академических баз данных и поисковых систем
  • Microsoft Academic
  • Исследования по экономике (RePEc)
  • Семантический ученый

Ссылки [ править ]

  1. ^ a b «Политика данных CiteSeerX» . Архивировано из оригинала на 2012-01-05 . Проверено 10 ноября 2015 .
  2. ^ a b "О CiteSeerX" . Проверено 7 мая 2010 .
  3. ^ "Команда CiteSeerX" . Государственный университет Пенсильвании. Архивировано из оригинала на 2018-07-26 . Проверено 1 мая 2018 .
  4. ^ «Рейтинг всемирных репозиториев: 800 лучших репозиториев» . Лаборатория киберметрии. Июль 2010. Архивировано из оригинала на 2010-07-24 . Проверено 24 июля 2010 .
  5. ^ «О данных CiteSeerX» . Государственный университет Пенсильвании. Архивировано из оригинала на 2012-01-05 . Проверено 25 января 2012 .
  6. ^ Например, «CiteSeerx - Уведомление о защите авторских прав в цифровую эпоху». CiteSeerX 10.1.1.604.4916 . Документ с идентификатором «10.1.1.604.4916» был удален из-за уведомления о нарушении закона США "Об авторском праве в цифровую эпоху". Если вы считаете, что удаление произошло по ошибке, свяжитесь с нами через страницу обратной связи, указав идентификатор, указанный на этой странице.  Cite journal requires |journal= (help)
  7. ^ Херст, автор Тони (2011-12-08). «Использование OAI-PMH в качестве интерфейса запросов на уровне единой записи для Citeseer» . Проверено 25 апреля 2020 .

Дальнейшее чтение [ править ]

  • Джайлз, К. Ли; Bollacker, Kurt D .; Лоуренс, Стив (1998). «CiteSeer: автоматическая система индексации цитирования». Труды Третьей конференции ACM по электронным библиотекам . С. 89–98. CiteSeerX  10.1.1.30.6847 . DOI : 10.1145 / 276675.276685 . ISBN 978-0-89791-965-4. S2CID  514080 .

Внешние ссылки [ править ]

  • Официальный сайт CiteSeer x
  • CiteSeerX на GitHub
  • SeerSuite на SourceForge.net (исторический)