Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Имя автора «Ли Ли» может относиться к нескольким людям, включая семерых, перечисленных здесь.

Устранение неоднозначности имени автора - это вид устранения неоднозначности и связи записей, применяемый к именам отдельных людей. Процесс может, например, различать людей с именем « Джон Смит ».

Редактор может применить этот процесс к научным документам, цель которых - найти все упоминания одного и того же автора и сгруппировать их вместе. Авторы научных документов часто имеют общие имена, что затрудняет различение работ каждого автора. Следовательно, устранение неоднозначности имени автора направлено на то, чтобы найти все публикации, принадлежащие данному автору, и отличить их от публикаций других авторов с таким же именем.

Методы [ править ]

Для устранения неоднозначности было проведено много исследований. [1] [2] [3] [4] Типичные подходы к устранению неоднозначности имени автора основываются на информации об авторах, такой как их принадлежность, адреса электронной почты, год публикации, соавторы, информация о теме, чтобы различать авторов. Эта информация может использоваться для обучения классификатора машинного обучения, чтобы решить, относятся ли два упоминания автора к одному и тому же автору или нет. [5] Многие исследовательские работы рассматривают устранение неоднозначности имен как проблему кластеризации , то есть разбиение документов на некоторые кластеры, каждый из которых представляет автора. [1] [6] [7]Некоторые работы строят граф документа и используют топологию графа для изучения сходства документов. [7] [8] В последнее время несколько исследовательских работ [8] [9] нацелены на изучение представления низкоразмерных документов с помощью методов сетевого встраивания. [10] [11]

Приложения [ править ]

Некоторые способы указания авторства на одно и то же лицо

Существует несколько причин, по которым имена авторов могут быть неоднозначными, среди которых: люди могут публиковать публикации под несколькими именами по разным причинам, включая различную транслитерацию, орфографические ошибки, изменение имени из-за брака или использование псевдонимов, отчества и инициалов. [12]

Мотивы для устранения неоднозначности включают идентификацию изобретателей по патентам. [13] Устранение неоднозначности имен также является краеугольным камнем в ориентированных на авторов академических системах поиска и интеллектуального анализа данных, таких как ArnetMiner (также AMiner). [14]

Подобные проблемы [ править ]

Устранение неоднозначности имени автора - лишь одна из проблем, связанных с увязкой записей в области научных данных. Тесно связанные и потенциально взаимовыгодные проблемы включают: устранение неоднозначности организации (принадлежности) [15], а также устранение неоднозначности места проведения конференции или публикации, поскольку издатели данных часто используют разные имена или псевдонимы для этих объектов.

Ресурсы [ править ]

Несколько известных тестов для оценки неоднозначности имени автора перечислены ниже, каждый из которых предоставляет публикациям некоторые неоднозначные имена и их основную истину.

Исходные коды

Ссылки [ править ]

  1. ^ а б Хабса, Мадиан; Триратпитук, Пактада; Джайлз, К. Ли (2015). Труды 15-й ACM / IEEE-CE по совместной конференции по электронным библиотекам - JCDL '15 . С. 37–46. DOI : 10.1145 / 2756406.2756915 . ISBN 9781450335942. S2CID  14068285 .
  2. ^ Mann, Gideon S .; Яровский, Дэвид (2003). "Неконтролируемое устранение неоднозначности личного имени". Материалы седьмой конференции по изучению естественного языка на HLT-NAACL 2003 - . 4 . С. 33–40. DOI : 10.3115 / 1119176.1119181 . S2CID 29759924 . 
  3. ^ Хан, Хуэй; Джайлз, Ли; Чжа, Хунъюань; Ли, Ченг; Циуциоуликлис, Костас (2004). «Два подхода к обучению с учителем для устранения неоднозначности имен в цитировании авторов». Материалы совместной конференции ACM / IEEE 2004 г. по электронным библиотекам - JCDL '04 . п. 296. DOI : 10,1145 / 996350,996419 . ISBN 1581138326. S2CID  1089260 .
  4. ^ Хуанг, Цзянь; Эртекин, Сейда; Джайлз, К. Ли (2006). Обнаружение знаний в базах данных: PKDD 2006 . Конспект лекций по информатике. 4213 . С. 536–544. DOI : 10.1007 / 11871637_53 . ISBN 978-3-540-45374-1. ISSN  0302-9743 .
  5. ^ Treeratpituk, Pucktada; Джайлз, К. Ли (2009). Устранение неоднозначности авторов в академических публикациях с использованием случайных лесов (PDF) . Труды 9-й совместной конференции ACM / IEEE-CS по электронным библиотекам. ACM . С. 39–48. CiteSeerX 10.1.1.147.3500 . DOI : 10.1145 / 1555400.1555408 .  
  6. ^ Цзе Тан; ACM Fong; Бо Ван; Цзин Чжан (2012). «Единая вероятностная структура для устранения неоднозначности имен в электронной библиотеке». IEEE Transactions по разработке знаний и данных . IEEE. 24 (6): 975–987. DOI : 10,1109 / TKDE.2011.13 . S2CID 1032074 . 
  7. ^ а б Сюэчжи Ван; Цзе Тан; Хонг Ченг; Филип С. Ю (2011). АДАНА: Активное устранение неоднозначности имени . Материалы Международной конференции IEEE 2011 по интеллектуальному анализу данных . Ванкувер: IEEE. С. 794–803. DOI : 10.1109 / ICDM.2011.19 .
  8. ^ a b c Ютао Чжан; Fanjin Zhang; Пейран Яо; Цзе Тан (2018). Устранение неоднозначности имен в AMiner: кластеризация, обслуживание и человек в цикле . Материалы 24-й Международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных . Лондон: ACM. С. 1002–1011.
  9. ^ Байчуань Чжан; Мохаммад Аль Хасан (2017). Устранение неоднозначности имен в анонимных графах с использованием сетевого внедрения . Материалы конференции ACM 2017 по управлению информацией и знаниями . Сингапур: ACM. С. 1239–1248.
  10. ^ Bryan Perozzi; Рами ар-Рфу; Стивен Скиена (2014). Deepwalk: онлайн-обучение социальных представлений . Материалы 20-й Международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных . Нью-Йорк: ACM. С. 701–710.
  11. ^ Jiezhong Цю; Юйсяо Донг; Хао Ма; Цзянь Ли; Куансан Ван; Цзе Тан (2018). Встраивание сети как матричная факторизация: объединение DeepWalk, LINE, PTE и node2vec . Материалы одиннадцатой международной конференции ACM по веб-поиску и интеллектуальному анализу данных . Марина Дель Рей: ACM. С. 459–467.
  12. ^ Smalheiser, Нил Р .; Торвик, Ветле И. (2009). "Устранение неоднозначности имени автора". Ежегодный обзор информационных наук и технологий . 43 : 1–43. DOI : 10.1002 / aris.2009.1440430113 .
  13. ^ Моррисон, Грег; Риккабони, Массимо; Паммолли, Фабио (16 мая 2017 г.). «Устранение неоднозначности изобретателей патентов и правопреемников с использованием данных геолокации с высоким разрешением» . Научные данные . 4 : 170064. Bibcode : 2017NatSD ... 470064M . DOI : 10.1038 / sdata.2017.64 . PMC 5433392 . PMID 28509897 .  
  14. ^ Цзе Тан; Цзин Чжан; Лимин Яо; Хуанзи Ли; Ли Чжан; Чжун Су (2008). ArnetMiner: добыча и майнинг академических социальных сетей . Материалы 14-й Международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных . Нью-Йорк: ACM. С. 990–998.
  15. ^ Чжан, Цзыци; Нуццолезе, Андреа; Джентиле, Анна Лиза (2017). Дедупликация сущностей в ScholarlyData . Материалы конференции по расширенной семантической сети. Springer-Verlag . С. 85–100. DOI : 10.1007 / 978-3-319-58068-5_6 .