Публикация данных (также публикация данных ) - это акт публикации исследовательских данных в опубликованной форме для использования другими. Это практика, заключающаяся в подготовке определенных данных или наборов данных для публичного использования, чтобы сделать их доступными для всех, чтобы они могли использовать их по своему желанию. Эта практика является неотъемлемой частью движения за открытую науку . Существует широкий и многопрофильный консенсус в отношении преимуществ этой практики. [1] [2] [3]
Основная цель - сделать данные первоклассными результатами исследований. [4] Есть ряд инициатив, которые находятся в стадии реализации, а также точки консенсуса и вопросы, по-прежнему вызывающие разногласия. [5]
Есть несколько различных способов сделать доступными данные исследований, в том числе:
- публикация данных в качестве дополнительных материалов, связанных с исследовательской статьей , обычно с файлами данных, размещенными издателем статьи.
- размещение данных на общедоступном веб-сайте с файлами, доступными для загрузки
- размещение данных в репозитории, который был разработан для поддержки публикации данных, например, figshare , Dryad , Dataverse , Zenodo . Существует большое количество репозиториев общих и специализированных (например, по темам исследования). [6] Например, Служба данных Великобритании позволяет пользователям размещать коллекции данных и повторно делиться ими в исследовательских целях.
- публикация документа с данными о наборе данных, который может быть опубликован в виде препринта, в журнале или в журнале данных, предназначенном для поддержки документов с данными. Данные могут размещаться в журнале или отдельно в хранилище данных.
Публикация данных позволяет исследователям как сделать свои данные доступными для использования другими, так и позволяет цитировать наборы данных так же, как и другие типы исследовательских публикаций (например, статьи или книги), тем самым позволяя производителям наборов данных получать академическое признание за свою работу.
Мотивы для публикации данных могут варьироваться в зависимости от желания сделать исследования более доступными, обеспечить цитируемость наборов данных или поручений спонсоров исследований или издателей, которые требуют публикации открытых данных. Служба данных Великобритании - одна из ключевых организаций, работающих с другими над повышением важности правильного цитирования данных и оказанием помощи исследователям в этом.
Предлагаемые решения для сохранения конфиденциальности при публикации данных, включая алгоритмы защиты конфиденциальности, методы «маскирования» данных и алгоритм расчета регионального уровня конфиденциальности. [7]
Способы публикации данных
Файлы данных как дополнительный материал
Большое количество журналов и издателей поддерживают добавление дополнительных материалов к исследовательским статьям, включая наборы данных. Хотя раньше такие материалы могли распространяться библиотекам только по запросу или на микроформах , сегодня журналы обычно размещают такие материалы в Интернете. Дополнительные материалы доступны подписчикам журнала или, если статья или журнал в открытом доступе, всем.
Хранилища данных
Существует большое количество репозиториев данных как по общим, так и по специализированным темам. Многие репозитории представляют собой дисциплинарные репозитории , ориентированные на конкретную исследовательскую дисциплину, такую как Служба данных Великобритании, которая является надежным цифровым репозиторием социальных, экономических и гуманитарных данных. Хранилища могут быть бесплатными для исследователей для загрузки своих данных или могут взиматься единовременная или постоянная плата за размещение данных. Эти репозитории предлагают общедоступный веб-интерфейс для поиска и просмотра размещенных наборов данных и могут включать дополнительные функции, такие как идентификатор цифрового объекта , для постоянного цитирования данных и ссылки на связанные опубликованные документы и код.
Документы с данными
Документы с данными - это «научная публикация доступного для поиска документа с метаданными, описывающего конкретный доступный в режиме онлайн набор данных или группу наборов данных, опубликованных в соответствии со стандартной академической практикой». [8] Их конечная цель - предоставить «информацию о том, что, где, почему, как и кто эти данные». [4] Цель информационного документа - предложить описательную информацию о связанных наборах данных с упором на сбор данных, отличительные особенности, доступ и возможное повторное использование, а не на обработку и анализ данных. [9] Поскольку информационные документы считаются академическими публикациями, ничем не отличающимися от других типов документов, они позволяют ученым, обменивающимся данными, получать кредит в валюте, распознаваемой в академической системе, тем самым «делая обмен данными в счет». [10] Это обеспечивает не только дополнительный стимул для обмена данными, но также благодаря процессу коллегиального обзора повышает качество метаданных и, таким образом, возможность повторного использования совместно используемых данных.
Таким образом, информационные документы представляют собой научный коммуникационный подход к обмену данными .
Несмотря на свою потенциальную возможность, информационные бюллетени не являются окончательным и полным решением всех проблем, связанных с совместным использованием и повторным использованием данных, а в некоторых случаях считается, что они вызывают ложные ожидания в исследовательском сообществе. [11]
Журналы данных
Документы с данными поддерживаются большим количеством журналов , некоторые из которых являются «чистыми», т. Е. Предназначены только для публикации статей с данными, в то время как другие - большинство - являются «смешанными», т. Е. Публикуют несколько типов статей, включая данные документы.
Доступен исчерпывающий обзор журналов данных. [12] Неполный список журналов данных был составлен сотрудниками Эдинбургского университета. [13]
Примерами «чистых» журналов данных являются: данные по науке о системе Земли , журнал открытых археологических данных , открытые медицинские данные , журнал полярных данных и научные данные .
Примеры "смешанных" журналов , публикующих документы данных являются: Биоразнообразие журнал данных , F1000Research , GigaScience , GigaByte , PLoS ONE , и SpringerPlus .
Цитирование данных
Цитирование данных - это предоставление точных, последовательных и стандартизированных ссылок для наборов данных, так же как библиографические ссылки предоставляются на другие опубликованные источники, такие как исследовательские статьи или монографии . Обычно используется хорошо зарекомендовавший себя подход цифрового идентификатора объекта (DOI), когда DOI направляет пользователей на веб-сайт , содержащий метаданные в наборе данных и сам набор данных. [14] [15]
Смотрите также
- Архивирование данных
- Реестр хранилищ данных исследований
- Дисциплинарный репозиторий
Рекомендации
- ^ Костелло MJ (2009). «Мотивирующая публикация данных в Интернете». Биология . 59 (5): 418–427. DOI : 10.1525 / bio.2009.59.5.9 .
- ^ Смит VS (2009). «Публикация данных: к базе данных обо всем» . BMC Research Notes . 2 (113): 113. DOI : 10,1186 / 1756-0500-2-113 . PMC 2702265 . PMID 19552813 .
- ^ Лоуренс, B; Jones, C .; Matthews, B .; Pepler, S .; Каллаган, С. (2011). «Цитирование и экспертная оценка данных: движение к официальной публикации данных» . Международный журнал цифрового курирования . 6 (2): 4–37. DOI : 10.2218 / ijdc.v6i2.205 .
- ^ а б Каллаган, С., Донеган, С., Пеплер, С., Торли, М., Каннингем, Н., Кирш, П., Олт, Л., Белл, П., Боуи, Р., Ледбеттер, А., Лоури, Р., Монкойффе, Дж., Харрисон, К., Смит-Хэддон, Б., Уэзерби, А., и Райт, Д. (2012). «Превращение данных в первоклассный научный продукт: цитирование и публикация данных центрами экологических данных NERC» . Международный журнал цифрового курирования . 7 (1): 107–113. DOI : 10.2218 / ijdc.v7i1.218 .CS1 maint: несколько имен: список авторов ( ссылка )
- ^ Кратц Дж, Штрассер С. (2014). «Консенсус и разногласия по поводу публикации данных» . F1000 Исследования . 3 (94): 94. DOI : 10,12688 / f1000research.4518 . PMC 4097345 . PMID 25075301 .
- ^ Assante, M .; Candela, L .; Castelli, D .; Тани, А. (2016). "Справляются ли репозитории научных данных с публикацией исследовательских данных?" . Журнал Data Science . 15 . DOI : 10,5334 / DSJ-2016-006 .
- ^ Чжан, Лунбинь; Ван, Юйсян; Сюй, Сяолян (август 2017 г.). "Гауссова дискретизация на основе логических разделов для онлайн-агрегирования" . 2017 Пятая Международная конференция по современным Клу и Big Data (CBD) . IEEE. DOI : 10,1109 / cbd.2017.39 . ISBN 978-1-5386-1072-5.
- ^ Чаван В. и Пенев Л. (2011). «Документ с данными: механизм стимулирования публикации данных в области науки о биоразнообразии» . BMC Bioinformatics . 12 (15): S2. DOI : 10.1186 / 1471-2105-12-S15-S2 . PMC 3287445 . PMID 22373175 .
- ^ Ньюман Пол; Корк Питер (2009). «Документы с данными - рецензируемая публикация наборов данных высокого качества» . Международный журнал исследований робототехники . 28 (5): 587. DOI : 10,1177 / 0278364909104283 .
- ^ Горголевски К.Дж., Маргулис Д.С., Милхэм М.П. (2013). «Обеспечение важности совместного использования данных: решение на основе публикаций» . Границы неврологии . 7 : 9. дои : 10,3389 / fnins.2013.00009 . PMC 3565154 . PMID 23390412 .
- ^ Парсонс, Массачусетс; Фокс, Пенсильвания (2013). «Является ли публикация данных правильной метафорой?» . Журнал Data Science . 12 : WDS31 – WDS46. DOI : 10.2481 / dsj.WDS-042 .
- ^ Кандела Л., Кастелли Д., Манги П. и Тани А. (2015). «Журналы данных: обзор» . Журнал Ассоциации информационных наук и технологий . 66 (1): 1747–1762. DOI : 10.1002 / asi.23358 .CS1 maint: несколько имен: список авторов ( ссылка )
- ^ https://www.wiki.ed.ac.uk/display/datashare/Sources+of+dataset+peer+review
- ^ Австралийская национальная служба данных: информация о цитировании данных, заархивированная 07марта 2012 г.на Wayback Machine (доступ 20 марта 2012 г.)
- Перейти ↑ Ball, A., Duke, M. (2011). «Цитирование и связывание данных». Информационные документы DCC. Эдинбург: Цифровой центр курирования. Доступно в Интернете: http://www.dcc.ac.uk/resources/briefing-papers/