Курирование данных - это организация и интеграция данных, собранных из различных источников. Он включает аннотацию, публикацию и представление данных, так что ценность данных сохраняется с течением времени, а данные остаются доступными для повторного использования и сохранения. Курирование данных включает в себя «все процессы, необходимые для принципиального и контролируемого создания, обслуживания и управления данными , а также возможность повышения ценности данных». [1] В науке курирование данных может указывать на процесс извлечения важной информации из научных текстов, таких как исследовательские статьи экспертов, для преобразования в электронный формат, такой как запись в биологической базе данных . [2]
В современную эпоху больших данных обработка данных стала более заметной, особенно для программного обеспечения, обрабатывающего большие объемы и сложные системы данных. [3] Этот термин также используется в исторических случаях и в гуманитарных науках [4], где увеличение количества культурных и научных данных из цифровых гуманитарных проектов требует опыта и аналитических практик курирования данных. [5] В широком смысле, курирование означает целый ряд мероприятий и процессов , выполненных для создания, управления, обслуживания и проверки на компонент . [6] В частности, курирование данных - это попытка определить, какую информацию стоит сохранять и как долго. [7]
История и практика
Пользователя , а не саму базу данных, как правило , инициирует курирование данных и поддерживает метаданные . [8] По данным Высшей школы библиотечных и информационных наук Университета Иллинойса , «курирование данных - это активное и непрерывное управление данными на протяжении всего жизненного цикла, представляющее интерес и полезность для науки, науки и образования; курирование позволяет получать данные. обнаружение и извлечение, поддержание качества, повышение ценности и возможность повторного использования с течением времени ». [9] Рабочий процесс курирования данных отличается от управления качеством данных, защиты данных , управления жизненным циклом и перемещения данных . [8]
Данные переписи были доступны в виде перфокарт в виде таблиц с начала 20-го века и были в электронном виде с 1960-х годов. [10] Веб-сайт Межуниверситетского консорциума политических и социальных исследований (ICPSR) отмечает 1962 год как дату своего первого архива данных опросов. [11]
Подробная информация о библиотеках данных появилась в 1982 году в журнале Иллинойс « Library Trends». [12] Историческую справку о движении архивов данных см. В статье «Потребности в социальной научной информации для числовых данных: эволюция инфраструктуры международных архивов данных». [13] Точный процесс курирования, осуществляемый в любой организации, зависит от объема данных, уровня шума, который они содержат, и того, что ожидаемое будущее использование данных означает для их распространения. [3]
Кризисы в космических данных привели к 1999 созданию открытой информационной системы архивной (OAIS) модели, [14] стюардинг Побочной Консультативного комитета по системам космических данных (CCSDS) , которая была образована в 1982 году [15]
Термин «курирование данных» иногда используется в контексте биологических баз данных , где конкретная биологическая информация сначала получается из ряда исследовательских статей, а затем сохраняется в базе данных определенной категории. Например, информацию об антидепрессивных препаратах можно получить из различных источников, и после проверки того, доступны ли они в виде базы данных, они сохраняются в антидепрессивной категории базы данных лекарств. Предприятия также используют курирование данных в своих операционных и стратегических процессах для обеспечения качества и точности данных. [16] [17]
В медицинской визуализации термин «курирование данных» обычно используется для обозначения корректировок пиксельных данных изображения или метаданных изображения в форматах файлов медицинских изображений, таких как DICOM . Курирование данных также называется этапом обработки, который следует за получением данных визуализации в клинических центрах [ необходимо устранение неоднозначности ] . В качестве этапа обработки курирование данных является общим термином для ряда действий, которые включают в себя управление данными, создание данных, модификацию, проверку, извлечение, интеграцию, стандартизацию, преобразование, обслуживание, обеспечение качества и проверку, а также целостность данных , проверки прослеживаемости и воспроизводимости . [18]
Проекты и исследования
В рамках проекта «Пакеты распространяемой информации для повторного использования информации» (DIPIR) изучаются данные исследований, произведенные и используемые учеными, занимающимися количественными исследованиями, археологами и зоологами. Целевая аудитория - исследователи, которые используют вторичные данные, и кураторы цифровых данных, менеджеры цифровых репозиториев, персонал центров обработки данных и другие лица, которые собирают, управляют и хранят цифровую информацию. [19]
Protein Data Bank был создан в 1971 г. в Брукхейвенской национальной лаборатории , и превратился в глобальный проект. [20] База данных трехмерных структурных данных белков и других крупных биологических молекул, PDB содержит более 120 000 структур, все стандартизированные, проверенные на основании экспериментальных данных и аннотированные.
FlyBase , первичный репозиторий генетических и молекулярных данных для семейства насекомых Drosophilidae , восходит к 1992 году. FlyBase аннотирует весь геном Drosophila melanogaster . [21]
Консорциум данных лингвистический представляет собой хранилище данных для лингвистических данных, начиная с 1992 года [22]
Sky Survey Sloan Digital начал съемки в ночном небе в 2000 году [23] Компьютер ученого Джим Грей , работая над архитектурой данных в SDSS, отстаивал идею курирования данных в науках. [24]
DataNet - это исследовательская программа Управления киберинфраструктуры Национального научного фонда США, финансирующая проекты управления данными в науке. [25] DataONE (Сеть наблюдения за данными для Земли) - один из проектов, финансируемых через DataNet , который помогает сообществу ученых -экологов сохранять данные и обмениваться ими. [26]
Смотрите также
- Биокуратор
- Археология данных
- Ухудшение данных
- Управление форматом данных
- Сохранение данных
- Управление данными
- Обработка данных
- Цифровое курирование - курирование опубликованных документов, а не сырых данных [7]
- Цифровое сохранение
- Информационист - человек с обширным опытом в курировании данных.
Рекомендации
- ↑ Рене Дж. Миллер , «Курирование больших данных» на 20-й Международной конференции по управлению данными (COMAD) 2014 г., Хайдарабад, Индия, 17–19 декабря 2014 г.
- ^ Био творческий глоссарий . Проверено 3 октября, 2016.
- ^ а б Фурхт, Борко; Армандо Эскаланте (2011). Справочник по интенсивным вычислениям . Springer Science & Business Media. п. 32. ISBN 9781461414155. Проверено 2 октября +2016 .
- ^ Сабхарвал, Арджун (2015). Цифровое курирование в цифровых гуманитарных науках: сохранение и продвижение архивных и специальных коллекций . Издательство Чандос. п. 60. ISBN 9780081001783. Проверено 2 октября +2016 .
- ^ «Введение в курирование гуманитарных данных» Джулии Фландерс и Тревора Муньоса http://guide.dhcuration.org/intro/ . Больше недоступно: archive.org
- ^ Пилин Глоссарий . Больше недоступно: archive.org
- ^ а б Боргман, C (2015). Большие данные, мало данных, нет данных: стипендия в сетевом мире . Кембридж, Массачусетс: MIT Press. С. 13 . ISBN 978-0-262-02856-1.
- ^ а б Чессел, Мэнди; Найджел Л. Джонс; Джей Лимберн; Дэвид Рэдли; Кевин Шэнк (2015). Проектирование и эксплуатация резервуара данных . IBM Redbooks. С. 111–113. ISBN 9780837440668. Проверено 2 октября +2016 .
- ^ Крагин, Мелисса; Хайдорн, П. Брайан; Палмер, Кэрол Л .; Смит, Линда С. (2007). «Образовательная программа по курированию данных» . Конференция секции науки и технологий ALA . Проверено 7 октября 2013 года .
- ^ Отчет «Сохранение цифровой информации (PDI)» (PDF) . 1996 . Проверено 13 марта 2018 .
- ^ «МЦПИР: История» . www.icpsr.umich.edu . Проверено 15 марта 2018 .
- ^ Хайм, Кэтлин М. (редактор), Library Trends 30 (3) Winter 1982: Data Libraries for the Social Sciences. Высшая школа библиотечного дела и информатики. Университет Иллинойса в Урбана-Шампейн.
- ^ Кэтлин М. Хайм, «Социальные научные информационные потребности в числовых данных: эволюция инфраструктуры международных архивов данных». в управлении коллекциями 9 (весна 1987): 1-53.
- ^ «Эталонная модель OAIS» . 2015-12-09 . Проверено 15 марта 2018 .
- ^ "CCSDS.org - Консультативный комитет по системам космических данных (CCSDS)" . public.ccsds.org . Проверено 14 марта 2018 .
- ^ E. Карри, А. Фрейтас, С. O'Riáin, «Роль сообщества Driven курирование данных для предприятий,» архивации 2012-01-23 в Wayback Machine в Linking Enterprise Data, Д. Вуд, Ed. Бостон, Массачусетс: Springer US, 2010, стр. 25-47. ISBN 978-1-4419-7664-2
- ^ А. Фрейтас, Э. Карри, «Big Data Curation», Архивировано 13 сентября 2016 г. на Wayback Machine в новых горизонтах для экономики,основанной наданных, Springer (открытый доступ), 2015.
- ^ Диас, Оливер; Кушибар, Кайсар; Осуала, Ричард; Линардос, Акис; Гарручо, Лидия; Игуаль, Лаура; Радева, Петя; Прайор, Фред; Гконтра, Поликсени; Лекадыр, Карим (2021 г.). «Подготовка данных для искусственного интеллекта в медицинской визуализации: подробное руководство по платформам и инструментам с открытым доступом» . Европейский журнал медицинской физики . Проверено 30 апреля 2021 года .
- ^ Проект пакетов информации по распространению для повторного использования информации (DIPIR) http://www.oclc.org/research/themes/user-studies/dipir.html
- ^ «RCSB PDB: об архиве PDB и RCSB PDB» . Об архиве PDB и RCSB PDB . Проверено 15 марта 2018 .
- ^ Грамат, LS; Мэриголд, SJ; душ Сантуш, G; Урбано, JM; Antonazzo, G; Мэтьюз, BB; Рей, AJ; Табоне, CJ; Кросби, Массачусетс; Эммерт, ДБ; Водопад, К; Гудман, JL; Ху, Y; Понтинг, L; Schroeder, AJ; Стрелец, ВБ; Thurmond, J; Чжоу, П; Консорциум FlyBase (2017). «lyBase в 25: взгляд в будущее» . Nucleic Acids Res . 45 (D1): D663 – D671. DOI : 10.1093 / NAR / gkw1016 . PMC 5210523 . PMID 27799470 .
- ^ «О LDC» . Консорциум лингвистических данных . Проверено 15 марта 2018 .
- ^ "Слоан цифровой обзор неба" . SDSS . Проверено 15 марта 2018 .
- ^ Палмер, Кэрол Л .; Вебер, Николас М .; Муньос, Тревор; Ренар, Аллен Х. (июнь 2013 г.). «Основы курации данных: педагогика и практика« целенаправленной работы »с исследовательскими данными». Архив журнала . 3 . ЛВП : 2142/78099 .
- ^ «Краткое изложение программы устойчивого сохранения цифровых данных и доступа к сетевым партнерам (DataNet)» . Национальный фонд науки. 28 сентября 2007 . Проверено 15 марта 2018 года .
- ^ "Что такое DataONE?" . Что такое DataONE? . Проверено 15 марта 2018 .
Внешние ссылки
- Обработка экологических и экологических данных: DataONE
- Инструменты и услуги для управления данными, охватывающие несколько научных дисциплин: DataConservancy