Наука о данных


Наука о данных — это междисциплинарная область, которая использует научные методы, процессы, алгоритмы и системы для извлечения знаний и идей из зашумленных, структурированных и неструктурированных данных [ 1] [2] и применения знаний и практических идей из данных в широком диапазоне областей применения. . Наука о данных связана с интеллектуальным анализом данных , машинным обучением и большими данными .

Наука о данных — это «концепция объединения статистики , анализа данных , информатики и связанных с ними методов», чтобы «понимать и анализировать фактические явления» с помощью данных. [3] Он использует методы и теории, взятые из многих областей в контексте математики , статистики , компьютерных наук , информатики и предметных знаний . Однако наука о данных отличается от информатики и информатики. Лауреат премии Тьюринга Джим Грей представил науку о данных как «четвертую парадигму» науки ( эмпирическую ,теоретический , вычислительный , а теперь и управляемый данными) и утверждал, что «все в науке меняется из-за влияния информационных технологий » и потока данных . [4] [5]

Ученый по данным — это тот, кто создает программный код и сочетает его со статистическими знаниями для создания идей на основе данных. [6]

Наука о данных — это междисциплинарная область, ориентированная на извлечение знаний из наборов данных, которые, как правило, велики (см. « Большие данные »), а также на применение знаний и практических выводов из данных для решения проблем в широком диапазоне областей применения. [7] Эта область охватывает подготовку данных для анализа, формулирование задач науки о данных, анализ данных, разработку решений, основанных на данных, и представление результатов для обоснования решений высокого уровня в широком диапазоне областей применения. Таким образом, он включает в себя навыки из компьютерных наук, статистики, информатики, математики, визуализации информации , озвучивания данных, интеграции данных, графического дизайна, сложных систем , коммуникации.и бизнес. [8] [9] Статистик Натан Яу , опираясь на Бена Фрая , также связывает науку о данных с взаимодействием человека и компьютера : пользователи должны иметь возможность интуитивно контролировать и исследовать данные. [10] [11] В 2015 году Американская статистическая ассоциация определила управление базами данных , статистику и машинное обучение , а также распределенные и параллельные системы в качестве трех новых основополагающих профессиональных сообществ. [12]

Многие статистики, в том числе Нейт Сильвер , утверждали, что наука о данных — это не новая область, а скорее другое название статистики. [13] Другие утверждают, что наука о данных отличается от статистики тем, что фокусируется на проблемах и методах, уникальных для цифровых данных. [14] Васант Дхар пишет, что статистика делает упор на количественные данные и описание. Напротив, наука о данных имеет дело с количественными и качественными данными (например, изображениями) и делает упор на предсказание и действие. [15] Эндрю Гельман из Колумбийского университета назвал статистику несущественной частью науки о данных. [16] Стэнфордский профессор Дэвид Донохопишет, что наука о данных не отличается от статистики размером наборов данных или использованием вычислений, и что многие программы для выпускников ошибочно рекламируют свое обучение аналитике и статистике как суть программы по науке о данных. Он описывает науку о данных как прикладную область, выросшую из традиционной статистики. [17] Таким образом, науку о данных можно описать как прикладную отрасль статистики.

В 1962 году Джон Тьюки описал область, которую он назвал «анализом данных», которая напоминает современную науку о данных. [17] В 1985 году в лекции, прочитанной в Китайской академии наук в Пекине, CF Джефф Ву впервые использовал термин «наука о данных» в качестве альтернативного названия статистики. [18] Позже участники статистического симпозиума 1992 года в Университете Монпелье II признали появление новой дисциплины, ориентированной на данные различного происхождения и формы, сочетающей устоявшиеся концепции и принципы статистики и анализа данных с вычислениями. [19] [20]


Существование кометы NEOWISE (здесь она изображена в виде серии красных точек) было обнаружено в результате анализа данных астрономического обзора , полученных с помощью космического телескопа Wide -field Infrared Survey Explorer .