Наука о данных


Наука о данных (англ. data science; иногда даталогия — datalogy[1]) — раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных.

Рассматривается как академическая дисциплина[2], а с начала 2010-х годов, во многом благодаря популяризации концепции «больших данных»[3], — и как практическая межотраслевая сфера деятельности, притом специализация исследователя данных (англ. data scientist — «учёного по данным») с начала 2010-х годов считается одной из самых привлекательных, высокооплачиваемых и перспективных профессий[4][5].

Началом формирования выделенной дисциплины считается 1966 год, когда был учреждён Комитет по данным для науки и техники (CODATA)[6], а первое введение термина data science относится к книге Петера Наура 1974 года, в которой он явно определил науку о данных как дисциплину, изучающую жизненный цикл цифровых данных — от появления до преобразования для представления в других областях знаний[7] (существует мнение, что Наур употреблял термин «data science» ещё в конце 1960-х[8]).

Однако, только в 1990-е годы термин, обозначающий дисциплину, получил широкое употребление[9][6] и только в начале 2000-х стал общепризнанным прежде всего благодаря статье статистика Bell Labs Уильяма Кливленда[англ.] (по состоянию на 2012 год — профессор статистики в Университете Пердью), в которой он опубликовал план развития технических аспектов статистических исследований и выделил науку о данных как отдельную академическую дисциплину, в которой эти технические аспекты должны быть сконцентрированы[10][11].

В 2002 году Комитетом по данным для науки и техники начат выпуск журнала CODATA Data Science Journal, содержащего в названии наименование дисциплины, а в январе 2003 года вышел первый номер The Journal of Data Science Колумбийского университета.

Очередной взлёт широкого интереса к науке о данных относится к появлению парадигмы «больших данных», которая фокусируется на новых технологических возможностях обработки данных больших объёмов и разнообразия, в том числе, за счёт применения методов, разрабатываемых в 2000-е годы в науке о данных. С 2011 года O’Reilly проводит серию крупных конференций по науке о данных — Strata[12], корпорация EMC начиная с 2011 года проводит ежегодной саммит по науке о данных[13]. McKinsey в 2011 году спрогнозировал спрос в США на 440—490 тыс. новых специалистов с «глубокими аналитическими навыками по работе с большими данными» к 2018 году и дефицит в 50 % — 60 % в таких специалистах при сохранении образовательных трендов[14], в связи с этим прогнозом во многом был подогрет интерес к созданию учебных программ[15].