Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Существование кометы Neowise (здесь изображено в виде ряда красных точек) было обнаружено при анализе астрономических исследований данных , полученных с помощью космического телескопа , в широкоугольном Инфракрасной Survey Explorer .

Наука о данных - это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и идей из многих структурных и неструктурированных данных . [1] [2] Наука о данных связана с интеллектуальным анализом данных , машинным обучением и большими данными .

Наука о данных - это «концепция объединения статистики , анализа данных и связанных с ними методов» для «понимания и анализа реальных явлений» с данными. [3] Он использует методы и теории, взятые из многих областей в контексте математики , статистики , информатики , предметных знаний и информатики . Лауреат премии Тьюринга Джим Грей считал науку о данных «четвертой парадигмой» науки ( эмпирической , теоретической , вычислительной.а теперь на основе данных) и утверждал, что «все в науке меняется из-за воздействия информационных технологий » и потока данных . [4] [5]

Фонды [ править ]

Наука о данных - это междисциплинарная область, ориентированная на извлечение знаний из наборов данных, которые обычно имеют большой размер (см. Большие данные ). [6] Эта область включает анализ, подготовку данных для анализа и представление результатов для принятия решений на высоком уровне в организации. Таким образом, он включает в себя навыки из области информатики, математики, статистики, визуализации информации , графического дизайна, сложных систем , коммуникации и бизнеса. [7] [8] Статистик Натан Яу , опираясь на Бена Фрая , также связывает науку о данных с взаимодействием человека и компьютера.: пользователи должны иметь возможность интуитивно управлять данными и исследовать их. [9] [10] В 2015 году Американская статистическая ассоциация определила управление базами данных , статистику и машинное обучение , а также распределенные и параллельные системы в качестве трех новых основополагающих профессиональных сообществ. [11]

Связь со статистикой [ править ]

Многие статистики, включая Нейта Сильвера , утверждали, что наука о данных - это не новая область, а, скорее, другое название статистики. [12] Другие утверждают, что наука о данных отличается от статистики, потому что она фокусируется на проблемах и методах, уникальных для цифровых данных. [13] Васант Дхар пишет, что статистика подчеркивает количественные данные и описание. В отличие от этого, наука о данных имеет дело с количественными и качественными данными (например, изображениями) и делает упор на прогнозирование и действия. [14] Эндрю Гельман из Колумбийского университета и специалист по анализу данных Винсент Гранвиль охарактеризовали статистику как несущественную часть науки о данных. [15] [16] Стэнфордский профессорДэвид Донохо пишет, что наука о данных не отличается от статистики размером наборов данных или использованием вычислений, и что многие программы для выпускников ошибочно рекламируют свое обучение аналитике и статистике как сущность программы по науке о данных. Он описывает науку о данных как прикладную область, выросшую из традиционной статистики. [17] Таким образом, науку о данных можно охарактеризовать как прикладную отрасль статистики.

Этимология [ править ]

Раннее использование [ править ]

В 1962 году Джон Тьюки описал область, которую он назвал «анализом данных», которая напоминает современную науку о данных. [17] В 1985 году на лекции, прочитанной в Китайской академии наук в Пекине, CF Jeff Wu впервые использовал термин Data Science в качестве альтернативного названия статистики. [18] Позже участники статистического симпозиума 1992 года в Университете Монпелье II признали появление новой дисциплины, ориентированной на данные различного происхождения и форм, сочетающей установленные концепции и принципы статистики и анализа данных с вычислениями. [19] [20]

Термин «наука о данных» появился в 1974 году, когда Питер Наур предложил его в качестве альтернативного названия информатике. [21] В 1996 году Международная федерация классификационных обществ стала первой конференцией, на которой наука о данных была конкретно рассмотрена как тема. [21] Однако определение все еще изменялось. После лекции 1985 года в Китайской академии наук в Пекине в 1997 году CF Джефф Ву снова предложил переименовать статистику в науку о данных. Он рассудил, что новое название поможет статистике избавиться от неточных стереотипов, например, быть синонимом бухгалтерского учета или ограничиваться описанием данных. [22]В 1998 году Чикио Хаяси выступал за науку о данных как новую междисциплинарную концепцию с тремя аспектами: дизайн данных, сбор и анализ. [20]

В 1990-е годы популярные термины для поиска закономерностей в наборах данных (которые становились все более крупными) включали «открытие знаний» и «интеллектуальный анализ данных». [23] [21]

Современное использование [ править ]

Современная концепция науки о данных как независимой дисциплины иногда приписывается Уильяму С. Кливленду . [24] В статье 2001 года он выступал за распространение статистики за пределы теории в технические области; поскольку это существенно изменило бы поле, это потребовало нового названия. [23] «Наука о данных» стала более широко использоваться в следующие несколько лет: в 2002 году Комитет по данным для науки и технологий запустил журнал Data Science Journal. В 2003 году Колумбийский университет запустил The Journal of Data Science . [23] В 2014 г. Американская статистическая ассоциацияРаздел по статистическому обучению и интеллектуальному анализу данных изменил свое название на раздел по статистическому обучению и науке о данных, что отражает растущую популярность науки о данных. [25]

Профессиональное звание «специалист по данным» было присвоено DJ Патилу и Джеффу Хаммербахеру в 2008 году. [26] Хотя оно использовалось Национальным научным советом в своем отчете за 2005 год «Долгоживущие коллекции цифровых данных: обеспечение исследований и образования в XXI век », в широком смысле это относится к любой ключевой роли в управлении сбором цифровых данных. [27]

До сих пор нет единого мнения об определении науки о данных, и некоторые считают это модным словом. [28]

Воздействие [ править ]

Большие данные очень быстро становятся жизненно важным инструментом для предприятий и компаний любого размера. [29] Доступность и интерпретация больших данных изменили бизнес-модели старых отраслей и позволили создать новые. [29] В 2020 году совокупная стоимость предприятий, основанных на данных, составит 1,2 триллиона долларов, что больше 333 миллиардов долларов в 2015 году. [30] Специалисты по данным несут ответственность за разбиение больших данных на полезную информацию и создание программного обеспечения и алгоритмов, которые помогают компаниям и организациям определить оптимальные операции. [30] Поскольку большие данные продолжают оказывать большое влияние на мир, наука о данных оказывает такое же влияние благодаря тесной взаимосвязи между ними. [30]

Технологии и методы [ править ]

Существует множество различных технологий и методов, которые используются в науке о данных, в зависимости от приложения. Совсем недавно были разработаны полнофункциональные сквозные платформы, которые активно используются для анализа данных и машинного обучения.

Методы [ править ]

  • Линейная регрессия
  • Логистическая регрессия
  • Дерево решений используется в качестве моделей прогнозирования для классификации и подбора данных. Древовидную структуру решений можно использовать для создания правил, позволяющих классифицировать или прогнозировать переменную цели / класса / метки на основе атрибутов наблюдения.
  • Машина опорных векторов (SVM)
  • Кластеризация - это метод, используемый для группировки данных.
  • Снижение размерности используется для уменьшения сложности вычисления данных, чтобы его можно было выполнять быстрее.
  • Машинное обучение - это метод, используемый для выполнения задач путем вывода шаблонов из данных.

Языки [ править ]

  • Python - это язык программирования с простым синтаксисом, который обычно используется в науке о данных. [31] Существует ряд библиотек python, которые используются в науке о данных, включая numpy, pandas, Matplotlib и scipy.
  • R - это язык программирования, разработанный для статистиков и интеллектуального анализа данных [32] и оптимизированный для вычислений .
  • Julia - это высокоуровневый, высокопроизводительный динамический язык программирования, хорошо подходящий для численного анализа и вычислений.

Фреймворки [ править ]

  • TensorFlow - это платформа для создания моделей машинного обучения, разработанная Google.
  • Pytorch - еще один фреймворк для машинного обучения, разработанный Facebook.
  • Jupyter Notebook - это интерактивный веб-интерфейс для Python, который позволяет быстрее экспериментировать.
  • Apache Hadoop - это программная среда, которая используется для обработки данных в больших распределенных системах.

Инструменты визуализации [ править ]

  • Plotly предоставляет богатый набор интерактивных научных библиотек для построения графиков.
  • Tableau производит различное программное обеспечение, которое используется для визуализации данных. [33]
  • PowerBI - это сервис бизнес-аналитики от Microsoft.
  • Qlik производит программное обеспечение, такое как QlikView и Qlik Sense, используемое для визуализации данных и бизнес-аналитики.
  • AnyChart предоставляет библиотеки JavaScript и другие инструменты для визуализации данных в диаграммах и информационных панелях.
  • Google Charts - это веб-сервис на основе JavaScript, созданный и поддерживаемый Google для создания графических диаграмм.
  • Sisense предоставляет интерфейс для создания визуализаций данных, включая информационные панели и отчеты.
  • Webix - это набор инструментов пользовательского интерфейса, который включает специальные инструменты для визуализации информации.

Платформы [ править ]

  • RapidMiner - это программная платформа для анализа данных, разработанная одноименной компанией.
  • Dataiku - это программное обеспечение для совместной работы с данными, предназначенное для работы с большими данными.
  • Anaconda предоставляет всеобъемлющий бесплатный дистрибутив языков программирования Python и R с открытым исходным кодом.
  • MATLAB - это вычислительная среда, активно используемая в промышленности и академических кругах.
  • Databricks - это облачная платформа для крупномасштабной инженерии данных и совместной обработки данных.
  • IBM Watson Studio - это облачная платформа, которая предлагает полный набор инструментов для совместной работы с данными для внедрения ИИ в бизнес-приложения.

Ссылки [ править ]

  1. ^ Dhar, В. (2013). «Наука о данных и прогнозирование» . Коммуникации ACM . 56 (12): 64–73. DOI : 10.1145 / 2500499 . S2CID  6107147 . Архивировано 9 ноября 2014 года . Дата обращения 2 сентября 2015 .
  2. Джефф Лик (12 декабря 2013 г.). «Ключевое слово в« Data Science »- это не данные, это наука» . Просто статистика. Архивировано 2 января 2014 года . Проверено 1 января 2014 года .
  3. ^ Hayashi, Chikio (1 января 1998). «Что такое наука о данных? Основные концепции и эвристический пример» . В Хаяси, Чикио; Ядзима, Кейджи; Бок, Ханс-Германн; Осуми, Нобору; Танака, Ютака; Баба, Ясумаса (ред.). Наука о данных, классификация и связанные методы . Исследования в области классификации, анализа данных и организации знаний. Springer Japan. С. 40–51. DOI : 10.1007 / 978-4-431-65950-1_3 . ISBN 9784431702085.
  4. ^ Тони Эй; Стюарт Тэнсли; Кристин Мишель Толле (2009). Четвертая парадигма: научное открытие с большим объемом данных . Microsoft Research. ISBN 978-0-9825442-0-4. Архивировано 20 марта 2017 года . Проверено 16 декабря 2016 .
  5. ^ Белл, G .; Эй, Т .; Салай, А. (2009). «КОМПЬЮТЕРНАЯ НАУКА: За пределами потока данных». Наука . 323 (5919): 1297–1298. DOI : 10.1126 / science.1170411 . ISSN 0036-8075 . PMID 19265007 . S2CID 9743327 .   
  6. ^ «О Data Science | Data Science Association» . www.datascienceassn.org . Дата обращения 3 апреля 2020 .
  7. ^ «1. Введение: Что такое Data Science? - Doing Data Science [Книга]» . www.oreilly.com . Дата обращения 3 апреля 2020 .
  8. ^ "Три сексуальных навыка компьютерных фанатов" . Медрисколл: данные утопичны . Дата обращения 3 апреля 2020 .
  9. Яу, Натан (4 июня 2009 г.). «Повышение ученых данных» . FlowingData . Дата обращения 3 апреля 2020 .
  10. ^ «Базовый пример» . benfry.com . Дата обращения 3 апреля 2020 .
  11. ^ "Заявление ASA о роли статистики в науке о данных" . АМСТАТНОВОСТИ . Американская статистическая ассоциация . 1 октября 2015 года. Архивировано 20 июня 2019 года . Дата обращения 29 мая 2019 .
  12. ^ «Нейт Сильвер: Что мне нужно от статистиков - Статистика просмотров» . www.statisticsviews.com . Дата обращения 3 апреля 2020 .
  13. ^ "В чем разница между наукой о данных и статистикой?" . Прайсономика . Дата обращения 3 апреля 2020 .
  14. ^ DharVasant (1 декабря 2013). «Наука о данных и прогнозирование». Коммуникации ACM . 56 (12): 64–73. DOI : 10.1145 / 2500499 . S2CID 6107147 . 
  15. ^ «Статистика - наименее важная часть науки о данных« Статистическое моделирование, причинный вывод и социальные науки » . statmodeling.stat.columbia.edu . Дата обращения 3 апреля 2020 .
  16. Автор: Винсент Гранвиль, 8 декабря 2014 г., 17:00; Блог, просмотр. «Наука о данных без статистики возможна, даже желательна» . www.datasciencecentral.com . Дата обращения 3 апреля 2020 .
  17. ^ a b Донохо, Дэвид (18 сентября 2015 г.). «50 лет науки о данных» (PDF) . Дата обращения 2 апреля 2020 .
  18. ^ Ву, CF Джефф (1986). «Будущие направления статистических исследований в Китае: историческая перспектива» (PDF) . Применение статистики и управления . 1 : 1–7 . Проверено 29 ноября 2020 .
  19. ^ Наука о данных и ее приложения = La @science des données et ses applications . Escoufier, Yves., Hayashi, Chikio (1918 -...)., Fichet, Bernard. Токио: Academic Press / Harcourt Brace. 1995. ISBN. 0-12-241770-4. OCLC  489990740 .CS1 maint: другие ( ссылка )
  20. ^ a b Муртаг, Фионн; Девлин, Кейт (2018). «Развитие науки о данных: последствия для образования, занятости, исследований и революции данных для устойчивого развития» . Большие данные и когнитивные вычисления . 2 (2): 14. DOI : 10,3390 / bdcc2020014 .
  21. ^ a b c CaoLongbing (29 июня 2017 г.). «Наука о данных» . ACM Computing Surveys . 50 (3): 1–42. DOI : 10.1145 / 3076253 .
  22. ^ Ву, CF Джефф. «Статистика = наука о данных?» (PDF) . Дата обращения 2 апреля 2020 .
  23. ^ a b c Пресса, Гил. «Очень краткая история науки о данных» . Forbes . Дата обращения 3 апреля 2020 .
  24. Гупта, Шанти (11 декабря 2015 г.). "Уильям С. Кливленд" . Дата обращения 2 апреля 2020 .
  25. ^ Тэлли, Джилл (1 июня 2016 г.). «ASA расширяет масштаб, охват для стимулирования роста, сотрудничества в области науки о данных» . Амстат Новости . Американская статистическая ассоциация.
  26. ^ Дэвенпорт, Томас Х .; Патил, ди-джей (1 октября 2012 г.). "Data Scientist: Самая сексуальная работа 21 века" . Harvard Business Review (октябрь 2012 г.). ISSN 0017-8012 . Дата обращения 3 апреля 2020 . 
  27. ^ «US NSF - NSB-05-40, Долгоживущие коллекции цифровых данных, позволяющие проводить исследования и образование в 21 веке» . www.nsf.gov . Дата обращения 3 апреля 2020 .
  28. ^ Нажмите, Гил. "Наука о данных: каков период полураспада модного слова?" . Forbes . Дата обращения 3 апреля 2020 .
  29. ^ а б Фам, Питер. «Влияние больших данных, о которых вы, возможно, не слышали» . Forbes . Дата обращения 3 апреля 2020 .
  30. ^ a b c Мартин, София (20 сентября 2019 г.). «Как наука о данных повлияет на будущее бизнеса?» . Средний . Дата обращения 3 апреля 2020 .
  31. Shell, M Scott (24 сентября 2019 г.). «Введение в Python для научных вычислений» (PDF) . Дата обращения 2 апреля 2020 .
  32. ^ "R FAQ" . cran.r-project.org . Дата обращения 3 апреля 2020 .
  33. Рианна Родос, Маргарет (15 июля 2014 г.). «Совершенно простой инструмент, который позволяет любому создавать интерактивные карты» . Проводной . Дата обращения 3 апреля 2020 .