Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

Рост и оцифровка глобальной емкости хранения информации [1]

Большие данные - это область, в которой рассматриваются способы анализа, систематического извлечения информации или иной работы с наборами данных , которые слишком велики или сложны для обработки традиционным прикладным программным обеспечением для обработки данных . Данные с большим количеством полей (столбцов) предлагают большую статистическую мощность , тогда как данные с более высокой сложностью (больше атрибутов или столбцов) могут привести к более высокому уровню ложного обнаружения . [2] Большие проблемы анализа данных включают сбор данные , хранение данных , анализ данных , поиск, совместное использование , передачу , визуализацию ,запросы , обновление, конфиденциальность информации и источник данных. Первоначально большие данные были связаны с тремя ключевыми понятиями: объем , разнообразие и скорость . Анализ больших данных создает проблемы при выборке, и поэтому ранее допускались только наблюдения и выборки. Поэтому большие данные часто включают данные, размеры которых превышают возможности традиционного программного обеспечения для обработки в приемлемые сроки и приемлемые затраты.

Текущее использование термина « большие данные» имеет тенденцию относиться к использованию прогнозной аналитики , аналитики поведения пользователей или некоторых других методов расширенного анализа данных, которые извлекают ценность из больших данных, и редко к конкретному размеру набора данных. «Нет никаких сомнений в том, что объем доступных сейчас данных действительно велик, но это не самая важная характеристика этой новой экосистемы данных». [3] Анализ наборов данных может найти новые корреляции для «выявления тенденций в бизнесе, предотвращения болезней, борьбы с преступностью и так далее». [4] Ученые, руководители предприятий, практикующие врачи, представители рекламы и правительства.одинаково часто сталкиваются с трудностями при работе с большими наборами данных в таких областях, как поиск в Интернете , финансовые технологии , аналитика здравоохранения, географические информационные системы, городская информатика и бизнес-информатика . Ученые сталкиваются с ограничениями в работе над электронной наукой , включая метеорологию , геномику , [5] коннектомику , сложные физические симуляции, биологию и исследования окружающей среды. [6]

Размер и количество доступных наборов данных быстро росли по мере того, как данные собираются такими устройствами, как мобильные устройства , дешевые и многочисленные устройства Интернета вещей с обнаружением информации, антенна ( дистанционное зондирование ), журналы программного обеспечения, камеры , микрофоны, радиочастотная идентификация. (RFID) считыватели и беспроводные сенсорные сети . [7] [8] Технологические возможности хранения информации на душу населения в мире примерно удваивались каждые 40 месяцев с 1980-х годов; [9] с 2012 года каждый день генерируется 2,5 эксабайта (2,5 × 2 60 байтов) данных. [10]Основываясь на прогнозе отчета IDC, прогнозировалось, что глобальный объем данных вырастет экспоненциально с 4,4 зеттабайт до 44 зеттабайт в период с 2013 по 2020 год. К 2025 году IDC прогнозирует, что объем данных будет составлять 163 зеттабайта. [11] Один из вопросов для крупных предприятий - определить, кто должен владеть инициативами в области больших данных, влияющими на всю организацию. [12]

Системы управления реляционными базами данных и настольные статистические программные пакеты, используемые для визуализации данных, часто сталкиваются с трудностями при обработке и анализе больших данных. Для обработки и анализа больших данных может потребоваться «массово-параллельное программное обеспечение, работающее на десятках, сотнях или даже тысячах серверов». [13] То, что квалифицируется как «большие данные», зависит от возможностей тех, кто их анализирует, и их инструментов. Кроме того, расширение возможностей превращает большие данные в подвижную цель. «Для некоторых организаций, впервые столкнувшихся с сотнями гигабайт данных, может возникнуть необходимость пересмотреть варианты управления данными. Для других может потребоваться десятки или сотни терабайт, прежде чем размер данных станет существенным фактором». [14]

Определение [ править ]

Термин « большие данные » используется с 1990-х годов, и некоторые считают, что его популяризировал Джон Маши . [15] [16] Большие данные обычно включает в себя наборы данных с размерами вне способности широко используемых программных средств для захвата , викарий , управлять и обрабатывать данные в пределах терпимой затраченного времени. [17] Философия больших данных включает неструктурированные, полуструктурированные и структурированные данные, однако основное внимание уделяется неструктурированным данным. [18] «Размер» больших данных - это постоянно меняющаяся цель; по состоянию на 2012 год - от нескольких десятков терабайт до многих зеттабайт данных. [19]Для больших данных требуется набор методов и технологий с новыми формами интеграции, позволяющий получать информацию из разнообразных, сложных и крупномасштабных наборов данных . [20]

«Разнообразие», «правдивость» и другие различные «V» добавляются некоторыми организациями для его описания, и это пересмотр оспаривается некоторыми отраслевыми властями. [21] «Против» больших данных часто называют «три против», «четыре против» и «пять против». Они отражают качества больших данных по объему, разнообразию, скорости, достоверности и ценности. [22] Вариабельность часто включается в качестве дополнительного качества больших данных.

Определение 2018 года гласит: «Большие данные - это то, где необходимы инструменты параллельных вычислений для обработки данных», и отмечает: «Это представляет собой отчетливое и четко определенное изменение в используемой компьютерной науке через теории параллельного программирования и потерю некоторых гарантий и возможности, созданные реляционной моделью Кодда " . [23]

Большие данные против бизнес-аналитики [ править ]

Растущая зрелость концепции более четко очерчивает разницу между «большими данными» и « бизнес-аналитикой »: [24]

  • Бизнес-аналитика использует инструменты прикладной математики и описательную статистику с данными с высокой плотностью информации для измерения вещей, выявления тенденций и т. Д.
  • Большие данные используют математический анализ, оптимизацию, индуктивную статистику и концепции нелинейной системной идентификации [25], чтобы вывести законы (регрессии, нелинейные отношения и причинные эффекты) из больших наборов данных с низкой плотностью информации [26], чтобы выявить взаимосвязи и зависимости. или для прогнозирования результатов и поведения. [25] [27] [ рекламный источник? ]

Характеристики [ править ]

Показывает рост основных характеристик больших данных - объема, скорости и разнообразия.

Большие данные можно описать следующими характеристиками:

Объем
Количество сгенерированных и сохраненных данных. Размер данных определяет ценность и потенциальное понимание, а также то, можно ли их считать большими данными или нет. Размер больших данных обычно превышает терабайты и петабайты. [28]
Разнообразие
Тип и характер данных. Ранние технологии, такие как СУБД, были способны эффективно и действенно обрабатывать структурированные данные. Однако изменение типа и характера от структурированного к полуструктурированному или неструктурированному бросило вызов существующим инструментам и технологиям. Технологии больших данных развивались с основной целью собирать, хранить и обрабатывать полуструктурированные и неструктурированные (разнообразные) данные, генерируемые с высокой скоростью (скорость) и огромными по размеру (объему). Позже эти инструменты и технологии были исследованы и использованы для обработки структурированных данных, но предпочтительнее для хранения. В конце концов, обработка структурированных данных по-прежнему оставалась необязательной, либо с использованием больших данных, либо с использованием традиционных СУБД. Это помогает в анализе данных с целью эффективного использования скрытой информации, полученной из данных, собранных через социальные сети, файлы журналов и т. Д.датчики и т. д. Большие данные извлекаются из текста, изображений, аудио, видео; плюс он восполняет недостающие части черезслияние данных .
Скорость
Скорость, с которой данные генерируются и обрабатываются, чтобы соответствовать требованиям и задачам, стоящим на пути роста и развития. Большие данные часто доступны в режиме реального времени. По сравнению с небольшими данными , большие данные производятся более непрерывно. Два типа скорости, связанные с большими данными, - это частота генерации и частота обработки, записи и публикации. [29]
Достоверность
Правдивость или надежность данных, которая относится к качеству данных и ценности данных. [30] Большие данные должны быть не только большими по размеру, но и надежными, чтобы их анализ был ценным. Качество данных захваченных данных может сильно варьироваться, влияя на точный анализ. [31]
Ценить
Ценность информации, которую можно получить путем обработки и анализа больших наборов данных. Ценность также можно измерить путем оценки других качеств больших данных. [32] Ценность также может представлять прибыльность информации, полученной в результате анализа больших данных.
Изменчивость
Характеристика меняющихся форматов, структуры или источников больших данных. Большие данные могут включать структурированные, неструктурированные или комбинации структурированных и неструктурированных данных. Анализ больших данных может включать необработанные данные из нескольких источников. Обработка необработанных данных может также включать преобразование неструктурированных данных в структурированные.

Другие возможные характеристики больших данных: [33]

Исчерпывающий
Будет ли захвачена вся система (т. Е. = Вся ) или нет. Большие данные могут включать или не включать все доступные данные из источников.
Мелкозернистый и уникально лексический
Соответственно, доля конкретных данных каждого элемента в каждом собранном элементе, и если элемент и его характеристики правильно проиндексированы или идентифицированы.
Реляционный
Если собранные данные содержат общие поля, которые позволят объединить или метаанализ различных наборов данных.
Экстенсиональный
Если новые поля в каждом элементе собранных данных могут быть легко добавлены или изменены.
Масштабируемость
Если размер системы хранения больших данных может быстро увеличиваться.

Архитектура [ править ]

Репозитории больших данных существовали во многих формах, часто создаваемые корпорациями с особыми потребностями. Коммерческие поставщики исторически предлагали параллельные системы управления базами данных для больших данных, начиная с 1990-х годов. За много лет WinterCorp опубликовала самый крупный отчет по базе данных. [34] [ рекламный источник? ]

В 1984 году корпорация Teradata выпустила на рынок систему DBC 1012 с параллельной обработкой данных. Системы Teradata были первыми, кто в 1992 году сохранил и проанализировал 1 терабайт данных. В 1991 году объем жестких дисков составлял 2,5 ГБ, поэтому определение больших данных постоянно развивается в соответствии с законом Крайдера . Компания Teradata установила первую систему на основе РСУБД петабайтного класса в 2007 году. По состоянию на 2017 год установлено несколько десятков реляционных баз данных Teradata петабайтного класса, самая большая из которых превышает 50 ПБ. До 2008 года системы были на 100% структурированными реляционными данными. С тех пор Teradata добавила неструктурированные типы данных, включая XML , JSON и Avro.

В 2000 году компания Seisint Inc. (теперь LexisNexis Risk Solutions ) разработала распределенную платформу на основе C ++ для обработки данных и запросов, известную как платформа HPCC Systems . Эта система автоматически разделяет, распределяет, хранит и доставляет структурированные, частично структурированные и неструктурированные данные на несколько стандартных серверов. Пользователи могут писать конвейеры обработки данных и запросы на декларативном языке программирования потоков данных, называемом ECL. Аналитики данных, работающие в ECL, не обязаны заранее определять схемы данных и могут скорее сосредоточиться на конкретной проблеме, изменяя данные наилучшим образом по мере разработки решения. В 2004 году LexisNexis приобрела Seisint Inc. [35]и их платформу высокоскоростной параллельной обработки и успешно использовали эту платформу для интеграции систем данных Choicepoint Inc., когда они приобрели эту компанию в 2008 году. [36] В 2011 году системная платформа HPCC была открыта под Apache v2.0. Лицензия.

ЦЕРН и другие физические эксперименты собирали большие наборы данных в течение многих десятилетий, обычно анализируемые с помощью высокопроизводительных вычислений, а не архитектур с уменьшением карты, обычно подразумеваемых текущим движением «больших данных».

В 2004 году Google опубликовал статью о процессе под названием MapReduce, в котором используется аналогичная архитектура. Концепция MapReduce предоставляет модель параллельной обработки, и была выпущена соответствующая реализация для обработки огромных объемов данных. С помощью MapReduce запросы разделяются и распределяются по параллельным узлам и обрабатываются параллельно (этап «сопоставления»). Затем результаты собираются и доставляются (шаг «уменьшить»). Фреймворк оказался очень успешным [37], поэтому другие захотели воспроизвести алгоритм. Поэтому реализация инфраструктуры MapReduce была принята проектом Apache с открытым исходным кодом под названием « Hadoop ». [38] Apache Spark был разработан в 2012 году в ответ на ограничения парадигмы MapReduce, поскольку он добавляет возможность настраивать множество операций (а не только сопоставление с последующим сокращением).

MIKE2.0 - это открытый подход к управлению информацией, который признает необходимость внесения изменений из-за последствий для больших данных, указанных в статье под названием «Предложение решений для больших данных». [39] Методология обращается к обработке больших данных с точки зрения полезных перестановок источников данных, сложности взаимосвязей и сложности удаления (или изменения) отдельных записей. [40]

Исследования 2012 года показали, что многоуровневая архитектура является одним из вариантов решения проблем, связанных с большими данными. Распределенная параллельная архитектура распределяет данные между несколькими серверами; Эти среды параллельного выполнения могут значительно повысить скорость обработки данных. Этот тип архитектуры вставляет данные в параллельную СУБД, которая реализует использование фреймворков MapReduce и Hadoop. Этот тип инфраструктуры стремится сделать вычислительную мощность прозрачной для конечного пользователя за счет использования внешнего сервера приложений. [41]

Озеро данных позволяет организации сместить акцент с централизованного управления к общей модели реагировать на изменения динамики управления информацией. Это позволяет быстро разделить данные в озеро данных, тем самым сокращая накладные расходы. [42] [43]

Технологии [ править ]

В отчете Глобального института McKinsey за 2011 год основные компоненты и экосистема больших данных описываются следующим образом: [44]

  • Методы анализа данных, такие как A / B-тестирование , машинное обучение и обработка естественного языка.
  • Технологии больших данных, такие как бизнес-аналитика , облачные вычисления и базы данных
  • Визуализация, например диаграммы, графики и другие виды отображения данных

Многомерные большие данные также могут быть представлены в виде кубов данных OLAP или, математически, тензоров . Системы баз данных с массивами предназначены для обеспечения хранения и поддержки запросов высокого уровня для этого типа данных. Дополнительные технологии, применяемые к большим данным, включают эффективные тензорные вычисления [45], такие как многолинейное подпространственное обучение , [46] базы данных с массовой параллельной обработкой ( MPP ), приложения на основе поиска , интеллектуальный анализ данных , [47] распределенные файловые системы , распределенный кеш (например, пакетный буфер и Memcached ),распределенные базы данных , облако и ГПЦ на основе инфраструктуры (приложения, хранение и вычислительные ресурсы), [48] и Интернет. [ необходима цитата ] Несмотря на то, что было разработано много подходов и технологий, по-прежнему сложно проводить машинное обучение с большими данными. [49]

Некоторые реляционные базы данных MPP могут хранить петабайты данных и управлять ими. Подразумевается возможность загружать, отслеживать, создавать резервные копии и оптимизировать использование больших таблиц данных в СУБД . [50] [ рекламный источник? ]

DARPA «s топологический анализ данных Программа направлена на фундаментальную структуру массивных наборов данных и в 2008 году технология огласку с запуском компании под названием„ Ayasdi “. [51] [ необходим сторонний источник ]

Практики процессов анализа больших данных, как правило, враждебно относятся к более медленному общему хранилищу [52], предпочитая хранилище с прямым подключением ( DAS ) в его различных формах, от твердотельного накопителя ( SSD ) до диска SATA большой емкости, скрытого внутри узлов параллельной обработки. Архитектура совместно используемого хранилища - сеть хранения данных (SAN) и хранилище, подключенное к сети (NAS) - воспринимается как относительно медленная, сложная и дорогая архитектура . Эти качества несовместимы с системами анализа больших данных, которые процветают за счет производительности системы, стандартной инфраструктуры и низкой стоимости.

Доставка информации в реальном времени или почти в реальном времени - одна из определяющих характеристик аналитики больших данных. Таким образом, по возможности избегают задержек. Данные в памяти с прямым подключением или на диске в порядке - данные в памяти или на диске на другом конце подключения FC SAN - нет. Стоимость SAN в масштабе, необходимом для аналитических приложений, намного выше, чем у других методов хранения.

У общего хранилища есть как преимущества, так и недостатки в аналитике больших данных, но практики анализа больших данных по состоянию на 2011 год не одобряли его. [53] [ рекламный источник? ]

Приложения [ править ]

Автобус с большими данными SAP, припаркованный за пределами IDF13 .

Большие данные настолько увеличили потребность в специалистах по управлению информацией, что Software AG , Oracle Corporation , IBM , Microsoft , SAP , EMC , HP и Dell потратили более 15 миллиардов долларов на софтверные компании, специализирующиеся на управлении данными и аналитике. В 2010 году эта отрасль стоила более 100 миллиардов долларов и росла почти на 10 процентов в год: примерно в два раза быстрее, чем бизнес программного обеспечения в целом. [4]

Развитые страны все чаще используют технологии, требующие обработки больших объемов данных. В мире насчитывается 4,6 миллиарда абонентов мобильных телефонов, и от 1 до 2 миллиардов человек имеют доступ к Интернету. [4] В период с 1990 по 2005 год более 1 миллиарда человек во всем мире вошли в средний класс, что означает, что больше людей стали более грамотными, что, в свою очередь, привело к росту информации. Эффективная способность мира для обмена информацией через телекоммуникационные сети составляла 281 петабайт в 1986 году, 471 петабайт в 1993 году, 2,2 эксабайта в 2000 году, 65 эксабайт в 2007 году [9], а по прогнозам объем интернет-трафика к 2014 году составит 667 эксабайт в год. [4 ]Согласно одной оценке, одна треть глобально хранимой информации находится в форме буквенно-цифрового текста и данных неподвижных изображений [54], который является наиболее полезным форматом для большинства приложений с большими данными. Это также показывает потенциал еще неиспользованных данных (например, в форме видео- и аудиоконтента).

Хотя многие поставщики предлагают готовые решения для больших данных, эксперты рекомендуют разрабатывать собственные решения, специально адаптированные для решения текущей проблемы компании, если компания обладает достаточными техническими возможностями. [55]

Правительство [ править ]

Использование и принятие больших данных в государственных процессах позволяет повысить эффективность с точки зрения затрат, производительности и инноваций [56], но не лишено недостатков. Анализ данных часто требует, чтобы несколько частей правительства (центрального и местного) работали в сотрудничестве и создавали новые инновационные процессы для достижения желаемого результата. Распространенной правительственной организацией, использующей большие данные, является Управление национальной безопасности ( АНБ ), которое постоянно отслеживает деятельность в Интернете в поисках потенциальных моделей подозрительной или незаконной деятельности, которые может уловить их система.

Служба регистрации актов гражданского состояния и естественного движения населения (CRVS) собирает все свидетельства о статусе от рождения до смерти. CRVS - это источник больших данных для правительств.

Международное развитие [ править ]

Исследования по эффективному использованию информационных и коммуникационных технологий в целях развития (также известные как «ICT4D») показывают, что технологии больших данных могут внести важный вклад, но также представляют собой уникальные проблемы для международного развития . [57] [58] Достижения в области анализа больших данных открывают рентабельные возможности для улучшения процесса принятия решений в важнейших областях развития, таких как здравоохранение, занятость, экономическая производительность , преступность, безопасность, а также управление природными катастрофами и ресурсами. [59] [60] [61] Кроме того, пользовательские данные предлагают новые возможности для передачи голоса неслышным. [62]Однако давние проблемы для развивающихся регионов, такие как неадекватная технологическая инфраструктура и нехватка экономических и человеческих ресурсов, усугубляют существующие проблемы с большими данными, такие как конфиденциальность, несовершенная методология и проблемы взаимодействия. [59] Задача «больших данных для развития» [59] в настоящее время эволюционирует в сторону применения этих данных посредством машинного обучения, известного как «искусственный интеллект для развития» (AI4D). [63]

Преимущества [ править ]

Основным практическим применением больших данных в целях развития была «борьба с бедностью с помощью данных». [64] В 2015 году Блюменсток и его коллеги оценили прогнозируемую бедность и богатство на основе метаданных мобильных телефонов [65], а в 2016 году Джин и его коллеги объединили спутниковые снимки и машинное обучение для прогнозирования бедности. [66] Используя данные цифрового отслеживания для изучения рынка труда и цифровой экономики в Латинской Америке, Хилберт и его коллеги [67] [68] утверждают, что данные цифрового отслеживания имеют несколько преимуществ, таких как:

  • Тематический охват: включая области, которые ранее было трудно или невозможно измерить.
  • Географический охват: наши международные источники предоставили обширные и сопоставимые данные почти по всем странам, включая многие небольшие страны, которые обычно не включаются в международные реестры.
  • Уровень детализации: предоставление детализированных данных со многими взаимосвязанными переменными и новыми аспектами, такими как сетевые соединения.
  • Своевременность и временные ряды: графики могут быть построены в течение нескольких дней после сбора

Проблемы [ править ]

В то же время работа с цифровыми данными трассировки вместо традиционных данных обследований не устраняет традиционных проблем, возникающих при работе в области международного количественного анализа. Приоритеты меняются, но основные обсуждения остаются прежними. Среди основных проблем:

  • Репрезентативность. В то время как традиционная статистика развития в основном касается репрезентативности случайных выборок обследований, цифровые данные никогда не являются случайной выборкой.
  • Обобщаемость. Хотя данные наблюдений всегда очень хорошо представляют этот источник, они представляют только то, что он представляет, и не более того. Хотя заманчиво обобщить конкретные наблюдения одной платформы на более широкие параметры, это часто очень обманчиво.
  • Гармонизация. Цифровые данные трассировки по-прежнему требуют международной гармонизации индикаторов. Это добавляет проблему так называемого «слияния данных», согласования различных источников.
  • Перегрузка данных. Аналитики и учреждения не привыкли эффективно работать с большим количеством переменных, что эффективно выполняется с помощью интерактивных информационных панелей. Практикующим специалистам по-прежнему не хватает стандартного рабочего процесса, который позволил бы исследователям, пользователям и политикам действовать эффективно и результативно. [67]

Здравоохранение [ править ]

Аналитика больших данных помогла улучшить здравоохранение, предоставив персонализированную медицину и предписывающую аналитику, вмешательство в клинические риски и прогнозную аналитику, сокращение потерь и вариативности медицинской помощи, автоматизированную внешнюю и внутреннюю отчетность по данным пациентов, стандартизованные медицинские термины и реестры пациентов и фрагментированные точечные решения. [69] [70] [71] [72] Некоторые области улучшений более желательны, чем реализованы на самом деле. Уровень данных, генерируемых в системах здравоохранения, нетривиален. С появлением мобильного здравоохранения, электронного здравоохранения и носимых технологий объем данных будет продолжать расти. Сюда входит электронная медицинская карта.данные, данные изображений, данные пациентов, данные датчиков и другие формы трудно обрабатываемых данных. В настоящее время существует еще большая потребность в таких средах, чтобы уделять больше внимания качеству данных и информации. [73] «Большие данные очень часто означают« грязные данные », и доля неточностей в данных увеличивается с ростом объема данных». Осмотр человеком в масштабе больших данных невозможен, и службы здравоохранения остро нуждаются в интеллектуальных инструментах для контроля точности и достоверности, а также обработки пропущенной информации. [74] Несмотря на то, что обширная информация в области здравоохранения теперь представлена ​​в электронном виде, она подходит под зонтик больших данных, поскольку большая часть информации неструктурирована и сложна в использовании. [75]Использование больших данных в здравоохранении создает серьезные этические проблемы, начиная от рисков для прав личности, конфиденциальности и автономии и заканчивая прозрачностью и доверием. [76]

Большие данные в медицинских исследованиях особенно перспективны с точки зрения исследовательских биомедицинских исследований, поскольку анализ на основе данных может продвигаться вперед быстрее, чем исследования, основанные на гипотезах. [77] Затем тенденции, наблюдаемые при анализе данных, могут быть проверены в ходе традиционных, основанных на гипотезах последующих биологических исследований и, в конечном итоге, клинических исследований.

Связанная с этим область приложений, которая в значительной степени полагается на большие данные в области здравоохранения, - это компьютерная диагностика в медицине.[78] Например, для мониторинга эпилепсии принято ежедневно создавать от 5 до 10 ГБ данных. [79] Точно так же одно несжатое изображение томосинтеза груди в среднем содержит 450 МБ данных. [80] Это лишь некоторые из многих примеров, когда компьютерная диагностика использует большие данные. По этой причине большие данные были признаны одной из семи ключевых проблем, которые необходимо преодолеть системам компьютерной диагностики, чтобы выйти на новый уровень производительности. [81]

Образование [ править ]

Исследование McKinsey Global Institute выявило нехватку 1,5 миллиона высококвалифицированных специалистов и менеджеров по работе с данными [44], а ряд университетов [82] [ необходим лучший источник ], включая Университет Теннесси и Калифорнийский университет в Беркли , создали магистерские программы для удовлетворения этого спроса. Частные учебные лагеря также разработали программы для удовлетворения этого спроса, включая бесплатные программы, такие как The Data Incubator, или платные программы, такие как General Assembly . [83] В конкретной области маркетинга одна из проблем, подчеркнутая Веделем и Каннаном [84]состоит в том, что у маркетинга есть несколько поддоменов (например, реклама, продвижение, разработка продуктов, брендинг), которые используют разные типы данных. Поскольку универсальные аналитические решения нежелательны, бизнес-школы должны готовить менеджеров по маркетингу к тому, чтобы они обладали обширными знаниями обо всех различных методах, используемых в этих поддоменах, чтобы получить общую картину и эффективно работать с аналитиками.

СМИ [ править ]

Чтобы понять, как СМИ используют большие данные, сначала необходимо предоставить некоторый контекст в механизме, используемом для медиа-процесса. Ник Кулдри и Джозеф Туроу предположили, что специалисты в области СМИ и рекламы подходят к большим данным как к множеству действенных точек информации о миллионах людей. Похоже, что отрасль отходит от традиционного подхода к использованию определенных средств массовой информации, таких как газеты, журналы или телешоу, и вместо этого обращается к потребителям с помощью технологий, которые достигают целевой аудитории в оптимальное время в оптимальных местах. Конечная цель состоит в том, чтобы служить или передать сообщение или контент, который (с точки зрения статистики) соответствует мышлению потребителя. Например,издательская среда все чаще приспосабливает сообщения (рекламные объявления) и контент (статьи) к потребителям, которые были собраны исключительно с помощью различныхинтеллектуальный анализ данных . [85]

  • Таргетинг на потребителей (для рекламы маркетологами) [86]
  • Сбор данных
  • Журналистика данных : издатели и журналисты используют инструменты больших данных для предоставления уникальных и новаторских идей и инфографики .

Channel 4 , британский общественный телеканал, является лидером в области больших данных и анализа данных . [87]

Страхование [ править ]

Поставщики медицинского страхования собирают данные о социальных «детерминантах здоровья», таких как потребление продуктов питания и телевидения , семейное положение, размер одежды и покупательские привычки, на основании которых они делают прогнозы затрат на здоровье, чтобы выявлять проблемы со здоровьем у своих клиентов. Спорный вопрос, используются ли эти прогнозы в настоящее время для ценообразования. [88]

Интернет вещей (IoT) [ править ]

Большие данные и Интернет вещей работают вместе. Данные, извлеченные из устройств IoT, обеспечивают отображение взаимосвязи устройств. Такие сопоставления использовались медиаиндустрией, компаниями и правительствами для более точного нацеливания на свою аудиторию и повышения эффективности СМИ. Интернет вещей также все чаще используется в качестве средства сбора сенсорных данных, и эти сенсорные данные используются в медицине, [89] производстве [90] и транспорте [91] .

Кевин Эштон , эксперт в области цифровых инноваций, которому приписывают создание этого термина [92], определяет Интернет вещей в этой цитате: «Если бы у нас были компьютеры, которые знали бы все, что нужно знать о вещах, используя данные, которые они собирали без какой-либо помощи со стороны нас - мы могли бы отслеживать и подсчитывать все, и значительно сокращать отходы, потери и затраты. Мы знали бы, когда вещи нуждались в замене, ремонте или отзыве, и были ли они свежими или устаревшими ».

Информационные технологии [ править ]

Особенно с 2015 года большие данные заняли видное место в бизнес-операциях как инструмент, помогающий сотрудникам работать более эффективно и оптимизировать сбор и распространение информационных технологий (ИТ). Использование больших данных для решения проблем ИТ и сбора данных на предприятии называется аналитикой ИТ-операций (ITOA). [93] Применяя принципы больших данных к концепциям машинного интеллекта и глубоких вычислений, ИТ-отделы могут прогнозировать потенциальные проблемы и предлагать решения еще до того, как они возникнут. [93] В это время предприятия ITOA также начали играть важную роль в управлении системами.предлагая платформы, которые объединяют отдельные разрозненные хранилища данных и генерируют аналитические данные по всей системе, а не по изолированным ячейкам данных.

Тематические исследования [ править ]

Правительство [ править ]

Китай [ править ]

  • Интегрированная платформа совместных операций (IJOP, 一体化 联合 作战 平台) используется правительством для мониторинга населения, особенно уйгуров . [94] Биометрические данные , включая образцы ДНК, собираются с помощью программы бесплатных медицинских исследований. [95]
  • К 2020 году Китай планирует присвоить всем своим гражданам личную «социальную кредитоспособность», основанную на их поведении. [96] Система социального кредитования , которая сейчас апробируется в ряде китайских городов, считается формой массового наблюдения, в которой используется технология анализа больших данных. [97] [98]

Индия [ править ]

  • Анализ больших данных был опробован для того, чтобы BJP выиграла всеобщие выборы в Индии в 2014 году. [99]
  • Правительство Индии использует многочисленные методы , чтобы выяснить , как индийский электорат реагирует на действия правительства, а также идеи для политики увеличения.

Израиль [ править ]

  • Персонализированные методы лечения диабета могут быть созданы с помощью решения GlucoMe для работы с большими данными. [100]

Соединенное Королевство [ править ]

Примеры использования больших данных в государственных услугах:

  • Данные о лекарствах, отпускаемых по рецепту: соединив происхождение, местонахождение и время каждого рецепта, исследовательское подразделение смогло продемонстрировать значительную задержку между выпуском любого конкретного лекарства и адаптацией Национального института здравоохранения и качества обслуживания в масштабах всей Великобритании. методические рекомендации. Это говорит о том, что новым или самым современным лекарствам требуется некоторое время, чтобы проникнуть к пациенту в целом. [ необходима цитата ]
  • Объединение данных: местные органы власти объединили данные об услугах, таких как ротация дорожного покрытия, с услугами для людей из группы риска, такими как «еда на колесах». Подключение данных позволило местным властям избежать задержек, связанных с погодными условиями. [101]

Соединенные Штаты [ править ]

  • В 2012 году администрация Обамы объявила об Инициативе по исследованиям и развитию больших данных, чтобы изучить, как большие данные могут быть использованы для решения важных проблем, с которыми сталкивается правительство. [102] Инициатива состоит из 84 различных программ больших данных, распределенных по шести департаментам. [103]
  • Анализ больших данных сыграл большую роль в успешной кампании по переизбранию Барака Обамы в 2012 году . [104]
  • Федеральное правительство Соединенных Штатов имеет пять из десяти самых мощных суперкомпьютеров в мире. [105] [106]
  • Центр данных в Юте был построен Агентством национальной безопасности США . По завершении объект сможет обрабатывать большой объем информации, собранной АНБ через Интернет. Точный объем дискового пространства неизвестен, но более свежие источники утверждают, что он будет порядка нескольких эксабайт . [107] [108] [109] Это вызвало проблемы с безопасностью в отношении анонимности собранных данных. [110]

Розничная торговля [ править ]

  • Walmart обрабатывает более 1 миллиона клиентских транзакций каждый час, которые импортируются в базы данных, которые, по оценкам, содержат более 2,5 петабайт (2560 терабайт) данных, что в 167 раз больше информации, содержащейся во всех книгах Библиотеки Конгресса США . [4]
  • Windermere Real Estate использует информацию о местоположении от почти 100 миллионов водителей, чтобы помочь покупателям нового жилья определить типичное время в пути на работу и обратно в разное время дня. [111]
  • Система обнаружения карт FICO защищает счета по всему миру. [112]

Наука [ править ]

  • В Большой Адронный Коллайдер эксперименты представляют около 150 миллионов датчиков доставки данных 40 миллионов раз в секунду. В секунду происходит около 600 миллионов столкновений. После фильтрации и отказа от записи более 99,99995% [113] этих потоков происходит 1000 интересных столкновений в секунду. [114] [115] [116]
    • В результате, работая только с менее чем 0,001% данных потока сенсора, поток данных из всех четырех экспериментов LHC составляет 25 петабайт в год до репликации (по состоянию на 2012 год ). После репликации это становится почти 200 петабайт.
    • Если бы все данные датчиков были записаны на LHC, с потоком данных было бы чрезвычайно сложно работать. Перед репликацией поток данных превысит 150 миллионов петабайт в год, или почти 500 эксабайт в день. Для сравнения: это эквивалентно 500 квинтиллионам (5 × 10 20 ) байтов в день, что почти в 200 раз больше, чем у всех других источников в мире, вместе взятых.
  • Кв.км Массив является радиотелескоп построен из тысяч антенн. Ожидается, что он будет введен в эксплуатацию к 2024 году. Ожидается, что в совокупности эти антенны будут собирать 14 эксабайт и хранить один петабайт в день. [117] [118] Это считается одним из самых амбициозных научных проектов, когда-либо предпринимавшихся. [119]
  • Когда Sloan Digital Sky Survey (SDSS) начал собирать астрономические данные в 2000 году, за первые несколько недель он собрал больше, чем все данные, собранные ранее за всю историю астрономии. Продолжая работать со скоростью около 200 ГБ в сутки, SDSS накапливает более 140 терабайт информации. [4] Когда Большой синоптический обзорный телескоп , преемник SDSS, выйдет в эксплуатацию в 2020 году, его разработчики ожидают, что он будет получать такой объем данных каждые пять дней. [4]
  • Первоначально на расшифровку генома человека потребовалось 10 лет; теперь это можно сделать менее чем за день. Секвенаторы ДНК разделили стоимость секвенирования на 10 000 за последние десять лет, что в 100 раз дешевле, чем снижение стоимости, предсказанное законом Мура . [120]
  • НАСА Центр климата Simulation (NCCS) хранит 32 петабайт климатических наблюдений и моделирования на суперкомпьютерных кластеров Discover. [121] [122]
  • DNAStack от Google собирает и систематизирует образцы ДНК генетических данных со всего мира для выявления заболеваний и других медицинских дефектов. Эти быстрые и точные расчеты устраняют любые «точки трения» или человеческие ошибки, которые мог сделать один из многочисленных экспертов в области науки и биологии, работающих с ДНК. DNAStack, часть Google Genomics, позволяет ученым использовать обширную выборку ресурсов с поискового сервера Google для мгновенного масштабирования социальных экспериментов, которые обычно занимают годы. [123] [124]
  • 23andme «s база ДНК содержит генетическую информацию о более чем 1 миллиона людей во всем мире. [125] Компания изучает возможность продажи «анонимных агрегированных генетических данных» другим исследователям и фармацевтическим компаниям для исследовательских целей, если пациенты дадут свое согласие. [126] [127] [128] [129] [130] Ахмад Харири, профессор психологии и нейробиологии в Университете Дьюка , использующий 23andMe в своих исследованиях с 2009 года, заявляет, что наиболее важным аспектом новой услуги компании является то, что она делает генетические исследования доступными и относительно дешевыми для ученых. [126]Исследование, которое выявило 15 сайтов генома, связанных с депрессией, в базе данных 23andMe, привело к резкому увеличению запросов на доступ к репозиторию с 23andMe, направив почти 20 запросов на доступ к данным о депрессии в течение двух недель после публикации статьи. [131]
  • Вычислительная гидродинамика ( CFD ) и исследования гидродинамической турбулентности генерируют массивные наборы данных. Базы данных турбулентности Джонса Хопкинса ( JHTDB ) содержат более 350 терабайт пространственно-временных полей из прямого численного моделирования различных турбулентных потоков. Такие данные было трудно разделить с использованием традиционных методов, таких как загрузка выходных файлов плоского моделирования. Доступ к данным в JHTDB можно получить с помощью «виртуальных датчиков» с различными режимами доступа, начиная от прямых запросов в веб-браузере, доступа через программы Matlab, Python, Fortran и C, выполняемые на платформах клиентов, до вырезанных служб для загрузки необработанных данных. Данные использованы в более чем 150 научных публикациях.

Спорт [ править ]

Большие данные можно использовать для улучшения тренировок и понимания конкурентов с помощью спортивных датчиков. Также возможно предсказать победителей в матче с помощью аналитики больших данных. [132] Также можно было предсказать будущую производительность игроков. Таким образом, ценность и зарплата игроков определяются данными, собранными в течение сезона. [133]

В гонках Формулы-1 гоночные машины с сотнями датчиков генерируют терабайты данных. Эти датчики собирают данные от давления в шинах до эффективности сжигания топлива. [134] На основе полученных данных инженеры и аналитики данных решают, следует ли вносить коррективы, чтобы выиграть гонку. Кроме того, используя большие данные, гоночные команды пытаются заранее предсказать время, когда они закончат гонку, на основе моделирования с использованием данных, собранных в течение сезона. [135]

Технология [ править ]

  • eBay.com использует два хранилища данных на 7,5 петабайт и 40 Пбайт, а также кластер Hadoop на 40 Пбайт для поиска, рекомендаций потребителям и мерчендайзинга. [136]
  • Amazon.com ежедневно обрабатывает миллионы внутренних операций, а также запросы от более чем полумиллиона сторонних продавцов. Основная технология, обеспечивающая работу Amazon, основана на Linux, и по состоянию на 2005 год у них были три крупнейшие в мире базы данных Linux с емкостью 7,8 ТБ, 18,5 ТБ и 24,7 ТБ. [137]
  • Facebook обрабатывает 50 миллиардов фотографий из своей пользовательской базы. [138] По состоянию на июнь 2017 года количество активных пользователей Facebook составляло 2 миллиарда в месяц . [139]
  • По состоянию на август 2012 года Google обрабатывал около 100 миллиардов запросов в месяц . [140]

COVID-19 [ править ]

Во время пандемии COVID-19 большие данные использовались как способ минимизировать воздействие болезни. Важные применения больших данных включают минимизацию распространения вируса, выявление случаев заболевания и разработку методов лечения. [141]

Правительства использовали большие данные для отслеживания зараженных людей, чтобы свести к минимуму распространение. Среди первых последователей - Китай, Тайвань, Южная Корея и Израиль. [142] [143] [144]

Исследовательская деятельность [ править ]

Зашифрованный поиск и формирование кластеров в больших данных были продемонстрированы в марте 2014 года в Американском обществе инженерного образования. Гаутам Сивах участвует в конференции «Решение проблем больших данных » в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института.и Амир Эсмаилпур из Исследовательской группы UNH исследовали ключевые особенности больших данных, такие как формирование кластеров и их взаимосвязь. Они сосредоточились на безопасности больших данных и ориентации термина на присутствие различных типов данных в зашифрованной форме в облачном интерфейсе, предоставив необработанные определения и примеры в реальном времени в рамках технологии. Более того, они предложили подход к идентификации техники кодирования для продвижения к ускоренному поиску по зашифрованному тексту, ведущему к повышению безопасности в больших данных. [145]

В марте 2012 года Белый дом объявил о национальной «Инициативе по большим данным», в которой шесть федеральных департаментов и агентств вложили более 200 миллионов долларов в исследовательские проекты по большим данным. [146]

Инициатива включала грант Национального научного фонда «Экспедиции в области вычислений» в размере 10 миллионов долларов на пять лет для AMPLab [147] Калифорнийского университета в Беркли. [148] AMPLab также получил средства от DARPA и более десятка промышленных спонсоров и использует большие данные для решения широкого круга проблем, от прогнозирования заторов [149] до борьбы с раком. [150]

Инициатива Белого дома по большим данным также включала обязательство Министерства энергетики выделить 25 миллионов долларов на финансирование в течение пяти лет для создания Института масштабируемого управления данными, анализа и визуализации (SDAV) [151] под руководством Лоуренса Беркли из Министерства энергетики. Лаборатория . Институт SDAV призван объединить опыт шести национальных лабораторий и семи университетов для разработки новых инструментов, которые помогут ученым управлять и визуализировать данные на суперкомпьютерах отдела.

В мае 2012 года штат Массачусетс в США объявил об инициативе Massachusetts Big Data Initiative, которая предоставляет финансирование от правительства штата и частных компаний различным исследовательским учреждениям. [152] В Массачусетском технологическом институте находится Научно-технический центр Intel для больших данных в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института , объединяющий государственные, корпоративные и институциональные средства финансирования и исследования. [153]

Европейская комиссия финансирует двухлетний публично-частный форум по большим данным в рамках своей Седьмой рамочной программы для вовлечения компаний, ученых и других заинтересованных сторон в обсуждение вопросов, связанных с большими данными. Проект направлен на определение стратегии с точки зрения исследований и инноваций для руководства поддерживающими действиями Европейской комиссии по успешному внедрению экономики больших данных. Результаты этого проекта будут использованы в качестве исходных данных для их следующей рамочной программы Horizon 2020 . [154]

В марте 2014 года британское правительство объявило об основании Института Алана Тьюринга , названного в честь пионера компьютеров и взломщика кодов, который сосредоточится на новых способах сбора и анализа больших наборов данных. [155]

В День вдохновения Канадского опыта открытых данных (CODE) кампуса Университета Ватерлоо в Стратфорде участники продемонстрировали, как использование визуализации данных может повысить понимание и привлекательность наборов больших данных и рассказать их историю всему миру. [156]

Вычислительные социальные науки  - любой может использовать интерфейсы прикладного программирования (API), предоставляемые держателями больших данных, такими как Google и Twitter, для проведения исследований в области социальных и поведенческих наук. [157] Часто эти API предоставляются бесплатно. [157] Тобиас Прейс и др. использовали данные Google Trends, чтобы продемонстрировать, что пользователи Интернета из стран с более высоким валовым внутренним продуктом (ВВП) на душу населения с большей вероятностью будут искать информацию о будущем, чем информацию о прошлом. Результаты показывают, что может существовать связь между онлайн-поведением и реальными экономическими показателями. [158] [159] [160]Авторы исследования изучили журналы запросов Google, составленные по соотношению объема поисков за предстоящий год (2011 год) к количеству поисков за предыдущий год (2009 год), что они называют « индексом ориентации на будущее ». [161] Они сравнили индекс ориентации на будущее с ВВП на душу населения в каждой стране и обнаружили сильную тенденцию к увеличению ВВП в странах, где пользователи Google больше интересуются будущим.

Тобиас Прейс и его коллеги Хелен Сюзанна Моут и Х. Юджин Стэнли представили метод определения онлайн-предвестников движений фондового рынка с использованием торговых стратегий, основанных на данных об объеме поиска, предоставленных Google Trends. [162] Их анализ объема поиска в Google по 98 терминам различной финансовой релевантности, опубликованный в Scientific Reports , [163] предполагает, что увеличение объема поиска по финансово релевантным поисковым запросам, как правило, предшествует большим потерям на финансовых рынках. [164] [165] [166] [167] [168] [169] [170]

Наборы больших данных сопряжены с алгоритмическими проблемами, которых раньше не существовало. Следовательно, некоторые видят необходимость в коренном изменении способов обработки. [171]

Семинары по алгоритмам для современных массивов данных (MMDS) собирают компьютерных ученых, статистиков, математиков и специалистов по анализу данных для обсуждения алгоритмических проблем, связанных с большими данными. [172] Что касается больших данных, такие понятия величины относительны. Как утверждается, «если прошлое может служить ориентиром, то сегодняшние большие данные, скорее всего, не будут считаться таковыми в ближайшем будущем». [78]

Выборка больших данных [ править ]

Исследовательский вопрос, который задают о больших наборах данных, заключается в том, нужно ли просматривать полные данные, чтобы сделать определенные выводы о свойствах данных, или достаточно ли хороша выборка. Само название «большие данные» содержит термин, связанный с размером, и это важная характеристика больших данных. Но выборкапозволяет выбрать правильные точки данных из более крупного набора данных для оценки характеристик всей совокупности. При производстве различные типы сенсорных данных, такие как акустика, вибрация, давление, ток, напряжение и данные контроллера, доступны через короткие промежутки времени. Для прогнозирования времени простоя может не потребоваться просмотр всех данных, но выборки может быть достаточно. Большие данные можно разбить по различным категориям точек данных, таким как демографические, психографические, поведенческие и транзакционные данные. Имея большие наборы точек данных, маркетологи могут создавать и использовать более индивидуализированные сегменты потребителей для более стратегического таргетинга.

Была проделана некоторая работа над алгоритмами выборки для больших данных. Разработана теоретическая формулировка выборки данных Twitter. [173]

Критика [ править ]

Критика парадигмы больших данных бывает двух видов: те, которые ставят под сомнение последствия самого подхода, и те, которые ставят под сомнение то, как это делается в настоящее время. [174] Одним из подходов к этой критике является область критических исследований данных .

Критика парадигмы больших данных [ править ]

«Ключевой проблемой является то, что мы мало знаем о лежащих в основе эмпирических микропроцессах, которые приводят к появлению [таких] типичных сетевых характеристик больших данных». [17] В своей критике Снайдерс, Мацат и Рейпс отмечают, что часто делаются очень сильные предположения о математических свойствах, которые могут вовсе не отражать то, что на самом деле происходит на уровне микропроцессов. Марк Грэм резко критиковал утверждение Криса Андерсона о том, что большие данные означают конец теории: [175] уделяя особое внимание понятию, что большие данные всегда должны быть контекстуализированы в их социальном, экономическом и политическом контексте. [176]Даже несмотря на то, что компании вкладывают восьми- и девятизначные суммы, чтобы получить представление об информации, поступающей от поставщиков и клиентов, менее 40% сотрудников обладают достаточно зрелыми процессами и навыками для этого. Согласно статье, опубликованной в Harvard Business Review, для преодоления этого дефицита понимания большие данные, независимо от того, насколько они всеобъемлющи или хорошо проанализированы, должны дополняться «здравым смыслом». [177]

Во многом в том же направлении было указано, что решения, основанные на анализе больших данных, неизбежно «принимаются миром, как это было в прошлом или, в лучшем случае, как оно есть сейчас». [59] Опираясь на большое количество данных о прошлом опыте, алгоритмы могут предсказывать будущее развитие, если будущее похоже на прошлое. [178] Если динамика системы будущего изменяется (если это не стационарный процесс ), прошлое мало что может сказать о будущем. Чтобы делать прогнозы в изменяющейся среде, необходимо иметь полное представление о динамике системы, что требует теории. [178]В ответ на эту критику Алемани Оливер и Вейр предлагают использовать «абдуктивное рассуждение в качестве первого шага в процессе исследования, чтобы привнести контекст в цифровые следы потребителей и вызвать появление новых теорий». [179] Кроме того, было предложено объединить подходы к большим данным с компьютерным моделированием, таким как агентные модели [59] и сложные системы . Агентные модели становятся все лучше в прогнозировании результатов социальных сложностей даже неизвестных будущих сценариев с помощью компьютерного моделирования, основанного на наборе взаимозависимых алгоритмов. [180] [181] Наконец, использование многомерных методов, которые исследуют скрытую структуру данных, таких какфакторный анализ и кластерный анализ оказались полезными в качестве аналитических подходов, которые выходят далеко за рамки двумерных подходов (перекрестных таблиц), обычно используемых с небольшими наборами данных.

В области здравоохранения и биологии традиционные научные подходы основаны на экспериментировании. Для этих подходов ограничивающим фактором являются соответствующие данные, которые могут подтвердить или опровергнуть исходную гипотезу. [182] В настоящее время в бионауках принят новый постулат: информация, предоставляемая данными в огромных объемах ( омикс ) без предварительной гипотезы, дополняет, а иногда и необходима для традиционных подходов, основанных на экспериментах. [183] [184] В массовых подходах ограничивающим фактором является формулировка соответствующей гипотезы для объяснения данных. [185] Логика поиска перевернута, и пределы индукции ("Glory of Science and Philosophy scandal", CD Broad, 1926). [ необходима цитата ]

Защитники конфиденциальности обеспокоены угрозой конфиденциальности , связанной с увеличением объема хранения и интеграции информации, позволяющей установить личность ; группы экспертов выпустили различные рекомендации по политике, чтобы соответствовать практике ожиданиям в отношении конфиденциальности. [186] [187] [188] В некоторых случаях неправомерное использование больших данных средствами массовой информации, компаниями и даже правительством привело к отмене доверия почти ко всем фундаментальным институтам, поддерживающим общество. [189]

Найеф Аль-Родхан утверждает, что потребуется новый вид общественного договора для защиты индивидуальных свобод в контексте больших данных и гигантских корпораций, владеющих огромными объемами информации, и что использование больших данных должно контролироваться и лучше регулироваться на уровне национальный и международный уровни. [190] Барокас и Ниссенбаум утверждают, что один из способов защиты отдельных пользователей - это информирование о типах собираемой информации, о том, кому она предоставляется, при каких ограничениях и для каких целей. [191]

Критика модели "V" [ править ]

V-образная модель больших данных вызывает беспокойство, поскольку она сосредоточена вокруг вычислительной масштабируемости и не имеет потерь в отношении восприимчивости и понятности информации. Это привело к созданию концепции когнитивных больших данных , которая характеризует приложения с большими данными согласно: [192]

  • Полнота данных: понимание неочевидного из данных
  • Корреляция данных, причинно-следственная связь и предсказуемость: причинно-следственная связь как несущественное требование для достижения предсказуемости
  • Объяснимость и интерпретируемость: люди хотят понять и принять то, что они понимают, в то время как алгоритмы с этим не справляются.
  • Уровень автоматического принятия решений: алгоритмы, поддерживающие автоматическое принятие решений и алгоритмическое самообучение.

Критика новизны [ править ]

Большие наборы данных анализировались вычислительными машинами на протяжении более века, в том числе аналитика переписи населения США, выполняемая перфокарточными машинами IBM, которые вычисляли статистику, включая средние и дисперсии населения по всему континенту. В последние десятилетия в результате научных экспериментов, таких как ЦЕРН, были получены данные в масштабах, аналогичных нынешним коммерческим «большим данным». Однако научные эксперименты, как правило, анализируют свои данные с использованием специализированных специально созданных высокопроизводительных вычислительных (суперкомпьютерных) кластеров и сетей, а не облаков дешевых обычных компьютеров, как в нынешней коммерческой волне, что подразумевает различия как в культуре, так и в технологиях. куча.

Критика выполнения больших данных [ править ]

Ульф-Дитрих Рейпс и Уве Мацат писали в 2014 году, что большие данные стали «модой» в научных исследованиях. [157] Исследователь Дана Бойд выразила озабоченность по поводу использования больших данных в науке, пренебрегая такими принципами, как выбор репрезентативной выборки из- за чрезмерной озабоченности обработкой огромных объемов данных. [193] Такой подход может привести к результатам, которые тем или иным образом будут иметь предвзятость . [194]Интеграция разнородных ресурсов данных - одни из которых можно рассматривать как большие данные, а другие нет - представляет собой огромные логистические, а также аналитические проблемы, но многие исследователи утверждают, что такая интеграция, вероятно, представляет собой наиболее многообещающие новые рубежи в науке. [195] В провокационной статье «Критические вопросы для больших данных» [196] авторы называют большие данные частью мифологии : «большие наборы данных предлагают более высокую форму интеллекта и знаний [...] с аурой правда, объективность и точность ». Пользователи больших данных часто «теряются в огромном количестве цифр», а «работа с большими данными по-прежнему является субъективной, и то, что они определяют количественно, не обязательно требует более точного утверждения об объективной истине».[196]Последние разработки в области BI, такие как про-активную отчетность особенно целевые улучшения в удобстве больших объемов данных, с помощью автоматизированных фильтрации из не-полезных данных и корреляций . [197] Большие структуры полны ложных корреляций [198] либо из-за не причинных совпадений ( закон действительно больших чисел ), либо исключительно из-за природы большой случайности [199] ( теория Рамсея ), либо из -за наличия невключенных факторов, так что надежда первых экспериментаторов на то, чтобы заставить большие базы данных чисел «говорить сами за себя» и произвести революцию в научных методах, подвергается сомнению. [200]

Анализ больших данных часто бывает поверхностным по сравнению с анализом небольших наборов данных. [201] Во многих проектах, связанных с большими данными, большой анализ данных не проводится, но проблема заключается в извлечении, преобразовании, загрузке части предварительной обработки данных. [201]

Большие данные - это модное слово и «расплывчатый термин» [202] [203], но в то же время «навязчивая идея» [203] предпринимателей, консультантов, ученых и средств массовой информации. Витрины больших данных, такие как Google Flu Trends, в последние годы не давали хороших прогнозов , поскольку количество вспышек гриппа было завышено в два раза. Точно так же награды Академииа прогнозы о выборах, основанные исключительно на Twitter, чаще оказывались ошибочными, чем целевыми. Большие данные часто создают те же проблемы, что и небольшие данные; добавление дополнительных данных не решает проблемы смещения, но может подчеркнуть другие проблемы. В частности, такие источники данных, как Twitter, не являются репрезентативными для населения в целом, и результаты, полученные из таких источников, могут затем привести к неверным выводам. Google Translate , основанный на статистическом анализе текста с большими данными, хорошо справляется с переводом веб-страниц. Однако результаты в специализированных областях могут быть существенно искажены. С другой стороны, большие данные могут также создавать новые проблемы, такие как проблема множественных сравнений.: одновременная проверка большого набора гипотез может привести к множеству ложных результатов, которые по ошибке кажутся значимыми. Иоаннидис утверждал, что «большинство опубликованных результатов исследований ложны» [204], по сути, из-за одного и того же эффекта: когда многие научные группы и исследователи проводят множество экспериментов (т. Е. Обрабатывают большой объем научных данных, хотя и не с помощью технологии больших данных), вероятность того, что «значимый» результат окажется ложным, быстро растет - тем более, когда публикуются только положительные результаты. Кроме того, результаты аналитики больших данных настолько хороши, насколько хороша модель, на которой они основаны. В одном примере, большие данные принимали участие в попытке предсказать результаты президентских выборов в США в 2016 году [205] с разной степенью успеха.

Критика контроля и наблюдения за большими данными [ править ]

Большие данные использовались в полицейской деятельности и надзоре такими учреждениями, как правоохранительные органы и корпорации . [206] Из-за того, что слежка на основе данных менее заметна по сравнению с традиционными методами контроля, возражения против контроля за большими данными возникают с меньшей вероятностью. По словам Сары Brayne в Большой Surveillance Data: Дело о полиции , [207] большие данные полиции могут воспроизводить существующие социальные неравенства в трех направлениях:

  • Повышение надзора за подозреваемыми преступниками с использованием обоснованного математического и, следовательно, непредвзятого алгоритма
  • Увеличение охвата и числа лиц, подлежащих отслеживанию со стороны правоохранительных органов, и усиление существующей чрезмерной расовой представленности в системе уголовного правосудия
  • Поощрение членов общества к отказу от взаимодействия с учреждениями, которое могло бы создать цифровой след, тем самым создавая препятствия для социальной интеграции

Если эти потенциальные проблемы не будут исправлены или отрегулированы, эффекты контроля над большими данными могут продолжать формировать социальные иерархии. Брейн также отмечает, что сознательное использование контроля над большими данными может предотвратить превращение предубеждений на индивидуальном уровне в институциональные.

В популярной культуре [ править ]

Книги [ править ]

  • Moneyball - это научно-популярная книга, в которой исследуется, как команда Oakland Athletics использовала статистический анализ, чтобы превзойти команды с большим бюджетом. В 2011 году вышла экранизация с Брэдом Питтом в главной роли.
  • «Девятнадцать восемьдесят четыре» - это роман-антиутопия Джорджа Оруэлла . В романе правительство собирает информацию о гражданах и использует эту информацию для поддержания тоталитарного правления.

Фильм [ править ]

  • В Captain America: The Winter Soldier компания HYDRA (замаскированная под SHIELD ) разрабатывает вертолетоносцы, которые используют данные для определения и устранения угроз по всему миру.
  • В The Dark Knight , Бэтмен использует сонар устройство , которое может шпионить все Готэм - Сити . Данные собираются с мобильных телефонов жителей города.

См. Также [ править ]

  • Этика больших данных
  • Модель зрелости больших данных
  • Большая память
  • Курирование данных
  • Хранение данных с определением
  • Происхождение данных
  • Информационная филантропия
  • Наука о данных
  • Датафикация
  • Документно-ориентированная база данных
  • Обработка в памяти
  • Список компаний, занимающихся большими данными
  • Городская информатика
  • Очень большая база данных
  • XLDB

Ссылки [ править ]

  1. ^ Гильберт, Мартин; Лопес, Присцила (2011). «Мировой технологический потенциал для хранения, передачи и вычисления информации» . Наука . 332 (6025): 60–65. Bibcode : 2011Sci ... 332 ... 60H . DOI : 10.1126 / science.1200970 . PMID  21310967 . S2CID  206531385 . Проверено 13 апреля +2016 .
  2. ^ Breur, Том (июль 2016). «Статистический анализ власти и современный« кризис »в социальных науках» . Журнал маркетинговой аналитики . 4 (2–3): 61–65. DOI : 10,1057 / s41270-016-0001-3 . ISSN 2050-3318 . 
  3. ^ бойд, дана; Кроуфорд, Кейт (21 сентября 2011 г.). «Шесть провокаций для больших данных» . Сеть исследований в области социальных наук: десятилетие времени Интернета: симпозиум по динамике Интернета и общества . DOI : 10.2139 / ssrn.1926431 . S2CID 148610111 . 
  4. ^ a b c d e f g "Данные, данные повсюду" . Экономист . 25 февраля 2010 . Проверено 9 декабря 2012 года .
  5. ^ "Сообщество требует сообразительности" . Природа . 455 (7209): 1 сентября 2008 г. Bibcode : 2008Natur.455 .... 1. . DOI : 10.1038 / 455001a . PMID 18769385 . 
  6. ^ Райхман OJ, Джонс MB, Schildhauer MP (февраль 2011). «Вызовы и возможности открытых данных в экологии» . Наука . 331 (6018): 703–5. Bibcode : 2011Sci ... 331..703R . DOI : 10.1126 / science.1197962 . PMID 21311007 . S2CID 22686503 .  
  7. ^ Hellerstein, Джо (9 ноября 2008). «Параллельное программирование в эпоху больших данных» . Блог Gigaom .
  8. ^ Сегаран, Тоби; Хаммербахер, Джефф (2009). Красивые данные: истории, стоящие за элегантными решениями для обработки данных . O'Reilly Media. п. 257. ISBN. 978-0-596-15711-1.
  9. ^ a b Гильберт М., Лопес П. (апрель 2011 г.). «Мировой технологический потенциал для хранения, передачи и вычисления информации» (PDF) . Наука . 332 (6025): 60–5. Bibcode : 2011Sci ... 332 ... 60H . DOI : 10.1126 / science.1200970 . PMID 21310967 . S2CID 206531385 .   
  10. ^ «IBM Что такое большие данные? - Большие данные на предприятии» . ibm.com . Проверено 26 августа 2013 года .
  11. ^ Рейнсел, Дэвид; Ганц, Джон; Райднинг, Джон (13 апреля 2017 г.). «Эпоха данных 2025: эволюция данных до критически важных для жизни» (PDF) . seagate.com . Фрамингем, Массачусетс, США: International Data Corporation . Проверено 2 ноября 2017 года .
  12. ^ Oracle и FSN, «Освоение больших данных: стратегии финансового директора для преобразования понимания в возможности». Архивировано 4 августа 2013 г. на Wayback Machine , декабрь 2012 г.
  13. Перейти ↑ Jacobs, A. (6 июля 2009 г.). «Патологии больших данных» . ACMQueue .
  14. ^ Магулас, Роджер; Лорика, Бен (февраль 2009 г.). «Введение в большие данные» . Релиз 2.0 . Севастополь, Калифорния: O'Reilly Media (11).
  15. ^ Джон Р. Mashey (25 апреля 1998). «Большие данные ... и следующая волна инфра-стресса» (PDF) . Слайды с приглашенного выступления . Usenix . Проверено 28 сентября 2016 года .
  16. Стив Лор (1 февраля 2013 г.). «Истоки« больших данных »: этимологическая детективная история» . Нью-Йорк Таймс . Проверено 28 сентября 2016 года .
  17. ^ а б Снайдерс, C .; Matzat, U .; Reips, U.-D. (2012). « « Большие данные »: большие пробелы в знаниях в области Интернета» . Международный журнал интернет-науки . 7 : 1–5.
  18. ^ Дедич, N .; Станье, К. (2017). «На пути к дифференциации бизнес-аналитики, больших данных, аналитики данных и обнаружения знаний» . Инновации в управлении и проектировании корпоративных информационных систем . Конспект лекций по обработке деловой информации. 285 . Берлин; Гейдельберг: Издательство Springer International. С. 114–122. DOI : 10.1007 / 978-3-319-58801-8_10 . ISBN 978-3-319-58800-1. ISSN  1865-1356 . OCLC  909580101 .
  19. ^ Эвертс, Сара (2016). «Информационная перегрузка» . Дистилляции . Vol. 2 шт. 2. С. 26–33 . Проверено 22 марта 2018 .
  20. ^ Ибрагим; Таргио Хашем, Абакер; Якуб, Ибрар; Бадрул Ануар, Нор; Мохтар, Салима; Гани, Абдулла; Улла Хан, Сами (2015). «большие данные» об облачных вычислениях: обзор и открытые исследования ». Информационные системы . 47 : 98–115. doi : 10.1016 / j.is.2014.07.006 .
  21. ^ Граймс, Сет. «Большие данные: избегайте путаницы» . Информационная неделя . Проверено 5 января +2016 .
  22. ^ "5 V больших данных" . Перспективы Watson Health . 17 сентября 2016 . Проверено 20 января 2021 года .
  23. ^ Фокс, Чарльз (25 марта 2018 г.). Наука о данных для транспорта . Учебники Springer по наукам о Земле, географии и окружающей среде. Springer. ISBN 9783319729527.
  24. ^ "avec focalisation sur Big Data & Analytique" (PDF) . Bigdataparis.com . Проверено 8 октября 2017 года .
  25. ^ a b Биллингс С.А. "Нелинейная идентификация систем: методы NARMAX во временной, частотной и пространственно-временной областях". Вайли, 2013
  26. ^ "Блог ANDSI» DSI Big Data " . Andsi.fr . Проверено 8 октября 2017 года .
  27. Les Echos (3 апреля 2013 г.). "Les Echos - Big Data car Low-Density Data? Faible densité en information compare discriminant - Archives" . Lesechos.fr . Проверено 8 октября 2017 года .
  28. ^ Sagiroglu, Seref (2013). «Большие данные: обзор». Международная конференция по технологиям и системам совместной работы (CTS), 2013 : 42–47. DOI : 10.1109 / CTS.2013.6567202 . ISBN 978-1-4673-6404-1. S2CID  5724608 .
  29. ^ Китчин, Роб; Макардл, Гэвин (17 февраля 2016 г.). «Что делает большие данные большими данными? Изучение онтологических характеристик 26 наборов данных» . Большие данные и общество . 3 (1): 205395171663113. DOI : 10,1177 / 2053951716631130 .
  30. ^ Onay, Джейлан; Озтюрк, Элиф (2018). «Обзор исследований кредитного скоринга в эпоху больших данных». Журнал финансового регулирования и соответствия . 26 (3): 382–405. DOI : 10.1108 / JFRC-06-2017-0054 .
  31. ^ Четвертый V больших данных
  32. ^ «Измерение бизнес-ценности больших данных | IBM Big Data & Analytics Hub» . www.ibmbigdatahub.com . Проверено 20 января 2021 года .
  33. ^ Китчин, Роб; Макардл, Гэвин (5 января 2016 г.). «Что делает большие данные большими данными? Изучение онтологических характеристик 26 наборов данных» . Большие данные и общество . 3 (1): 205395171663113. DOI : 10,1177 / 2053951716631130 . ISSN 2053-9517 . 
  34. ^ «Обзор: Крупнейшие базы данных приближаются к 30 терабайтам» . Eweek.com . Проверено 8 октября 2017 года .
  35. ^ «LexisNexis купит Seisint за 775 миллионов долларов» . Вашингтон Пост . Проверено 15 июля 2004 года .
  36. ^ https://www.washingtonpost.com/wp-dyn/content/article/2008/02/21/AR2008022100809.html
  37. ^ Бертолуччи, Джефф «Hadoop: от эксперимента к ведущей платформе больших данных» , «Информационная неделя», 2013 г. Проверено 14 ноября 2013 г.
  38. ^ Вебстер, Джон. «MapReduce: упрощенная обработка данных в больших кластерах» , «Search Storage», 2004 г. Проверено 25 марта 2013 г.
  39. ^ «Предложение решений для больших данных» . MIKE2.0 . Проверено 8 декабря 2013 года .
  40. ^ «Определение больших данных» . MIKE2.0 . Проверено 9 марта 2013 года .
  41. ^ Boja, C; Почовнику, А; Бэтэган, Л. (2012). «Распределенная параллельная архитектура для больших данных». Informatica Economica . 16 (2): 116–127.
  42. ^ «РЕШЕНИЕ КЛЮЧЕВЫХ ПРОБЛЕМ БИЗНЕСА С БОЛЬШИМ ОЗЕРОМ ДАННЫХ» (PDF) . Hcltech.com . Август 2014 . Проверено 8 октября 2017 года .
  43. ^ «Метод проверки отказоустойчивости фреймворков MapReduce» (PDF) . Компьютерная сеть. 2015 г.
  44. ^ a b Маника, Джеймс; Чуй, Михаил; Бугин, Жак; Браун, Брэд; Доббс, Ричард; Роксбург, Чарльз; Байерс, Анджела Хунг (май 2011 г.). «Большие данные: новый рубеж инноваций, конкуренции и производительности» . Глобальный институт McKinsey . Проверено 16 января +2016 . Цитировать журнал требует |journal=( помощь )
  45. ^ «Будущие направления в тензорных вычислениях и моделировании» (PDF) . Май 2009 г.
  46. ^ Лу, Хайпин; Plataniotis, KN; Венецанопулос, АН (2011). «Обзор мультилинейного обучения подпространству тензорных данных» (PDF) . Распознавание образов . 44 (7): 1540–1551. DOI : 10.1016 / j.patcog.2011.01.004 .
  47. ^ Пллана, Сабри; Янчак, Иван; Брезаны, Питер; Верер, Александр (2016). «Обзор современного состояния языков запросов для интеллектуального анализа данных и интеграции». 2011 14-я Международная конференция по сетевым информационным системам . 2011 Международная конференция по сетевым информационным системам (NBIS 2011) . Компьютерное общество IEEE. С. 341–348. arXiv : 1603.01113 . Bibcode : 2016arXiv160301113P . DOI : 10.1109 / NBiS.2011.58 . ISBN 978-1-4577-0789-6. S2CID  9285984 .
  48. ^ Ван, Яньдун; Голдстоун, Робин; Ю, Вэйкуань; Ван, Тэн (октябрь 2014 г.). «Характеристика и оптимизация резидентного MapReduce в системах HPC». 28-й Международный симпозиум по параллельной и распределенной обработке, 2014 г., IEEE . IEEE. С. 799–808. DOI : 10.1109 / IPDPS.2014.87 . ISBN 978-1-4799-3800-1. S2CID  11157612 .
  49. ^ L'Heureux, A .; Grolinger, K .; Эльяманы, ВЧ; Капрец, МАМ (2017). «Машинное обучение с большими данными: проблемы и подходы» . Доступ IEEE . 5 : 7776–7797. DOI : 10,1109 / ACCESS.2017.2696365 . ISSN 2169-3536 . 
  50. Monash, Curt (30 апреля 2009 г.). «Два огромных хранилища данных на eBay» .
    Монаш, Курт (6 октября 2010 г.). «Продолжение eBay - Greenplum out, Teradata> 10 петабайт, Hadoop имеет некоторую ценность и многое другое» .
  51. ^ «Ресурсы о том, как топологический анализ данных используется для анализа больших данных» . Аясди.
  52. ^ CNET News (1 апреля 2011 г.). «Сети хранения данных не требуются» .
  53. ^ «Как новые аналитические системы повлияют на хранение» . Сентябрь 2011 года архивация с оригинала на 1 марта 2012 года.
  54. ^ Гильберт, Мартин (2014). «Каково содержание мирового технологического информационного и коммуникационного потенциала: сколько текста, изображений, аудио и видео?» . Информационное общество . 30 (2): 127–143. DOI : 10.1080 / 01972243.2013.873748 . S2CID 45759014 . 
  55. ^ Rajpurohit, Anmol (11 июля 2014). «Интервью: Эми Гершкофф, директор по аналитике и аналитике клиентов, eBay, о том, как создавать собственные инструменты бизнес-аналитики» . KDnuggets . Проверено 14 июля 2014 года . Д-р Эми Гершкофф: «Как правило, я считаю, что стандартные инструменты бизнес-аналитики не отвечают потребностям клиентов, которые хотят извлекать из своих данных индивидуальные идеи. Поэтому для средних и крупных организаций, имеющих доступ к сильным техническим талант, я обычно рекомендую создавать индивидуальные решения внутри компании ».
  56. ^ «Правительство и большие данные: использование, проблемы и потенциал» . Компьютерный мир . 21 марта 2012 . Проверено 12 сентября 2016 года .
  57. ^ «Белая книга: большие данные для развития: возможности и проблемы (2012) - Глобальный пульс Организации Объединенных Наций» . Unglobalpulse.org . Проверено 13 апреля +2016 .
  58. ^ «ВЭФ (Всемирный экономический форум) и Vital Wave Consulting. (2012). Большие данные, большое влияние: новые возможности для международного развития» . Всемирный экономический форум . Проверено 24 августа 2012 года .
  59. ^ а б в г д Гильберт, М. (2016). Большие данные для развития: обзор перспектив и проблем. Обзор политики развития, 34 (1), 135–174. https://doi.org/10.1111/dpr.12142 свободный доступ: https://www.martinhilbert.net/big-data-for-development/
  60. ^ "Елена Квочко, Четыре способа поговорить о больших данных (Информационно-коммуникационные технологии для разработки)" . worldbank.org. 4 декабря 2012 . Проверено 30 мая 2012 года .
  61. ^ «Даниэле Медри: большие данные и бизнес: продолжающаяся революция» . Статистика просмотров. 21 октября 2013 г.
  62. Тобиас Кноблох и Юлия Манске (11 января 2016 г.). «Ответственное использование данных» . D + C, Развитие и сотрудничество .
  63. Перейти ↑ Mann, S., & Hilbert, M. (2020). AI4D: искусственный интеллект для развития. Международный журнал коммуникации, 14 (0), 21. https://www.martinhilbert.net/ai4d-artificial-intelligence-for-development/
  64. ^ Blumenstock, JE (2016). Борьба с бедностью с помощью данных. Наука, 353 (6301), 753–754. https://doi.org/10.1126/science.aah5217
  65. ^ Blumenstock J., Cadamuro G., & О, Р. (2015). Прогнозирование бедности и богатства по метаданным мобильного телефона. Наука, 350 (6264), 1073–1076. https://doi.org/10.1126/science.aac4420
  66. ^ Жан, Н., Берк, М., С, М., Дэвис, WM, Lobell, БД, & Ermon, С. (2016). Сочетание спутниковых снимков и машинного обучения для прогнозирования бедности. Наука, 353 (6301), 790–794. https://doi.org/10.1126/science.aaf7894
  67. ^ a b Гильберт, М., и Лу, К. (2020). Отслеживание онлайн-рынка труда в Латинской Америке и Карибском бассейне (UN ECLAC LC / TS.2020 / 83; стр. 79). Экономическая комиссия ООН для Латинской Америки и Карибского бассейна. https://www.cepal.org/en/publications/45892-online-job-market-trace-latin-america-and-car Caribbean
  68. ^ ЭКЛАК ООН (Экономическая комиссия ООН для Латинской Америки и Карибского бассейна). (2020). Отслеживание цифрового следа в Латинской Америке и Карибском бассейне: уроки, извлеченные из использования больших данных для оценки цифровой экономики (производственное развитие, гендерные вопросы LC / TS.2020 / 12; Documentos de Proyecto). ЭКЛАК ООН. https://repositorio.cepal.org/handle/11362/45484
  69. ^ Huser В, Симино JJ (июль 2016). «Надвигающиеся проблемы использования больших данных» . Международный журнал радиационной онкологии, биологии, физики . 95 (3): 890–894. DOI : 10.1016 / j.ijrobp.2015.10.060 . PMC 4860172 . PMID 26797535 .  
  70. ^ Сейдич, Эрвин; Фальк, Тьяго Х. (4 июля 2018 г.). Обработка сигналов и машинное обучение для больших биомедицинских данных . Сейдич, Эрвин, Фальк, Тьяго Х. [Место публикации не указано]. ISBN 9781351061216. OCLC  1044733829 .
  71. ^ Raghupathi Вт, Raghupathi V (декабрь 2014). «Аналитика больших данных в здравоохранении: перспективы и потенциал» . Информационная наука и системы здравоохранения . 2 (1): 3. DOI : 10,1186 / 2047-2501-2-3 . PMC 4341817 . PMID 25825667 .  
  72. ^ Viceconti М, Р Хантер, шланг R (июль 2015). «Большие данные, большие знания: большие данные для персонализированного здравоохранения» (PDF) . Журнал IEEE по биомедицинской и медицинской информатике . 19 (4): 1209–15. DOI : 10,1109 / JBHI.2015.2406883 . PMID 26218867 . S2CID 14710821 .   
  73. ^ О'Донохью, Джон; Герберт, Джон (1 октября 2012 г.). «Управление данными в среде мобильного здравоохранения: датчики пациента, мобильные устройства и базы данных». Журнал качества данных и информации . 4 (1): 5: 1–5: 20. DOI : 10.1145 / 2378016.2378021 . S2CID 2318649 . 
  74. ^ Mirkes Е.М., пальто т, J Levesley, Горбань А.Н. (август 2016). «Обработка недостающих данных в большом наборе медицинских данных: тематическое исследование неизвестных исходов травм». Компьютеры в биологии и медицине . 75 : 203–16. arXiv : 1604.00627 . Bibcode : 2016arXiv160400627M . DOI : 10.1016 / j.compbiomed.2016.06.004 . PMID 27318570 . S2CID 5874067 .  
  75. Перейти ↑ Murdoch TB, Detsky AS (апрель 2013 г.). «Неизбежное применение больших данных в здравоохранении». ДЖАМА . 309 (13): 1351–2. DOI : 10,1001 / jama.2013.393 . PMID 23549579 . 
  76. ^ Vayena Е, Salathe М, Мэдофф LC, Броунстеин JS (февраль 2015). «Этические проблемы больших данных в общественном здравоохранении» . PLOS Вычислительная биология . 11 (2): e1003904. Bibcode : 2015PLSCB..11E3904V . DOI : 10.1371 / journal.pcbi.1003904 . PMC 4321985 . PMID 25664461 .  
  77. Copeland, CS (июль – август 2017 г.). «Открытие, управляющее данными» (PDF) . Журнал здравоохранения Нового Орлеана : 22–27.
  78. ^ а б Янасэ Дж, Триантафиллу Э (2019). «Систематический обзор компьютерной диагностики в медицине: прошлое и настоящее». Экспертные системы с приложениями . 138 : 112821. DOI : 10.1016 / j.eswa.2019.112821 .
  79. ^ Донг Х, Bahroos Н, Садху Е, Т Джексон, Чухман М, Джонсон R, Бойд А, Хайнз D (2013). «Используйте структуру Hadoop для крупномасштабных приложений клинической информатики». Совместные саммиты AMIA по трансляционным научным исследованиям. Совместные саммиты AMIA по трансляционной науке . 2013 : 53. PMID 24303235 . 
  80. ^ Clunie D (2013). «Томосинтез груди бросает вызов инфраструктуре цифровой визуализации» . Цитировать журнал требует |journal=( помощь )
  81. ^ Янасе Дж, Триантафилл Е (2019). «Семь ключевых вызовов будущего компьютерной диагностики в медицине». Журнал медицинской информатики . 129 : 413–422. DOI : 10.1016 / j.ijmedinf.2019.06.017 . PMID 31445285 . 
  82. ^ «Дипломы в больших данных: причуда или быстрый путь к успеху в карьере» . Forbes . Проверено 21 февраля +2016 .
  83. ^ «Нью-Йорк получает новый учебный лагерь для специалистов по данным: это бесплатно, но труднее попасть, чем в Гарвард» . Венчурный бит . Проверено 21 февраля +2016 .
  84. ^ Ведель, Мишель; Каннан, ПК (2016). «Маркетинговая аналитика для сред с большим количеством данных». Журнал маркетинга . 80 (6): 97–121. DOI : 10,1509 / jm.15.0413 . S2CID 168410284 . 
  85. ^ Кулдри, Ник; Туров, Джозеф (2014). «Реклама, большие данные и очистка публичного пространства: новые подходы маркетологов к субсидии на контент». Международный журнал коммуникации . 8 : 1710–1726.
  86. ^ «Почему агентства цифровой рекламы не справляются с приобретением и остро нуждаются в обновлении с помощью искусственного интеллекта» . Ishti.org . 15 апреля 2018 . Проверено 15 апреля 2018 года .
  87. ^ «Большие данные и аналитика: C4 и Genius Digital» . Ibc.org . Проверено 8 октября 2017 года .
  88. Маршалл Аллен (17 июля 2018 г.). «Медицинские страховые компании собирают подробности о вас - и это может повысить ваши ставки» . www.propublica.org . Проверено 21 июля 2018 .
  89. ^ "QuiO назван чемпионом по инновациям в конкурсе Accenture HealthTech Innovation Challenge" . Businesswire.com . 10 января 2017 . Проверено 8 октября 2017 года .
  90. ^ «Программная платформа для технологических инноваций» (PDF) . Predix.com . Проверено 8 октября 2017 года .
  91. ^ Z. Jenipher Ван (март 2017). «Интеллектуальный транспорт, управляемый большими данными: основная история мобильности, трансформированной в Интернет вещей» .
  92. ^ "Это Интернет вещей" .
  93. ^ a b Сольник, Рэй. «Время пришло: аналитика для ИТ-операций» . Журнал центра обработки данных . Проверено 21 июня +2016 .
  94. Джош Рогин (2 августа 2018 г.). «Этническая чистка возвращается - в Китае» (Washington Post) . Проверено 4 августа 2018 . Добавьте к этому беспрецедентное состояние безопасности и наблюдения в Синьцзяне, которое включает в себя всеобъемлющий мониторинг на основе удостоверений личности, контрольно-пропускных пунктов, распознавания лиц и сбора ДНК миллионов людей. Власти загружают все эти данные в машину с искусственным интеллектом, которая оценивает лояльность людей к Коммунистической партии, чтобы контролировать каждый аспект их жизни.
  95. ^ «Китай: большие данные способствуют разгрому в регионе меньшинств: программа прогнозирования полицейских помечает людей для расследования, задержания» . hrw.org . Хьюман Райтс Вотч. 26 февраля 2018 . Проверено 4 августа 2018 .
  96. ^ «Дисциплина и наказание: рождение социальной кредитной системы Китая» . Нация . 23 января 2019.
  97. ^ «Китайская система мониторинга поведения запрещает некоторым путешествовать и покупать недвижимость» . CBS News . 24 апреля 2018.
  98. ^ «Сложная правда о системе социального кредита Китая» . ПРОВОДНОЙ . 21 января 2019.
  99. ^ "Новости: Live Mint" . Достаточно ли понимают индийские компании большие данные? . Живая мята. 23 июня 2014 . Проверено 22 ноября 2014 года .
  100. ^ «Израильский стартап использует большие данные, минимальное оборудование для лечения диабета» . Проверено 28 февраля 2018 .
  101. ^ «Последние достижения мобильных облачных вычислений и Интернета вещей для приложений больших данных: обзор» . Международный журнал сетевого управления. 11 марта 2016 . Проверено 14 сентября 2016 года .
  102. ^ Kalil, Том (29 марта 2012). «Большие данные - это большое дело» . whitehouse.gov . Проверено 26 сентября 2012 г. - из Национального архива .
  103. Администрация президента (март 2012 г.). «Большие данные в федеральном правительстве» (PDF) . Управление научно-технической политики . Архивировано 21 января 2017 года (PDF) . Проверено 26 сентября 2012 г. - из Национального архива .
  104. ^ Lampitt, Андрей (14 февраля 2013). «Реальная история того, как аналитика больших данных помогла Обаме победить» . InfoWorld . Проверено 31 мая 2014 года .
  105. ^ «Ноябрь 2018 | TOP500 суперкомпьютерных сайтов» .
  106. ^ Гувер, Дж. Николас. «10 самых мощных суперкомпьютеров правительства» . Информационная неделя . УБМ . Проверено 26 сентября 2012 года .
  107. Бэмфорд, Джеймс (15 марта 2012 г.). «АНБ строит крупнейший в стране шпионский центр (смотрите, что вы говорите)» . Проводной журнал . Проверено 18 марта 2013 года .
  108. ^ «Церемония закладки фундамента в центре обработки данных в штате Юта стоимостью 1,2 миллиарда долларов» . Центральная служба безопасности Агентства национальной безопасности. Архивировано из оригинального 5 сентября 2013 года . Проверено 18 марта 2013 года .
  109. ^ Хилл, Кашмир. «Чертежи невероятно дорогого центра обработки данных АНБ в Юте говорят о том, что в нем меньше информации, чем предполагалось» . Forbes . Проверено 31 октября 2013 года .
  110. ^ Смит, Джерри; Холлман, Бен (12 июня 2013 г.). «Споры о шпионаже АНБ подчеркивают стремление к большим данным» . Huffington Post . Проверено 7 мая 2018 .
  111. Вингфилд, Ник (12 марта 2013 г.). «Более точное прогнозирование поездок на работу для потенциальных покупателей жилья - NYTimes.com» . Bits.blogs.nytimes.com . Проверено 21 июля 2013 года .
  112. ^ «FICO® Falcon® Fraud Manager» . Fico.com . Проверено 21 июля 2013 года .
  113. ^ Александру, Дэн. «Проф» (PDF) . cds.cern.ch . ЦЕРН . Проверено 24 марта 2015 года .
  114. ^ "Брошюра LHC, английская версия. Презентация крупнейшего и самого мощного ускорителя частиц в мире, Большого адронного коллайдера (LHC), который был запущен в 2008 году. Его роль, характеристики, технологии и т. Д. Объясняются для широкая общественность " . CERN-Brochure-2010-006-Eng. Брошюра LHC, английская версия . ЦЕРН . Проверено 20 января 2013 года .
  115. ^ "LHC Guide, английская версия. Собрание фактов и цифр о Большом адронном коллайдере (LHC) в форме вопросов и ответов" . CERN-Brochure-2008-001-Eng. Руководство LHC, английская версия . ЦЕРН . Проверено 20 января 2013 года .
  116. ^ Brumfiel, Geoff (19 января 2011). «Физика высоких энергий: по петабайтной магистрали» . Природа . 469 . С. 282–83. Bibcode : 2011Natur.469..282B . DOI : 10.1038 / 469282a .
  117. ^ "IBM Research - Цюрих" (PDF) . Zurich.ibm.com . Проверено 8 октября 2017 года .
  118. ^ «Будущие массивы телескопов стимулируют развитие обработки Exabyte» . Ars Technica . Проверено 15 апреля 2015 года .
  119. ^ "Заявка Австралии на массив квадратных километров - точка зрения инсайдера" . Разговор . 1 февраля 2012 . Проверено 27 сентября 2016 года .
  120. ^ «Делорт П., Форум технологического прогнозирования ОЭСР ICCP, 2012» (PDF) . Oecd.org . Проверено 8 октября 2017 года .
  121. ^ «НАСА - НАСА Годдард представляет Центр НАСА по моделированию климата» . Nasa.gov . Проверено 13 апреля +2016 .
  122. ^ Вебстер, Фил. «Суперкомпьютеры климата: миссия НАСА по большим данным» . CSC World . Корпорация компьютерных наук. Архивировано из оригинала 4 января 2013 года . Проверено 18 января 2013 года .
  123. ^ «Эти шесть великих идей нейробиологии могут совершить скачок из лаборатории на рынок» . Глобус и почта . 20 ноября 2014 . Проверено 1 октября +2016 .
  124. ^ "DNAstack справляется с массивными, сложными наборами данных ДНК с помощью Google Genomics" . Облачная платформа Google . Проверено 1 октября +2016 .
  125. ^ "23andMe - Предки" . 23andme.com . Проверено 29 декабря +2016 .
  126. ^ a b Потенца, Алессандра (13 июля 2016 г.). «23andMe хочет, чтобы исследователи использовали свои наборы, чтобы расширить свой сбор генетических данных» . Грань . Проверено 29 декабря +2016 .
  127. ^ «Этот запуск секвенирует вашу ДНК, чтобы вы могли внести свой вклад в медицинские исследования» . Быстрая компания . 23 декабря 2016 . Проверено 29 декабря +2016 .
  128. ^ Сейф, Чарльз. «23andMe ужасен, но не по тем причинам, которые думает FDA» . Scientific American . Проверено 29 декабря +2016 .
  129. Залески, Эндрю (22 июня 2016 г.). «Этот биотехнологический стартап делает ставку на то, что ваши гены дадут новый чудо-препарат» . CNBC . Проверено 29 декабря +2016 .
  130. ^ Regalado, Антонио. «Как 23andMe превратил вашу ДНК в машину для открытия лекарств стоимостью 1 миллиард долларов» . Обзор технологий Массачусетского технологического института . Проверено 29 декабря +2016 .
  131. ^ "23andMe сообщает о резком увеличении количества запросов на получение данных после исследования депрессии Pfizer | FierceBiotech" . fiercebiotech.com . Проверено 29 декабря +2016 .
  132. ^ Полюбуйтесь Мойо. «Специалисты по анализу данных предсказывают поражение Спрингбока» . itweb.co.za . Проверено 12 декабря 2015 года .
  133. ^ Регина Пазвакавамбва. «Прогнозная аналитика, большие данные трансформируют спорт» . itweb.co.za . Проверено 12 декабря 2015 года .
  134. ^ Дэйв Райан. «Спорт: где большие данные, наконец, имеют смысл» . huffingtonpost.com . Проверено 12 декабря 2015 года .
  135. ^ Фрэнк Би. «Как команды Формулы-1 используют большие данные, чтобы получить доступ изнутри» . Forbes . Проверено 12 декабря 2015 года .
  136. ^ Тай, Лиз. «Внутри хранилища данных eBay на 90 ПБ» . ITNews . Проверено 12 февраля +2016 .
  137. ^ Лейтон, Джулия. «Технологии Амазонки» . Money.howstuffworks.com . Проверено 5 марта 2013 года .
  138. ^ «Масштабирование Facebook до 500 миллионов пользователей и не только» . Facebook.com . Проверено 21 июля 2013 года .
  139. ^ Constine, Джош (27 июня 2017). «Facebook сейчас имеет 2 миллиарда пользователей в месяц… и ответственность» . TechCrunch . Проверено 3 сентября 2018 года .
  140. ^ «Google по-прежнему выполняет не менее 1 триллиона запросов в год» . Земля поисковой машины . 16 января 2015 . Проверено 15 апреля 2015 года .
  141. ^ Халим, Абид; Джавид, Мохд; Хан, Ибрагим; Вайшья, Раджу (2020). «Значимые применения больших данных в пандемии COVID-19» . Индийский журнал ортопедии . 54 (4): 526–528. DOI : 10.1007 / s43465-020-00129-Z . PMC 7204193 . PMID 32382166 .  
  142. ^ Manancourt, Винсент (10 марта 2020). «Коронавирус проверяет решимость Европы в отношении конфиденциальности» . Политико . Проверено 30 октября 2020 года .
  143. ^ Чоудхури, Амит Рой (27 марта 2020). «Правительство во времена короны» . Gov Insider . Проверено 30 октября 2020 года .
  144. ^ Cellan-Джонс, Рори (11 февраля 2020). «Китай запускает приложение« Детектор близкого контакта »от коронавируса» . BBC . Архивировано из оригинального 28 февраля 2020 года . Проверено 30 октября 2020 года .
  145. ^ Сивах, Гаутам; Эсмаилпур, Амир (март 2014 г.). Зашифрованный поиск и формирование кластеров в больших данных (PDF) . ASEE 2014 Зона конференции I . Университет Бриджпорта , Бриджпорт , Коннектикут, США. Архивировано из оригинального (PDF) 9 августа 2014 года . Проверено 26 июля 2014 года .
  146. ^ «Администрация Обамы представляет инициативу« Большие данные »: объявляет о новых инвестициях в НИОКР на сумму 200 миллионов долларов» (PDF) . Управление научно-технической политики . Архивировано (PDF) из оригинала 21 января 2017 года - через Национальный архив .
  147. ^ "AMPLab в Калифорнийском университете в Беркли" . Amplab.cs.berkeley.edu . Проверено 5 марта 2013 года .
  148. ^ «NSF возглавляет федеральные усилия в области больших данных» . Национальный научный фонд (NSF). 29 марта 2012 г.
  149. ^ Тимоти Хантер; Теодор Молдован; Матей Захария; Джастин Ма; Майкл Франклин; Питер Аббель ; Александр Байен (октябрь 2011 г.). Масштабирование системы Mobile Millennium в облаке .
  150. Дэвид Паттерсон (5 декабря 2011 г.). «У компьютерных ученых может быть то, что нужно, чтобы помочь вылечить рак» . Нью-Йорк Таймс .
  151. ^ «Секретарь Чу объявляет о создании нового института, который поможет ученым улучшить исследования массивов данных на суперкомпьютерах Министерства энергетики» . energy.gov.
  152. ^ office / pressreleases / 2012/2012530-губернатор-анонс-большие-данные-инициатива.html «Губернатор Патрик объявляет о новой инициативе по укреплению позиций Массачусетса как мирового лидера в области больших данных» Проверить значение ( справка ) . Содружество Массачусетса.|url=
  153. ^ "Большие данные @ CSAIL" . Bigdata.csail.mit.edu. 22 февраля 2013 . Проверено 5 марта 2013 года .
  154. ^ "Государственный частный форум по большим данным" . cordis.europa.eu. 1 сентября 2012 . Дата обращения 16 марта 2020 .
  155. ^ «Институт Алана Тьюринга будет создан для исследования больших данных» . BBC News . 19 марта 2014 . Проверено 19 марта 2014 .
  156. ^ «День вдохновения в Университете Ватерлоо, Стратфордский кампус» . betakit.com/ . Проверено 28 февраля 2014 .
  157. ^ a b c Рейпс, Ульф-Дитрих; Мацат, Уве (2014). «Майнинг« больших данных »с помощью Big Data Services» . Международный журнал интернет-науки . 1 (1): 1–8.
  158. Перейти ↑ Preis T, Moat HS, Stanley HE, Bishop SR (2012). «Количественная оценка преимущества ожидания» . Научные отчеты . 2 : 350. Bibcode : 2012NatSR ... 2E.350P . DOI : 10.1038 / srep00350 . PMC 3320057 . PMID 22482034 .  
  159. Marks, Paul (5 апреля 2012 г.). «Интернет-поиск будущего, связанный с экономическим успехом» . Новый ученый . Проверено 9 апреля 2012 года .
  160. ^ Джонстон, Кейси (6 апреля 2012 г.). «Google Trends дает подсказки о менталитете более богатых стран» . Ars Technica . Проверено 9 апреля 2012 года .
  161. Тобиас Прейс (24 мая 2012 г.). «Дополнительная информация: Индекс ориентации на будущее доступен для загрузки» (PDF) . Проверено 24 мая 2012 года .
  162. Филип Болл (26 апреля 2013 г.). «Подсчет поисковых запросов в Google предсказывает движения рынка» . Природа . Проверено 9 августа 2013 года .
  163. Перейти ↑ Preis T, Moat HS, Stanley HE (2013). «Количественная оценка торгового поведения на финансовых рынках с помощью Google Trends» . Научные отчеты . 3 : 1684. Bibcode : 2013NatSR ... 3E1684P . DOI : 10.1038 / srep01684 . PMC 3635219 . PMID 23619126 .  
  164. ^ Ник Bilton (26 апреля 2013). «Поисковые запросы Google могут предсказывать фондовый рынок, результаты исследований» . Нью-Йорк Таймс . Проверено 9 августа 2013 года .
  165. Кристофер Мэтьюз (26 апреля 2013 г.). "Проблемы с вашим инвестиционным портфелем? Google It!" . Журнал ВРЕМЯ . Проверено 9 августа 2013 года .
  166. Филип Болл (26 апреля 2013 г.). «Подсчет поисковых запросов в Google предсказывает движения рынка» . Природа . Проверено 9 августа 2013 года .
  167. Бернхард Уорнер (25 апреля 2013 г.). « Исследователи « больших данных »обращаются к Google, чтобы обойти рынки» . Bloomberg Businessweek . Проверено 9 августа 2013 года .
  168. Хэмиш МакРэй (28 апреля 2013 г.). «Хэмиш МакРэй: Нужна ценная информация о настроениях инвесторов? Погуглите» . Независимый . Лондон . Проверено 9 августа 2013 года .
  169. ^ Ричард Уотерс (25 апреля 2013 г.). «Поиск в Google оказался новым словом в прогнозировании фондового рынка» . Financial Times . Проверено 9 августа 2013 года .
  170. Джейсон Палмер (25 апреля 2013 г.). «Поиск в Google предсказывает движение рынка» . BBC . Проверено 9 августа 2013 года .
  171. ^ Э. Сейдич, «Адаптируйте существующие инструменты для использования с большими данными», Nature, vol. 507, нет. 7492, стр. 306, март 2014 г.
  172. ^ Стэнфорд. "MMDS. Практикум по алгоритмам для современных массивов данных" .
  173. ^ Дипан Палгуна; Викас Джоши; Венкатесан Чакраварти; Рави Котари и Л.В. Субраманиам (2015). Анализ алгоритмов выборки для Twitter . Международная совместная конференция по искусственному интеллекту .
  174. ^ Крис Кимбл; Яннис Милолидакис (7 октября 2015 г.). «Большие данные и бизнес-аналитика: развенчание мифов». Глобальный бизнес и совершенство организации . 35 (1): 23–34. arXiv : 1511.03085 . DOI : 10.1002 / JOE.21642 . ISSN 1932-2054 . Викиданные Q56532925 .  
  175. Крис Андерсон (23 июня 2008 г.). «Конец теории: поток данных делает научный метод устаревшим» . ПРОВОДНОЙ .
  176. Грэм М. (9 марта 2012 г.). «Большие данные и конец теории?» . Хранитель . Лондон.
  177. ^ Шах, Shvetank; Хорн, Эндрю; Капелла, Хайме (апрель 2012 г.). «Хорошие данные не гарантируют правильных решений. Harvard Business Review» . HBR.org . Проверено 8 сентября 2012 года .
  178. ^ a b Для больших данных необходимы большие перспективы для больших изменений. , Гильберт, М. (2014). Лондон: TEDx UCL, x = независимо организованные выступления на TED
  179. ^ Алемань Оливер, Матье; Вайр, Жан-Себастьян (2015). «Большие данные и будущее производства знаний в маркетинговых исследованиях: этика, цифровые следы и абдуктивное мышление». Журнал маркетинговой аналитики . 3 (1): 5–13. DOI : 10.1057 / jma.2015.1 . S2CID 111360835 . 
  180. Джонатан Раух (1 апреля 2002 г.). «Осмотр углов» . Атлантика .
  181. Перейти ↑ Epstein, JM, & Axtell, RL (1996). Растущие искусственные общества: социальные науки снизу вверх. Книга Брэдфорда.
  182. ^ «Делорт П., Большие данные в биологических науках, Большие данные, Париж, 2012» (PDF) . Bigdataparis.com . Проверено 8 октября 2017 года .
  183. ^ «Геномика следующего поколения: интегративный подход» (PDF) . природа. Июль 2010 . Проверено 18 октября +2016 .
  184. ^ «БОЛЬШИЕ ДАННЫЕ В БИОЛОГИЧЕСКИХ НАУКАХ» . Октябрь 2015 . Проверено 18 октября +2016 .
  185. ^ "Большие данные: мы делаем большую ошибку?" . Financial Times . 28 марта 2014 . Проверено 20 октября 2016 года .
  186. Ом, Пол (23 августа 2012 г.). «Не создавайте базу данных разорения» . Harvard Business Review .
  187. ^ Дарвин Бонд-Грэм, Iron Cagebook - Логический конец патентов Facebook , Counterpunch.org , 2013.12.03
  188. ^ Дарвин Бонд-Грэм, Конференция стартапов внутри технологической индустрии , Counterpunch.org , 2013.09.11
  189. ^ Дарвин Бонд-Грэм, Перспектива больших данных , ThePerspective.com , 2018
  190. ^ Al-Rodhan, Nayef (16 сентября 2014). «Социальный договор 2.0: большие данные и необходимость гарантировать конфиденциальность и гражданские свободы - Harvard International Review» . Гарвардское международное обозрение . Архивировано из оригинального 13 апреля 2017 года . Проверено 3 апреля 2017 года .
  191. ^ Барокас, Солон; Ниссенбаум, Хелен; Лейн, Юлия; Стодден, Виктория; Бендер, Стефан; Ниссенбаум, Хелен (июнь 2014 г.). Конечная цель больших данных - анонимность и согласие . Издательство Кембриджского университета. С. 44–75. DOI : 10,1017 / cbo9781107590205.004 . ISBN 9781107067356. S2CID  152939392 .
  192. ^ Лугмайр, Артур; Стоклебен, Бьорн; Шейб, Кристоф; Маилапарампил, Мэтью; Месия, Нура; Ранта, Ханну; Лаборатория, Эмми (1 июня 2016 г.). «КОМПЛЕКСНОЕ ИССЛЕДОВАНИЕ ИССЛЕДОВАНИЙ БОЛЬШИХ ДАННЫХ И ЕГО ПОСЛЕДСТВИЯ - ЧТО ДЕЙСТВИТЕЛЬНО« НОВОГО »В БОЛЬШИХ ДАННЫХ? - ПОЗНАВАТЕЛЬНЫЕ БОЛЬШИЕ ДАННЫЕ!» . Цитировать журнал требует |journal=( помощь )
  193. ^ Дана Бойд (29 апреля 2010 г.). «Конфиденциальность и гласность в контексте больших данных» . Конференция WWW 2010 . Проверено 18 апреля 2011 года .
  194. ^ Katyal, Соня К. (2019). «Искусственный интеллект, реклама и дезинформация» . Реклама и общество ежеквартально . 20 (4). DOI : 10,1353 / asr.2019.0026 . ISSN 2475-1790 . 
  195. ^ Джонс, МБ; Шильдхауэр, депутат; Райхман, О. Дж .; Бауэрс, S (2006). «Новая биоинформатика: интеграция экологических данных от гена в биосферу» (PDF) . Ежегодный обзор экологии, эволюции и систематики . 37 (1): 519–544. DOI : 10.1146 / annurev.ecolsys.37.091305.110031 .
  196. ^ a b Boyd, D .; Кроуфорд, К. (2012). «Критические вопросы для больших данных». Информация, коммуникация и общество . 15 (5): 662–679. DOI : 10.1080 / 1369118X.2012.678878 . hdl : 10983/1320 . S2CID 51843165 . 
  197. Отказ от запуска: от больших данных к важным решениям. Архивировано 6 декабря 2016 г. в Wayback Machine , Forte Wares.
  198. ^ «15 безумных вещей, которые коррелируют друг с другом» .
  199. ^ Случайные структуры и алгоритмы
  200. ^ Кристиан С. Калуде, Джузеппе Лонго, (2016), Потоп ложных корреляций в больших данных, Основы науки
  201. ^ a b Григорий Пятецкий (12 августа 2014 г.). «Интервью: Майкл Бертольд, основатель KNIME, об исследованиях, творчестве, больших данных и конфиденциальности, часть 2» . KDnuggets . Проверено 13 августа 2014 .
  202. Пелт, Мейсон (26 октября 2015 г.). « « Большие данные »- это излишне модное словечко, и этот Твиттер-бот доказывает это» . Siliconangle.com . КремнийУГОЛ . Проверено 4 ноября 2015 года .
  203. ^ a b Харфорд, Тим (28 марта 2014 г.). «Большие данные: мы делаем большую ошибку?» . Financial Times . Проверено 7 апреля 2014 года .
  204. Иоаннидис JP (август 2005 г.). «Почему большинство опубликованных результатов исследований ложны» . PLOS Medicine . 2 (8): e124. DOI : 10.1371 / journal.pmed.0020124 . PMC 1182327 . PMID 16060722 .  
  205. ^ Лор, Стив; Певица, Наташа (10 ноября 2016 г.). «Как данные не помогли нам объявить выборы» . Нью-Йорк Таймс . ISSN 0362-4331 . Проверено 27 ноября 2016 года . 
  206. ^ «Как управление данными полиции угрожает человеческой свободе» . Экономист . 4 июня 2018 г. ISSN 0013-0613 . Проверено 27 октября 2019 года . 
  207. ^ Brayne, Сара (29 августа 2017). «Наблюдение за большими данными: пример полицейской деятельности». Американский социологический обзор . 82 (5): 977–1008. DOI : 10.1177 / 0003122417725865 . S2CID 3609838 . 

Дальнейшее чтение [ править ]

  • Питер Киннэрд; Инбал Талгам-Коэн, ред. (2012). «Большие данные» . Студенческий журнал ACM Crossroads . XRDS: Crossroads, Журнал ACM для студентов . Vol. 19 нет. 1. Ассоциация вычислительной техники . ISSN  1528-4980 . OCLC  779657714 .
  • Юре Лесковец ; Ананд Раджараман ; Джеффри Д. Ульман (2014). Майнинг массивных наборов данных . Издательство Кембриджского университета. ISBN 9781107077232. OCLC  888463433 .
  • Виктор Майер-Шенбергер ; Кеннет Кукьер (2013). Большие данные: революция, которая изменит то, как мы живем, работаем и думаем . Houghton Mifflin Harcourt. ISBN 9781299903029. OCLC  828620988 .
  • Press, Gil (9 мая 2013 г.). «Очень краткая история больших данных» . forbes.com . Джерси-Сити, Нью-Джерси: журнал Forbes . Проверено 17 сентября 2016 года .
  • «Большие данные: революция в управлении» . hbr.org . Harvard Business Review . Октябрь 2012 г.
  • О'Нил, Кэти (2017). Оружие разрушения математики: как большие данные увеличивают неравенство и угрожают демократии . Бродвейские книги. ISBN 978-0553418835.

Внешние ссылки [ править ]

  • СМИ, связанные с большими данными, на Викискладе?
  • Словарное определение больших данных в Викисловаре