Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Данные Google Flu Trends, Южная Африка

Google Flu Trends ( GFT ) - это веб-сервис, управляемый Google . Он предоставил оценки активности гриппа для более чем 25 стран. Агрегируя поисковые запросы Google , он пытался сделать точные прогнозы относительно активности гриппа. Этот проект был впервые запущен в 2008 году компанией Google.org для прогнозирования вспышек гриппа. [1]

Google Flu Trends прекратил публиковать текущие оценки 9 августа 2015 года. Исторические оценки по-прежнему доступны для загрузки, а текущие данные предлагаются для заявленных исследовательских целей. [2]

История [ править ]

Идея Google Flu Trends заключалась в том, что, отслеживая поведение миллионов пользователей в Интернете, можно проанализировать большое количество собранных поисковых запросов Google, чтобы выявить наличие у населения гриппоподобных заболеваний. Google Flu Trends сравнил эти результаты с историческим исходным уровнем активности гриппа для соответствующего региона, а затем сообщает об уровне активности как минимальном, низком, умеренном, высоком или интенсивном. Эти оценки в целом согласуются с традиционными данными эпиднадзора, собранными учреждениями здравоохранения как на национальном, так и на региональном уровне.

Рони Зейгер участвовал в разработке Google Flu Trends. [3]

Методы [ править ]

Согласно описанию Google Flu Trends, для сбора информации о тенденциях гриппа использовался следующий метод. [4] [5]

Во-первых, временной ряд вычисляется примерно для 50 миллионов общих запросов, вводимых еженедельно в Соединенных Штатах с 2003 по 2008 годы. Временные ряды запроса вычисляются отдельно для каждого состояния и нормализуются на долю путем деления количества каждого запроса на количество все запросы в этом состоянии. Путем определения IP-адреса, связанного с каждым поиском, можно определить состояние, в котором был введен этот запрос.

Линейная модель используется для вычисления логарифма шансов посещения врача гриппоподобным заболеванием (ГПЗ) и логарифма шансов поискового запроса, связанного с ГПЗ:

P - это процент посещений врача по ГПЗ, а Q - доля запросов, связанных с ГПЗ, вычисленная на предыдущих шагах. β 0 - точка пересечения, β 1 - коэффициент, а ε - погрешность.

Каждый из 50 миллионов запросов проверяется как Q, чтобы увидеть, может ли результат, вычисленный из одного запроса, соответствовать фактическим историческим данным ILI, полученным из Центров по контролю и профилактике заболеваний США (CDC). Этот процесс создает список основных запросов, который дает наиболее точные прогнозы данных CDC ILI при использовании линейной модели. Затем выбираются 45 лучших запросов, поскольку при агрегировании эти запросы наиболее точно соответствуют данным истории. Используя сумму 45 самых популярных запросов, связанных с ILI, линейная модель подбирается к еженедельным данным ILI за период с 2003 по 2007 год, чтобы можно было получить коэффициент. Наконец, обученная модель используется для прогнозирования вспышки гриппа во всех регионах США.

Впоследствии этот алгоритм был пересмотрен Google, частично в ответ на озабоченность по поводу точности, и попытки воспроизвести его результаты показали, что разработчики алгоритма «почувствовали неявную потребность скрыть фактические выявленные поисковые запросы». [6]

Проблемы конфиденциальности [ править ]

Google Flu Trends пытается избежать нарушений конфиденциальности, собирая только миллионы анонимных поисковых запросов, не идентифицируя лиц, выполнивших поиск. [1] [7] Их журнал поиска содержит IP-адрес пользователя, который можно использовать для отслеживания региона, в котором изначально был отправлен поисковый запрос. Google запускает программы на компьютерах для доступа к данным и их вычисления, поэтому в этом процессе не участвует человек. Google также внедрил политику анонимности IP-адреса в своих журналах поиска через 9 месяцев. [8]

Тем не менее, Google Flu Trends вызвал обеспокоенность по поводу конфиденциальности среди некоторых групп конфиденциальности. В 2008 году Центр электронной информации о конфиденциальности и Права пациента на конфиденциальность отправили письмо Эрику Шмидту , тогдашнему генеральному директору Google. [9] Они признали, что использование данных, созданных пользователями, может существенно поддержать усилия общественного здравоохранения, но выразили обеспокоенность тем, что «расследования конкретных пользователей могут быть инициированы, даже несмотря на возражения Google, по постановлению суда или властям президента».

Воздействие [ править ]

Первоначальная мотивация для GFT заключалась в том, что возможность раннего выявления активности заболевания и быстрого реагирования может снизить воздействие сезонного и пандемического гриппа. В одном из отчетов говорилось, что Google Flu Trends может предсказать региональные вспышки гриппа за 10 дней до того, как о них сообщил CDC (Центры по контролю и профилактике заболеваний). [10]

Во время пандемии гриппа 2009 года Google Flu Trends отслеживал информацию о гриппе в Соединенных Штатах. [11] В феврале 2010 года CDC выявил резкое увеличение случаев гриппа в среднеатлантическом регионе США. Однако данные Google по поисковым запросам о симптомах гриппа смогли показать тот же всплеск за две недели до публикации отчета CDC.

«Чем раньше будет предупреждение, тем раньше можно будет принять меры профилактики и контроля, и это может предотвратить случаи гриппа», - сказала д-р Лин Финелли, руководитель отдела эпиднадзора в подразделении CDC по гриппу. «От 5 до 20 процентов населения страны ежегодно заболевают гриппом, что в среднем приводит к примерно 36 000 смертей». [10]

Google Flu Trends - это пример коллективного разума, который можно использовать для определения тенденций и расчета прогнозов. Данные, собираемые поисковыми системами, очень полезны, потому что поисковые запросы отражают неотфильтрованные желания и потребности людей. «Это кажется действительно умным способом использования данных, непреднамеренно созданных пользователями Google, чтобы увидеть закономерности в мире, которые в противном случае были бы невидимы», - сказал Томас У. Мэлоун, профессор школы менеджмента Sloan при Массачусетском технологическом институте. «Я думаю, что мы просто касаемся того, что возможно с коллективным разумом». [10]

Точность [ править ]

В первоначальном документе Google говорилось, что прогнозы Google Flu Trends были на 97% точны по сравнению с данными CDC. [4] Однако в последующих отчетах утверждалось, что прогнозы Google Flu Trends иногда были очень неточными, особенно за период 2011–2013 гг., Когда он постоянно завышал относительную заболеваемость гриппом [6], и за один интервал прогнозируемого сезона гриппа 2012–2013 гг. вдвое больше посещений врачей, чем записал CDC. [6] [12]

Один из источников проблем состоит в том, что люди, выполняющие поиск в Google по гриппу, могут очень мало знать о том, как диагностировать грипп; поиски симптомов гриппа или гриппа вполне могут быть исследованием симптомов заболевания, которые похожи на грипп, но на самом деле не являются гриппом. [13] Кроме того, анализ поисковых запросов, которые, как сообщается, отслеживаются Google, таких как «лихорадка» и «кашель», а также влияние изменений в их алгоритме поиска с течением времени, вызвали озабоченность по поводу значения его прогнозов. [6] Осенью 2013 года Google начал попытки компенсировать рост поисковых запросов из-за упоминания гриппа в новостях, что ранее приводило к искажению результатов. [14] Однако один анализ пришел к выводу, что «комбинируя GFT и запаздывающие данные CDC, а также динамически перекалибровав GFT, мы можем существенно улучшить производительность GFT или только CDC». [6] Более позднее исследование также демонстрирует, что данные поиска Google действительно можно использовать для улучшения оценок, уменьшая ошибки, наблюдаемые в модели, использующей только данные CDC, на 52,7%. [15]

Проведя повторную оценку исходной модели GFT, исследователи обнаружили, что модель агрегирует запросы о различных состояниях здоровья, что может привести к завышенному прогнозированию показателей ГПЗ; В той же работе был предложен ряд более продвинутых линейных и нелинейных, более эффективных подходов к моделированию ИЛИ. [16]

Связанные системы [ править ]

Подобные проекты , такие как проект грипп прогнозирования [17] с помощью института когнитивной науки Оснабрюке несут основную идею вперед, сочетая социальные медиа - данные , например Twitter с CDC данных и структурных моделей, определяющими пространственное и временное распространение [18] из болезнь.

Ссылки [ править ]

  1. ^ a b «Google Flu Trends | How» . Архивировано 22 октября 2012 года . Проверено 10 ноября 2012 года .
  2. Фред О'Коннор (20 августа 2015 г.). «Google Flu Trends вызывает тошноту на неопределенный срок» . PCWorld . Архивировано 23 августа 2015 года . Проверено 23 августа 2015 года .
  3. ^ Zeiger, Рони (6 октября 2009). «Обзор тенденций Google Flu» . youtube.com . YouTube . Архивировано 6 июня 2013 года . Проверено 6 июня 2013 года .
  4. ^ а б Гинзберг, Джереми. «Выявление эпидемий гриппа с помощью данных поисковых запросов» (PDF) . Архивировано 4 сентября 2012 года (PDF) из оригинала . Проверено 10 ноября 2012 года .
  5. ^ Гинзберг, Джереми; Mohebbi, Matthew H .; Patel, Rajan S .; Браммер, Линнетт; Смолинский, Марк С .; Великолепно, Ларри (19 февраля 2009 г.). «Выявление эпидемий гриппа с использованием данных поисковых запросов». Природа . 457 (7232): 1012–1014. DOI : 10,1038 / природа07634 . PMID 19020500 . 
  6. ^ a b c d e Лазер, Дэвид; Кеннеди, Райан; Кинг, Гэри; Веспиньяни, Алессандро (14 марта 2014 г.). «Притча о гриппе Google: ловушки в анализе больших данных» (PDF) . Наука . 343 (6176): 1203–1205. DOI : 10.1126 / science.1248506 . PMID 24626916 . Архивировано 19 ноября 2019 года (PDF) . Проверено 19 декабря 2019 .  
  7. ^ Helft, Мигель (13 ноября 2008). "Есть ли угроза конфиденциальности в Google Flu Trends?" . Нью-Йорк Таймс . Архивировано 6 ноября 2012 года . Проверено 10 ноября 2012 года .
  8. ^ «Политика конфиденциальности - Политика и принципы - Google» . Архивировано 3 ноября 2012 года . Проверено 10 ноября 2012 года .
  9. Пил, Дебора. «Письмо EPIC от 12 ноября 2008 г. в Google относительно тенденций Google Flu Trends» (PDF) . Архивировано 15 ноября 2012 года (PDF) . Проверено 10 ноября 2012 года .
  10. ^ a b c «Google использует поисковые запросы для отслеживания распространения гриппа» (PDF) . Архивировано 15 ноября 2012 года (PDF) . Проверено 10 ноября 2012 года .
  11. ^ Кук, S .; Конрад, С .; Fowlkes, AL; Мохебби, MH (2011). Каулинг, Бенджамин Дж (ред.). «Оценка эффективности Google Flu Trends в США во время пандемии вируса гриппа A (H1N1) 2009 года» . PLoS ONE . 6 (8): e23610. DOI : 10.1371 / journal.pone.0023610 . PMC 3158788 . PMID 21886802 .  
  12. Батлер, Деклан (13 февраля 2013 г.). «Когда Google ошибся с гриппом» . Природа . 494 : 155–156. DOI : 10.1038 / 494155a . PMID 23407515 . 
  13. ^ "Google Flu Trends:" Большие данные "испортились?" . КремнийУГОЛ .
  14. Ричард Харрис (13 марта 2014 г.). "Отслеживание гриппа Google страдает от насморка" . ЭНЕРГЕТИЧЕСКИЙ ЯДЕРНЫЙ РЕАКТОР. Архивировано 19 марта 2019 года . Проверено 19 декабря 2019 .
  15. ^ Прейс, Тобиас; Ров, Хелен Сюзанна (29 октября 2014 г.). «Адаптивное прогнозирование вспышек гриппа с помощью поиска в Google» . Королевское общество «Открытая наука» . 1 : 140095. дои : 10.1098 / rsos.140095 . PMC 4448892 . PMID 26064532 .  
  16. ^ Лампос, Василиос; Миллер, Эндрю С .; Кроссан, Стив; Стефансен, Кристиан (3 августа 2015 г.). «Достижения в прогнозировании заболеваемости, похожей на грипп, с использованием журналов поисковых запросов» . Научные отчеты . 5 (12760). DOI : 10.1038 / srep12760 . PMC 4522652 . PMID 26234783 .  
  17. ^ "Проект прогнозирования гриппа Университетом Оснабрюка и IBM WATSON" . Архивировано 27 мая 2019 года . Проверено 19 декабря 2019 .
  18. ^ Шумахер Йоханнес (2015). «Статистическая основа для определения задержки и направления потока информации на основе измерений сложных систем» . Нейронные вычисления . 27 : 1555–1608. DOI : 10.1162 / NECO_a_00756 . Архивировано 12 февраля 2019 года . Проверено 20 марта 2016 .

Внешние ссылки [ править ]

  • Официальный веб-сайт