Усвоение данных


Усвоение данных — это математическая дисциплина, которая стремится оптимально сочетать теорию (обычно в виде численной модели) с наблюдениями. Может преследоваться ряд различных целей — например, определение оптимальной оценки состояния системы, определение начальных условий для модели численного прогноза, интерполяция разреженных данных наблюдения с использованием (например, физических) знаний о наблюдаемой системе, установить числовые параметры на основе обучения модели по наблюдаемым данным. В зависимости от поставленной задачи могут использоваться разные методы решения. Усвоение данных отличается от других форм машинного обучения, анализа изображений и статистических методов тем, что в нем используется динамическая модель анализируемой системы.

Усвоение данных первоначально развивалось в области численного прогноза погоды .. Численные модели прогнозирования погоды представляют собой уравнения, описывающие динамическое поведение атмосферы, обычно закодированные в компьютерной программе. Чтобы использовать эти модели для составления прогнозов, необходимы начальные условия для модели, которые очень похожи на текущее состояние атмосферы. Простое включение точечных измерений в числовые модели не дало удовлетворительного решения. Измерения в реальном мире содержат ошибки как из-за качества инструмента, так и из-за того, насколько точно известно положение измерения. Эти ошибки могут вызвать нестабильность в моделях, что исключает любой уровень квалификации в прогнозе. Таким образом, требовались более сложные методы для инициализации модели с использованием всех доступных данных, обеспечивая при этом стабильность численной модели. Такие данные обычно включают в себя измерения, а также предыдущий прогноз, действующий на момент проведения измерений. При итеративном применении этот процесс начинает накапливать информацию из прошлых наблюдений во всех последующих прогнозах.

Поскольку усвоение данных развилось из области численного прогнозирования погоды, оно первоначально приобрело популярность среди наук о Земле. На самом деле, одна из наиболее цитируемых публикаций по всем наукам о земле — это применение ассимиляции данных для реконструкции наблюдаемой истории атмосферы. [1]

Классически ассимиляция данных применялась к хаотическим динамическим системам, которые слишком сложно предсказать с помощью простых методов экстраполяции. Причина этой трудности заключается в том, что небольшие изменения начальных условий могут привести к большим изменениям в точности предсказания. Это иногда называют эффектом бабочки — чувствительной зависимостью от начальных условий , при которой небольшое изменение в одном состоянии детерминированной нелинейной системы может привести к большим различиям в более позднем состоянии.

В любое время обновления ассимиляция данных обычно берет прогноз (также известный как первое предположение или исходная информация) и применяет поправку к прогнозу на основе набора наблюдаемых данных и оценочных ошибок, которые присутствуют как в наблюдениях, так и в прогнозе. сам. Разница между прогнозом и наблюдениями в это время называется отклонением или нововведением .(поскольку он предоставляет новую информацию для процесса усвоения данных). К инновациям применяется весовой коэффициент, чтобы определить, какую часть корректировки следует внести в прогноз на основе новой информации из наблюдений. Наилучшая оценка состояния системы на основе поправки к прогнозу, определяемой весовым коэффициентом, умноженным на инновацию, называется анализом . В одном измерении вычисление анализа может быть таким же простым, как формирование средневзвешенного значения прогнозируемого и наблюдаемого значения. В многомерности задача усложняется. Большая часть работы по усвоению данных сосредоточена на адекватной оценке соответствующего весового коэффициента на основе сложных знаний об ошибках в системе.


Льюис Фрай Ричардсон
Диаграмма общего усвоения данных (Alpilles-ReSeDA) [23]