Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Методы стохастической аппроксимации - это семейство итерационных методов, обычно используемых для задач поиска корня или для задач оптимизации . Рекурсивные правила обновления методов стохастической аппроксимации могут использоваться, среди прочего, для решения линейных систем, когда собранные данные искажены шумом, или для аппроксимации экстремальных значений функций, которые не могут быть вычислены напрямую, а могут быть оценены только через зашумленные наблюдения.

Вкратце, алгоритмы стохастической аппроксимации имеют дело с функцией формы, которая является ожидаемым значением функции, зависящей от случайной величины . Цель состоит в том, чтобы восстановить свойства такой функции, не оценивая ее напрямую. Вместо этого алгоритмы стохастической аппроксимации используют случайные выборки, чтобы эффективно аппроксимировать такие свойства , как нули или экстремумы.

В последнее время стохастические аппроксимации нашли широкое применение в области статистики и машинного обучения, особенно в условиях работы с большими данными . Эти приложения варьируются от методов и алгоритмов стохастической оптимизации до онлайн-форм алгоритма EM , обучения с подкреплением через временные различия , глубокого обучения и других. [1] Алгоритмы стохастической аппроксимации также использовались в социальных науках для описания коллективной динамики: фиктивная игра в теории обучения и алгоритмы консенсуса могут быть изучены с помощью их теории. [2]

Самыми ранними и прототипными алгоритмами этого типа являются алгоритмы Роббинса – Монро и Кифера – Вулфовица , представленные соответственно в 1951 и 1952 годах.

Алгоритм Роббинса – Монро [ править ]

Алгоритм Роббинса – Монро, представленный в 1951 году Гербертом Роббинсом и Саттоном Монро [3], представляет методологию решения задачи поиска корня, в которой функция представлена ​​как математическое ожидание. Предположим, что у нас есть функция и константа , такие что уравнение имеет единственный корень в точке . Предполагается, что, хотя мы не можем напрямую наблюдать функцию , мы можем вместо этого получить измерения случайной величины где . Структура алгоритма заключается в генерации итераций в форме:

Вот последовательность положительных размеров шага. Роббинс и Монро доказали [3] , теорему 2, которая сходится по (а значит, и по вероятности) к , а Блюм [4] позже доказал, что сходимость действительно с вероятностью единица, при условии, что

  • равномерно ограничен,
  • не убывает,
  • существует и положительно, и
  • Последовательность удовлетворяет следующим требованиям:

Конкретная последовательность шагов, удовлетворяющих этим условиям, предложенная Роббинсом – Монро, имеет вид:, для . Возможны и другие серии, но для усреднения шума должно быть выполнено указанное выше условие.

Результаты сложности [ править ]

  1. Если является дважды непрерывно дифференцируемым и сильно выпуклым, а минимизатор принадлежит внутренней части , то алгоритм Роббинса – Монро достигнет асимптотически оптимальной скорости сходимости по отношению к целевой функции, равной , где - минимальное значение сверх . [5] [6]
  2. Напротив, в общем выпуклом случае, где отсутствуют как предположение гладкости, так и сильная выпуклость, Немировский и Юдин [7] показали, что асимптотически оптимальная скорость сходимости относительно значений целевой функции равна . Они также доказали, что этот показатель нельзя улучшить.

Последующие события и усреднение Поляка – Рупперта [ править ]

Хотя алгоритм Роббинса – Монро теоретически может быть реализован в предположении дважды непрерывной дифференцируемости и сильной выпуклости, он может работать довольно плохо при реализации. Это в первую очередь связано с тем, что алгоритм очень чувствителен к выбору последовательности размера шага, и предполагаемая асимптотически оптимальная политика размера шага может быть весьма вредной вначале. [6] [8]

Чанг [9] (1954) и Фабиан [10] (1968) показали, что мы можем достичь оптимальной скорости сходимости с помощью (или ). Лай и Роббинс [11] [12] разработали адаптивные процедуры оценки , которые имеют минимальную асимптотическую дисперсию. Однако применение таких оптимальных методов требует большого количества априорной информации, которую трудно получить в большинстве ситуаций. Чтобы преодолеть этот недостаток, Поляк [13] (1991) и Рупперт [14] (1988) независимо друг от друга разработали новый оптимальный алгоритм, основанный на идее усреднения траекторий. Поляк и Юдицкий [15]также представил метод ускорения Роббинса – Монро для линейных и нелинейных задач поиска корня за счет использования более длинных шагов и усреднения итераций. Алгоритм будет иметь следующую структуру:

Сходимость к единственному корню зависит от того, что последовательность шагов убывает достаточно медленно. То есть

A1)

Следовательно, последовательность с удовлетворяет этому ограничению, но не удовлетворяет , следовательно, более длинные шаги. Согласно предположениям, изложенным в алгоритме Роббинса – Монро, результирующая модификация приведет к той же асимптотически оптимальной скорости сходимости, но с более надежной политикой размера шага. [15] До этого идея использования более длинных шагов и усреднения итераций уже была предложена Немировским и Юдиным [16] для случаев решения задачи стохастической оптимизации с непрерывными выпуклыми целями и для задач с выпукло-вогнутой седловой точкой. Было замечено, что эти алгоритмы достигают неасимптотической скорости .

Более общий результат дается в главе 11 Кушнера и Инь [17] путем определения интерполированного времени , интерполированного процесса и интерполированного нормализованного процесса как

Пусть будет итеративное среднее значение и соответствующая нормализованная ошибка .

С предположением A1) и следующим A2)

A2) Имеются матрица Гурвица и симметричная положительно определенная матрица , слабо сходящаяся к , где - статистическое решение

где - стандартный винеровский процесс.

доволен, и определяю . Тогда для каждого ,

Успех идеи усреднения объясняется разделением временной шкалы исходной последовательности и усредненной последовательности , при этом временной масштаб первой более быстрый.

Применение в стохастической оптимизации [ править ]

Предположим, мы хотим решить следующую задачу стохастической оптимизации

где дифференцируема и выпукла, то эта задача эквивалентна найти корень из . Здесь можно интерпретировать как некоторую «наблюдаемую» стоимость как функцию выбранных и случайных эффектов . На практике может быть трудно получить аналитическую форму , метод Роббинса – Монро позволяет сгенерировать последовательность для аппроксимации, если можно сгенерировать , в которой условное ожидание данного является точным , т.е. моделируется из условного распределения, определяемого формулой

Вот объективная оценка . Если зависит от , в общем случае не существует естественного способа получения случайного результата, который представляет собой несмещенную оценку градиента. В некоторых особых случаях, когда применимы методы IPA или отношения правдоподобия, можно получить несмещенную оценку градиента . Если рассматривается как некий «фундаментальной» , лежащей в основе случайного процесса , который генерируется независимо от , а при некоторых условиях для регуляризации производной-интегральных операций обмена , так что , то дает фундаментальную несмещенную оценку градиента. Однако для некоторых приложений приходится использовать конечно-разностные методы, в которыхимеет условное ожидание, близкое к нему, но не совсем равное ему.

Затем мы определяем рекурсию аналогично методу Ньютона в детерминированном алгоритме:

Сходимость алгоритма [ править ]

Следующий результат дает достаточные условия для сходимости алгоритма: [18]

C1)

C2)

C3)

C4)

C5)

Потом сходится почти наверняка.

Вот несколько интуитивно понятных объяснений этих условий. Предположим , это равномерно ограниченные случайные величины. Если C2) не выполняется, т. Е. Тогда

является ограниченной последовательностью, поэтому итерация не может сойтись, если первоначальное предположение слишком далеко от . Что касается C3), обратите внимание, что если сходится к, то

поэтому мы должны иметь и условие C3) обеспечивает это. Естественный выбор был бы . Условие C5) является довольно жестким условием по форме ; он дает направление поиска алгоритма.

Пример (где подходит метод стохастического градиента) [8] [ править ]

Предположим , где дифференцируема и является случайной величиной, не зависящей от . Тогда зависит от среднего значения , и метод стохастического градиента будет подходящим в этой задаче. Мы можем выбрать

Алгоритм Кифера – Вулфовица [ править ]

Алгоритм Кифер-Вольфовиц была введена в 1952 году Jacob Волфовица и Джек Kiefer , [19] , и было мотивировано публикации алгоритма Роббинса-Monro. Однако алгоритм был представлен как метод, который стохастически оценивает максимум функции. Позвольте быть функцией, которая имеет максимум в точке . Предполагается, что неизвестно; однако определенные наблюдения , где , могут быть сделаны в любой момент . Структура алгоритма соответствует градиентному методу, при этом итерации генерируются следующим образом:

где и независимы, а градиент аппроксимируется конечными разностями. Последовательность определяет последовательность ширины конечной разности, используемую для приближения градиента, в то время как последовательность определяет последовательность положительных размеров шага, взятых вдоль этого направления. Кифер и Вулфовиц доказали, что если удовлетворяются определенные условия регулярности, то будет сходиться по вероятности, как , а позже Блюм [4] в 1954 году показал сходится к почти наверняка, при условии, что:

  • для всех .
  • Функция имеет единственную точку максимума (минимума) и является сильно вогнутой (выпуклой).
    • Алгоритм впервые был представлен с требованием, чтобы функция поддерживала сильную глобальную выпуклость (вогнутость) во всем допустимом пространстве. Учитывая, что это условие слишком ограничительно, чтобы накладывать его на всю область, Кифер и Вулфовиц предложили, что достаточно наложить условие на компакт, который, как известно, включает оптимальное решение.
  • Функция удовлетворяет следующим условиям регулярности:
    • Существует и такое, что
    • Существует и такое, что
    • Для каждого существует такое, что
  • Выбранные последовательности и должны быть бесконечными последовательностями положительных чисел, таких что

Подходящим выбором последовательностей, рекомендованным Кифером и Вулфовицем, будет и .

Последующие события и важные вопросы [ править ]

  1. Алгоритм Кифера Вулфовица требует, чтобы для каждого вычисления градиента моделировались как минимум разные значения параметров для каждой итерации алгоритма, где - размерность пространства поиска. Это означает, что при большом размере алгоритм Кифера – Вулфовица потребует значительных вычислительных затрат на итерацию, что приведет к медленной сходимости.
    1. Чтобы решить эту проблему, Сполл предложил использовать одновременные возмущения для оценки градиента. Этот метод потребует только двух симуляций на итерацию, независимо от размера . [20]
  2. В условиях, требуемых для сходимости, может быть трудно найти возможность указать заранее определенный компакт, который удовлетворяет сильной выпуклости (или вогнутости) и содержит уникальное решение. Что касается реальных приложений, если домен достаточно большой, эти предположения могут быть довольно ограничительными и в высшей степени нереалистичными.

Дальнейшее развитие [ править ]

Вокруг этих алгоритмов выросла обширная теоретическая литература, касающаяся условий сходимости, скорости сходимости, многомерных и других обобщений, правильного выбора размера шага, возможных моделей шума и так далее. [21] [22] Эти методы также применяются в теории управления , и в этом случае неизвестная функция, которую мы хотим оптимизировать или найти нуль, может изменяться во времени. В этом случае размер шага не должен сходиться к нулю, а должен быть выбран так, чтобы отслеживать функцию. [21] , 2-е изд., Глава 3

К. Йохан Масрелиес и Р. Дуглас Мартин были первыми, кто применил стохастическую аппроксимацию к робастному оцениванию . [23]

Основным инструментом для анализа алгоритмов стохастических приближений (включая алгоритмы Роббинса – Монро и Кифера – Вулфовица) является теорема Арье Дворецки, опубликованная в трудах третьего симпозиума Беркли по математической статистике и вероятности в 1956 г. [24]

См. Также [ править ]

  • Стохастический градиентный спуск

Ссылки [ править ]

  1. ^ Тулис, Панос; Аирольди, Эдоардо (2015). «Масштабируемые стратегии оценивания на основе стохастических приближений: классические результаты и новые идеи» . Статистика и вычисления . 25 (4): 781–795. DOI : 10.1007 / s11222-015-9560-у . PMC  4484776 . PMID  26139959 .
  2. Ле-Ни, Джером. «Введение в алгоритмы стохастической аппроксимации» (PDF) . Политехнический Монреаль . Учебные заметки . Проверено 16 ноября +2016 .
  3. ^ а б Роббинс, Х .; Монро, С. (1951). «Метод стохастической аппроксимации» . Анналы математической статистики . 22 (3): 400. DOI : 10,1214 / АОМ / 1177729586 .
  4. ^ a b Блюм, Юлиус Р. (1954-06-01). «Методы приближения, сходящиеся с вероятностным» . Анналы математической статистики . 25 (2): 382–386. DOI : 10.1214 / АОМ / 1177728794 . ISSN 0003-4851 . 
  5. Перейти ↑ Sacks, J. (1958). «Асимптотическое распределение процедур стохастической аппроксимации» . Анналы математической статистики . 29 (2): 373–405. DOI : 10.1214 / АОМ / 1177706619 . JSTOR 2237335 . 
  6. ^ a b Немировский, А .; Юдицкий, А .; Lan, G .; Шапиро, А. (2009). "Робастный стохастический приближенный подход к стохастическому программированию". SIAM Journal по оптимизации . 19 (4): 1574. DOI : 10,1137 / 070704277 .
  7. ^ Сложность проблемы и эффективность методов оптимизации, А. Немировский и Д. Юдин, Wiley -Intersci. Сер. Дискретная математика 15 Джон Вили, Нью-Йорк (1983).
  8. ^ a b Введение в стохастический поиск и оптимизацию: оценка, моделирование и управление , JC Spall, John Wiley Hoboken, NJ , (2003).
  9. ^ Chung, KL (1954-09-01). «О методе стохастической аппроксимации» . Анналы математической статистики . 25 (3): 463–483. DOI : 10.1214 / АОМ / 1177728716 . ISSN 0003-4851 . 
  10. ^ Фабиан, Вацлав (1968-08-01). «Об асимптотической нормальности в стохастическом приближении» . Анналы математической статистики . 39 (4): 1327–1332. DOI : 10.1214 / АОМ / 1177698258 . ISSN 0003-4851 . 
  11. ^ Лай, TL; Роббинс, Герберт (1979-11-01). «Адаптивный дизайн и стохастическая аппроксимация» . Летопись статистики . 7 (6): 1196–1221. DOI : 10.1214 / AOS / 1176344840 . ISSN 0090-5364 . 
  12. ^ Лай, Цзе Люн; Роббинс, Герберт (1981-09-01). «Непротиворечивость и асимптотическая эффективность оценок наклона в схемах стохастической аппроксимации». Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 56 (3): 329–360. DOI : 10.1007 / BF00536178 . ISSN 0044-3719 . S2CID 122109044 .  
  13. Поляк, БТ (01.01.1990). «Новые процедуры типа стохастической аппроксимации.» . 7 (7). Cite journal requires |journal= (help)
  14. ^ Рупперт, Д. "Эффективные оценки из медленно сходящегося процесса Роббинса-Монро" . Cite journal requires |journal= (help)
  15. ^ а б Поляк, БТ; Юдицкий, А.Б. (1992). «Ускорение стохастической аппроксимации путем усреднения». SIAM Journal по управлению и оптимизации . 30 (4): 838. DOI : 10,1137 / 0330046 .
  16. ^ О сходимости Чезари метода наискорейшего спуска для аппроксимации седловых точек выпукло-вогнутых функций, А. Немировский, Д. Юдин, Докл. Акад. АН СССР 2939 , (1978), УМН. Докл. 19 (1978 (англ.)).
  17. ^ Кушнер, Гарольд; Георгий Инь, Г. (17 июля 2003 г.). Стохастическая аппроксимация и рекурсивные алгоритмы и | Гарольд Кушнер | Springer . www.springer.com . ISBN 9780387008943. Проверено 16 мая 2016 .
  18. ^ Bouleau, N .; Лепингл, Д. (1994). Численные методы для случайных процессов . Нью-Йорк: Джон Вили. ISBN 9780471546412.
  19. ^ Kiefer, J .; Вулфовиц, Дж. (1952). «Стохастическая оценка максимума функции регрессии» . Анналы математической статистики . 23 (3): 462. DOI : 10,1214 / АОМ / 1177729392 .
  20. ^ Сполл, JC (2000). «Адаптивная стохастическая аппроксимация методом одновременных возмущений». IEEE Transactions по автоматическому контролю . 45 (10): 1839–1853. DOI : 10.1109 / TAC.2000.880982 .
  21. ^ a b Кушнер, HJ ; Инь, GG (1997). Алгоритмы стохастической аппроксимации и приложения . DOI : 10.1007 / 978-1-4899-2696-8 . ISBN 978-1-4899-2698-2.
  22. ^ Стохастическая аппроксимация и рекурсивная оценка , Михаил Борисович Невельсон и Рафаил Залманович Хасьминский, переведенный Израильской программой научных переводов и Б. Сильвер, Провиденс, Род-Айленд: Американское математическое общество, 1973, 1976. ISBN 0-8218-1597- 0 . 
  23. ^ Мартин, R .; Масрелиес, К. (1975). «Робастная оценка с помощью стохастической аппроксимации». IEEE Transactions по теории информации . 21 (3): 263. DOI : 10,1109 / TIT.1975.1055386 .
  24. ^ Дворецкого, Арье (1956-01-01). «О стохастической аппроксимации» . Регенты Калифорнийского университета. Cite journal requires |journal= (help)