Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Томпсон выборки , [1] [2] назван в честь Уильяма Р. Томпсон, эвристика для выбора действия, адреса разведка-добыча дилеммой в нескольких вооруженных бандита проблемы. Он состоит в выборе действия, которое максимизирует ожидаемую награду по отношению к случайно выбранному убеждению.

Описание [ править ]

Рассмотрим набор контекстов , набор действий и награды . В каждом раунде игрок получает контекст , разыгрывает действие и получает награду в соответствии с распределением, которое зависит от контекста и выполненного действия. Цель игрока состоит в том, чтобы выполнять такие действия, чтобы максимизировать совокупные награды.

Элементы выборки Томпсона следующие:

  1. функция правдоподобия ;
  2. набор параметров распределения ;
  3. предварительное распределение по этим параметрам;
  4. тройки прошлых наблюдений ;
  5. апостериорное распределение , где - функция правдоподобия.

Выборка Томпсона заключается в воспроизведении действия в соответствии с вероятностью того, что оно максимизирует ожидаемое вознаграждение, т. Е. Действие выбирается с вероятностью.

где - индикаторная функция .

На практике правило реализуется путем выборки в каждом раунде параметров из апостериорных значений и выбора действия, которое максимизирует , т. Е. Ожидаемого вознаграждения с учетом выбранных параметров, действия и текущего контекста. Концептуально это означает, что игрок случайным образом формирует свои убеждения в каждом раунде в соответствии с апостериорным распределением, а затем действует оптимально в соответствии с ними. В большинстве практических приложений поддерживать и делать выборку из апостериорного распределения по моделям обременительно с вычислительной точки зрения. Таким образом, отбор проб Томпсона часто используется в сочетании с приблизительными методами отбора проб. [2]

История [ править ]

Отбор проб Томпсона был первоначально описан Томпсоном в 1933 году. [1] Впоследствии он был повторно открыт много раз независимо в контексте проблем многоруких бандитов. [3] [4] [5] [6] [7] [8] Первое доказательство сходимости для случая бандитов было показано в 1997 году. [3] Первое приложение к марковским процессам принятия решений было в 2000 году. [5] Соответствующий подход (см. Правило байесовского контроля ) был опубликован в 2010 году. [4] В 2010 году также было показано, что выборка Томпсона мгновенно самокорректируется . [8]Результаты асимптотической конвергенции для контекстных бандитов были опубликованы в 2011 году. [6] В настоящее время выборка Томпсона широко используется для решения многих задач онлайн-обучения: выборка Томпсона также применяется к A / B-тестированию в дизайне веб-сайтов и онлайн-рекламе; [9] Выборка Томпсона сформировала основу для ускоренного обучения децентрализованному принятию решений; [10] алгоритм двойной выборки Томпсона (D-TS) [11] был предложен для дуэли бандитов, вариант традиционного MAB, где обратная связь поступает в формате попарного сравнения.

Отношение к другим подходам [ править ]

Вероятность совпадения [ править ]

Сопоставление вероятностей - это стратегия принятия решений, в которой прогнозы членства в классе пропорциональны базовым ставкам класса. Таким образом, если в обучающем наборе положительные примеры наблюдаются в 60% случаев, а отрицательные примеры наблюдаются в 40% случаев, наблюдатель, использующий стратегию сопоставления вероятностей, предсказывает (для немаркированных примеров) метку класса «положительный». в 60% случаев и метка класса «негативный» в 40% случаев.

Правило байесовского контроля [ править ]

Было показано, что обобщение выборки Томпсона на произвольные динамические среды и причинные структуры, известное как правило байесовского управления , является оптимальным решением проблемы адаптивного кодирования с действиями и наблюдениями. [4] В этой формулировке агент концептуализируется как смесь набора поведений. По мере того, как агент взаимодействует со своей средой, он изучает причинные свойства и принимает поведение, которое минимизирует относительную энтропию к поведению с наилучшим предсказанием поведения окружающей среды. Если это поведение было выбрано в соответствии с принципом максимальной ожидаемой полезности, то асимптотическое поведение правила байесовского управления соответствует асимптотическому поведению совершенно рационального агента.

Настройка выглядит следующим образом. Пусть будут действия, произведенные агентом до момента времени , и пусть будут наблюдения, собранные агентом к моменту времени . Затем агент с вероятностью выдает действие : [4]

где "шляпа" обозначает факт, который является причинным вмешательством (см. Причинность ), а не обычным наблюдением. Если агент верит в свое поведение, то правило байесовского контроля становится

,

где - апостериорное распределение по параметру с учетом действий и наблюдений .

На практике байесовский контроль представляет собой выборку на каждом временном шаге параметра из апостериорного распределения , где апостериорное распределение вычисляется с использованием правила Байеса только с учетом (причинной) вероятности наблюдений и игнорирования (причинной) вероятности. действий , а затем путем выборки действия из распределения действий .

Алгоритмы верхнего уровня достоверности (UCB) [ править ]

Алгоритмы выборки Томпсона и верхней доверительной границы имеют общее фундаментальное свойство, лежащее в основе многих их теоретических гарантий. Грубо говоря, оба алгоритма распределяют исследовательские усилия на действия, которые могут быть оптимальными и в этом смысле «оптимистичными». Используя это свойство, можно преобразовать границы сожаления, установленные для алгоритмов UCB, в байесовские границы сожаления для выборки Томпсона [12] или объединить анализ сожалений для обоих этих алгоритмов и многих классов проблем. [13]

Ссылки [ править ]

  1. ^ a b Томпсон, Уильям Р. «О вероятности того, что одна неизвестная вероятность превосходит другую с учетом свидетельств двух образцов» . Биометрика , 25 (3–4): 285–294, 1933.
  2. ^ a b Дэниел Дж. Руссо, Бенджамин Ван Рой, Аббас Казеруни, Ян Осбанд и Чжэн Вэнь (2018), «Учебное пособие по выборке Томпсона», Основы и тенденции в машинном обучении: Vol. 11: No. 1, стр. 1-96. https://web.stanford.edu/~bvr/pubs/TS_Tutorial.pdf
  3. ^ а б Дж. Вятт. Исследование и вывод в обучении на основе подкрепления . Кандидат наук. защитил диссертацию на кафедре искусственного интеллекта Эдинбургского университета. Март 1997 г.
  4. ^ a b c d П.А. Ортега и Д.А. Браун. «Принцип минимальной относительной энтропии для обучения и действий », Журнал исследований искусственного интеллекта , 38, страницы 475–511, 2010 г.
  5. ^ а б MJA Strens. «Байесовская структура обучения с подкреплением», Материалы семнадцатой Международной конференции по машинному обучению , Стэнфордский университет, Калифорния, 29 июня - 2 июля 2000 г., http://citeseerx.ist.psu.edu/viewdoc/summary?doi= 10.1.1.140.1701
  6. ^ a b BC Мэй, Британская Колумбия, Н. Корда, А. Ли и Д. С. Лесли. «Оптимистическая байесовская выборка в контекстно-бандитских задачах». Технический отчет, Статистическая группа, Департамент математики, Бристольский университет, 2011 г.
  7. Шапель, Оливье и Лихонг Ли. «Эмпирическая оценка выборки Томпсона». Достижения в области нейронных систем обработки информации. 2011. http://papers.nips.cc/paper/4321-an-empirical-evaluation-of-thompson-sampling.
  8. ^ а б О.-С. Гранмо. «Решение задач двурукого бандита Бернулли с помощью байесовского обучающегося автомата», Международный журнал интеллектуальных вычислений и кибернетики , 3 (2), 2010, 207-234.
  9. Ян Кларк . «Пропорциональное A / B-тестирование», 22 сентября 2011 г., http://blog.locut.us/2011/09/22/proportionate-ab-testing/
  10. ^ Гранмо, О.К .; Глимсдал, С. (2012). «Ускоренное байесовское обучение для децентрализованного принятия решений на основе двурукого бандита с приложениями к игре Гура». Прикладной интеллект . 38 (4): 479–488. DOI : 10.1007 / s10489-012-0346-Z . ЛВП : 11250/137969 .
  11. ^ Ву, Хуасень; Лю, Синь; Srikant, R (2016), Double Thompson Sampling for Dueling Bandits , arXiv : 1604.07101 , Bibcode : 2016arXiv160407101W.
  12. ^ Дэниел Дж. Руссо и Бенджамин Ван Рой (2014), «Обучение оптимизации с помощью апостериорной выборки», «Математика исследования операций», Vol. 39, No. 4, pp. 1221-1243, 2014. https://pubsonline.informs.org/doi/abs/10.1287/moor.2014.0650
  13. ^ Дэниел Дж. Руссо и Бенджамин Ван Рой (2013), «Размер ускользания и примерная сложность оптимистического исследования», «Достижения в системах обработки нейронной информации» 26, стр. 2256-2264. http://papers.nips.cc/paper/4909-eluder-dimension-and-the-sample-complexity-of-optimistic-exploration.pdf