Выборка для местного контроля

В машинном обучении , локальная выборка случай-контроль ^[1] представляет собой алгоритм используется для уменьшения сложности подготовки к логистической регрессииклассификатор. Алгоритм снижает сложность обучения, выбирая для обучения небольшую подвыборку исходного набора данных. Это предполагает наличие (ненадежной) пилотной оценки параметров. Затем он выполняет один проход по всему набору данных, используя пилотную оценку, чтобы идентифицировать самые «неожиданные» выборки. На практике пилот может исходить из предшествующих знаний или обучения с использованием подвыборки набора данных. Алгоритм наиболее эффективен, когда базовый набор данных несбалансирован. Он использует структуры условно несбалансированных наборов данных более эффективно, чем альтернативные методы, такие как выборка для контроля случая и взвешенная выборка для контроля случая.

Несбалансированные наборы данных

В классификации набор данных представляет собой набор из N точек данных. ${\ Displaystyle (х_ {я}, у_ {я}) _ {я = 1} ^ {N}}$ , где ${\ displaystyle x_ {i} \ in \ mathbb {R} ^ {d}}$ вектор признаков, ${\ Displaystyle у_ {я} \ в \ {0,1 \}}$ это ярлык. Интуитивно понятно, что набор данных несбалансирован, когда некоторые важные статистические закономерности встречаются редко. Отсутствие наблюдений за определенными закономерностями не всегда означает их несущественность. Например, при медицинских исследованиях редких заболеваний небольшое количество инфицированных пациентов (случаев) дает наиболее ценную информацию для диагностики и лечения.

Формально несбалансированный набор данных демонстрирует одно или несколько из следующих свойств:

Предельный дисбаланс . Набор данных незначительно несбалансирован, если один класс встречается редко по сравнению с другим классом. Другими словами, ${\ Displaystyle \ mathbb {P} (Y = 1) \ приблизительно 0}$ .
Условный дисбаланс . Набор данных условно несбалансирован, когда в большинстве случаев легко предсказать правильные метки. Например, если ${\ Displaystyle X \ в \ {0,1 \}}$ , набор данных условно несбалансирован, если ${\ Displaystyle \ mathbb {P} (Y = 1 \ середина X = 0) \ приблизительно 0}$ а также ${\ Displaystyle \ mathbb {P} (Y = 1 \ середина X = 1) \ приблизительно 1}$ .

Схема алгоритма

В логистической регрессии с учетом модели ${\ Displaystyle \ тета = (\ альфа, \ бета)}$ , прогноз делается согласно ${\ displaystyle \ mathbb {P} (Y = 1 \ mid X; \ theta) = {\ tilde {p}} _ {\ theta} (x) = {\ frac {\ exp (\ alpha + \ beta ^ { T} x)} {1+ \ exp (\ alpha + \ beta ^ {T} x)}}}$ . Алгоритм выборки для контроля на местном уровне предполагает наличие пилотной модели. ${\ Displaystyle {\ тильда {\ тета}} = ({\ тильда {\ альфа}}, {\ тильда {\ бета}})}$ . Учитывая пилотную модель, алгоритм выполняет один проход по всему набору данных, чтобы выбрать подмножество выборок для включения в обучение модели логистической регрессии. Для образца ${\ Displaystyle (х, у)}$ , определим вероятность принятия как ${\ Displaystyle а (х, у) = | у - {\ тильда {р}} _ {\ тильда {\ тета}} (х) |}$ . Алгоритм работает следующим образом:

Создавать независимые ${\ displaystyle z_ {i} \ sim {\ text {Bernoulli}} (a (x_ {i}, y_ {i}))}$ для ${\ Displaystyle я \ в \ {1, \ ldots, N \}}$ .
Подобрать модель логистической регрессии для подвыборки ${\ Displaystyle S = \ {(x_ {i}, y_ {i}): z_ {i} = 1 \}}$ , получение нескорректированных оценок ${\ displaystyle {\ hat {\ theta}} _ {S} = ({\ hat {\ alpha}} _ {S}, {\ hat {\ beta}} _ {S})}$ .
Модель вывода ${\ displaystyle {\ hat {\ theta}} = ({\ hat {\ alpha}}, {\ hat {\ beta}})}$ , где ${\ displaystyle {\ hat {\ alpha}} \ leftarrow {\ hat {\ alpha}} _ {S} + {\ tilde {\ alpha}}}$ а также ${\ displaystyle {\ hat {\ beta}} \ leftarrow {\ hat {\ beta}} _ {S} + {\ tilde {\ beta}}}$ .

Алгоритм можно понять как отбор образцов, которые удивляют пилотную модель. Интуитивно эти выборки ближе к границе решения классификатора и, следовательно, более информативны.

Получение опытной модели

На практике, для случаев, когда пилотная модель естественным образом доступна, алгоритм может применяться напрямую, чтобы уменьшить сложность обучения. В случаях, когда естественный пилот-сигнал отсутствует, вместо него может использоваться оценка с использованием подвыборки, выбранной с помощью другого метода выборки. В оригинальной статье, описывающей алгоритм, авторы предлагают использовать взвешенную выборку случай-контроль с половиной назначенного бюджета выборки. Например, если целью является использование подвыборки с размером ${\ displaystyle N = 1000}$ , сначала оцените модель ${\ displaystyle {\ tilde {\ theta}}}$ с использованием ${\ displaystyle N_ {h} = 500}$ образцы из взвешенной выборки случай-контроль, затем собрать еще ${\ displaystyle N_ {h} = 500}$ образцы с использованием местной выборки случай-контроль.

Больший или меньший размер выборки

Размер выборки можно контролировать, умножив вероятность приемки на постоянную ${\ displaystyle c}$ . Для большего размера выборки выберите ${\ displaystyle c> 1}$ и скорректировать вероятность принятия до ${\ displaystyle \ min (ca (x_ {i}, y_ {i}), 1)}$ . Для меньшего размера выборки применяется та же стратегия. В случаях, когда желаемое количество выборок является точным, удобным альтернативным методом является равномерная субдискретизация из более крупной подвыборки, выбранной с помощью локальной выборки для контроля случая.

Характеристики

Алгоритм обладает следующими свойствами. Когда пилот согласован , оценки, основанные на выборках из локальной выборки «случай-контроль», согласованы даже при неправильной спецификации модели . Если модель верна, то алгоритм имеет ровно вдвое большую асимптотическую дисперсию логистической регрессии для полного набора данных. Для большего размера выборки с ${\ displaystyle c> 1}$ , множитель 2 улучшается до ${\ displaystyle 1 + {\ frac {1} {c}}}$ .