В машинном обучении , локальная выборка случай-контроль [1] представляет собой алгоритм используется для уменьшения сложности подготовки к логистической регрессииклассификатор. Алгоритм снижает сложность обучения, выбирая для обучения небольшую подвыборку исходного набора данных. Это предполагает наличие (ненадежной) пилотной оценки параметров. Затем он выполняет один проход по всему набору данных, используя пилотную оценку, чтобы идентифицировать самые «неожиданные» выборки. На практике пилот может исходить из предшествующих знаний или обучения с использованием подвыборки набора данных. Алгоритм наиболее эффективен, когда базовый набор данных несбалансирован. Он использует структуры условно несбалансированных наборов данных более эффективно, чем альтернативные методы, такие как выборка для контроля случая и взвешенная выборка для контроля случая.
Несбалансированные наборы данных
В классификации набор данных представляет собой набор из N точек данных., где вектор признаков, это ярлык. Интуитивно понятно, что набор данных несбалансирован, когда некоторые важные статистические закономерности встречаются редко. Отсутствие наблюдений за определенными закономерностями не всегда означает их несущественность. Например, при медицинских исследованиях редких заболеваний небольшое количество инфицированных пациентов (случаев) дает наиболее ценную информацию для диагностики и лечения.
Формально несбалансированный набор данных демонстрирует одно или несколько из следующих свойств:
- Предельный дисбаланс . Набор данных незначительно несбалансирован, если один класс встречается редко по сравнению с другим классом. Другими словами,.
- Условный дисбаланс . Набор данных условно несбалансирован, когда в большинстве случаев легко предсказать правильные метки. Например, если, набор данных условно несбалансирован, если а также .
Схема алгоритма
В логистической регрессии с учетом модели , прогноз делается согласно . Алгоритм выборки для контроля на местном уровне предполагает наличие пилотной модели.. Учитывая пилотную модель, алгоритм выполняет один проход по всему набору данных, чтобы выбрать подмножество выборок для включения в обучение модели логистической регрессии. Для образца, определим вероятность принятия как . Алгоритм работает следующим образом:
- Создавать независимые для .
- Подобрать модель логистической регрессии для подвыборки , получение нескорректированных оценок .
- Модель вывода , где а также .
Алгоритм можно понять как отбор образцов, которые удивляют пилотную модель. Интуитивно эти выборки ближе к границе решения классификатора и, следовательно, более информативны.
Получение опытной модели
На практике, для случаев, когда пилотная модель естественным образом доступна, алгоритм может применяться напрямую, чтобы уменьшить сложность обучения. В случаях, когда естественный пилот-сигнал отсутствует, вместо него может использоваться оценка с использованием подвыборки, выбранной с помощью другого метода выборки. В оригинальной статье, описывающей алгоритм, авторы предлагают использовать взвешенную выборку случай-контроль с половиной назначенного бюджета выборки. Например, если целью является использование подвыборки с размером, сначала оцените модель с использованием образцы из взвешенной выборки случай-контроль, затем собрать еще образцы с использованием местной выборки случай-контроль.
Больший или меньший размер выборки
Размер выборки можно контролировать, умножив вероятность приемки на постоянную . Для большего размера выборки выберите и скорректировать вероятность принятия до . Для меньшего размера выборки применяется та же стратегия. В случаях, когда желаемое количество выборок является точным, удобным альтернативным методом является равномерная субдискретизация из более крупной подвыборки, выбранной с помощью локальной выборки для контроля случая.
Характеристики
Алгоритм обладает следующими свойствами. Когда пилот согласован , оценки, основанные на выборках из локальной выборки «случай-контроль», согласованы даже при неправильной спецификации модели . Если модель верна, то алгоритм имеет ровно вдвое большую асимптотическую дисперсию логистической регрессии для полного набора данных. Для большего размера выборки с, множитель 2 улучшается до .
Рекомендации
- ^ Фитиан, Уильям; Хасти, Тревор (2014). «Локальная выборка для контроля случая: эффективная подвыборка в несбалансированных наборах данных» . Летопись статистики . 42 (5): 1693–1724. arXiv : 1306.3706 . DOI : 10.1214 / 14-aos1220 . PMC 4258397 . PMID 25492979 .