Выбор функции

В машинном обучении и статистике , отбор признаков , также известное как переменный выбор , выбор атрибута или переменный выбор подмножества , представляет собой процесс выбора подмножества соответствующих функций (переменные, предикторы) для использования в конструкции модели. Методы выбора характеристик используются по нескольким причинам:

упрощение моделей для облегчения их интерпретации исследователями / пользователями ^[1]
более короткое время обучения,
чтобы избежать проклятия размерности ,
улучшенное обобщение за счет уменьшения переобучения ^[2] (формально уменьшение дисперсии ^[1] )

Основная предпосылка при использовании метода выбора характеристик заключается в том, что данные содержат некоторые функции, которые либо являются избыточными, либо неактуальными , и, таким образом, могут быть удалены без значительных потерь информации. ^[2] Избыточный и нерелевантный - это два разных понятия, поскольку одна релевантная функция может быть избыточной при наличии другой релевантной функции, с которой она сильно коррелирует. ^[3]

Методы выбора признаков следует отличать от извлечения признаков . ^[4] Извлечение функций создает новые функции из функций исходных функций, тогда как выбор функции возвращает подмножество функций. Методы выбора характеристик часто используются в областях, где есть много функций и сравнительно мало образцов (или точек данных). Типичные случаи применения выбора признаков включают анализ письменных текстов и данных микрочипов ДНК , где присутствуют многие тысячи признаков и от нескольких десятков до сотен образцов.

Вступление

Алгоритм выбора признаков можно рассматривать как комбинацию метода поиска для предложения новых подмножеств признаков вместе с мерой оценки, которая оценивает различные подмножества признаков. Самый простой алгоритм - проверить каждое возможное подмножество функций, найти ту, которая минимизирует частоту ошибок. Это исчерпывающий поиск пространства, который с вычислительной точки зрения не поддается обработке для всех, кроме самых маленьких наборов функций. Выбор метрики оценки сильно влияет на алгоритм, и именно эти метрики оценки различают три основные категории алгоритмов выбора функций: оболочки, фильтры и встроенные методы. ^[3]

В методах оболочки используется модель прогнозирования для оценки подмножеств функций. Каждое новое подмножество используется для обучения модели, которая тестируется на удерживающем наборе. Подсчет количества ошибок, допущенных на этом удерживающем наборе (коэффициент ошибок модели), дает оценку для этого подмножества. Поскольку методы оболочки обучают новую модель для каждого подмножества, они требуют больших вычислительных ресурсов, но обычно обеспечивают наиболее эффективный набор функций для этого конкретного типа модели или типичной проблемы.
Методы фильтрации используют прокси-меру вместо частоты ошибок для оценки подмножества функций. Эта мера выбрана так, чтобы ее можно было быстро вычислить, при этом сохраняя полезность набора функций. Общие меры включают в себя взаимную информацию , ^[3] точечна взаимной информации , ^[5] Пирсон продукта момент коэффициент корреляции , алгоритмов помощи на основе , ^[6] и меж / внутрисистемное расстояние класса или партитуру значимости тестов для каждого класса / функций комбинации. ^[5]^[7] Фильтры обычно менее требовательны к вычислениям, чем оболочки, но они создают набор функций, который не настроен на определенный тип прогнозной модели. ^[8] Отсутствие настройки означает, что набор функций из фильтра является более общим, чем набор из оболочки, что обычно дает более низкую производительность прогнозирования, чем оболочка. Однако набор функций не содержит предположений модели прогнозирования и поэтому более полезен для выявления взаимосвязей между функциями. Многие фильтры предоставляют ранжирование функций, а не явное подмножество лучших функций, и точка отсечения в ранжировании выбирается посредством перекрестной проверки . Методы фильтрации также использовались в качестве этапа предварительной обработки для методов оболочки, позволяя использовать оболочку для более крупных проблем. Еще один популярный подход - алгоритм исключения рекурсивных признаков ^[9], обычно используемый с машинами опорных векторов для многократного построения модели и удаления признаков с низким весом.
Встроенные методы - это комплексная группа методов, которые выполняют выбор функций как часть процесса построения модели. Примером этого подхода является метод LASSO для построения линейной модели, который наказывает коэффициенты регрессии штрафом L1, уменьшая многие из них до нуля. Любые функции, которые имеют ненулевые коэффициенты регрессии, «выбираются» алгоритмом LASSO. Улучшения LASSO включают Bolasso, который загружает сэмплы; ^[10] Упругая сетевая регуляризация , которая сочетает штраф L1 LASSO со штрафом L2 регрессии гребня ; и FeaLect, который оценивает все функции на основе комбинаторного анализа коэффициентов регрессии. ^[11] AEFS расширяет LASSO до нелинейных сценариев с автокодировщиками. ^[12] Эти подходы, как правило, находятся между фильтрами и оболочками с точки зрения вычислительной сложности.

В традиционном регрессионном анализе наиболее популярной формой выбора признаков является пошаговая регрессия , которая представляет собой метод обертки. Это жадный алгоритм, который добавляет лучшую характеристику (или удаляет худшую характеристику) на каждом этапе. Основная проблема контроля - решить, когда остановить алгоритм. В машинном обучении это обычно делается путем перекрестной проверки . В статистике оптимизированы некоторые критерии. Это приводит к внутренней проблеме вложенности. Были исследованы более надежные методы, такие как ветвление и граница и кусочно-линейная сеть.

Выбор подмножества

Выбор подмножества оценивает пригодность подмножества функций как группы. Алгоритмы выбора подмножества можно разделить на оболочки, фильтры и встроенные методы. Оболочки используют алгоритм поиска для поиска в пространстве возможных функций и оценки каждого подмножества путем запуска модели на подмножестве. Обертки могут быть дорогостоящими в вычислительном отношении и иметь риск чрезмерного соответствия модели. Фильтры похожи на оболочки в подходе к поиску, но вместо оценки модели оценивается более простой фильтр. Встроенные методы встроены в модель и относятся к ней.

Многие популярные подходы к поиску используют жадное восхождение на холм , которое итеративно оценивает подмножество функций-кандидатов, затем изменяет подмножество и оценивает, является ли новое подмножество улучшением по сравнению со старым. Для оценки подмножеств требуется метрика оценки, которая оценивает подмножество функций. Исчерпывающий поиск обычно непрактичен, поэтому в точке остановки, определенной разработчиком (или оператором), в качестве удовлетворительного подмножества функций выбирается подмножество функций с наивысшей оценкой, обнаруженной до этой точки. Критерий остановки зависит от алгоритма; Возможные критерии включают: оценка подмножества превышает пороговое значение, превышено максимально допустимое время выполнения программы и т. д.

Альтернативные методы, основанные на поиске, основаны на преследовании целевой проекции, которое находит низкоразмерные проекции данных с высокими оценками: затем выбираются объекты, которые имеют наибольшие проекции в низкоразмерном пространстве.

Подходы к поиску включают:

Исчерпывающий ^[13]
Лучшие в первую очередь
Имитация отжига
Генетический алгоритм ^[14]
Жадный прямой выбор ^[15]^[16]^[17]
Жадное обратное устранение
Оптимизация роя частиц ^[18]
Целенаправленное преследование проекции
Поиск по разбросу ^[19]
Поиск переменного района ^[20]^[21]

Две популярные метрики фильтра для задач классификации - это корреляция и взаимная информация , хотя ни одна из них не является истинной метрикой или «мерой расстояния» в математическом смысле, поскольку они не подчиняются неравенству треугольника и, таким образом, не вычисляют никакого фактического «расстояния» - они должны скорее рассматриваться как «баллы». Эти оценки вычисляются между функцией-кандидатом (или набором функций) и желаемой выходной категорией. Однако есть настоящие метрики, которые являются простой функцией взаимной информации; ^[22] см. Здесь .

Другие доступные показатели фильтра включают:

Разделимость классов
- Вероятность ошибки
- Межклассовое расстояние
- Вероятностное расстояние
- Энтропия
Выбор функций на основе согласованности
Выбор признаков на основе корреляции

Критерии оптимальности

Выбор критериев оптимальности затруднен, поскольку задача выбора характеристик преследует несколько целей. Многие общие критерии включают меру точности, за которую накладывается количество выбранных функций. Примеры включают информационный критерий Акаике (AIC) и C p Маллоуза , которые имеют штраф 2 за каждую добавленную функцию. AIC основан на теории информации и эффективно выводится с помощью принципа максимальной энтропии . ^[23]^[24]

Другими критериями являются байесовский информационный критерий (BIC), который использует штраф в размере ${\ displaystyle {\ sqrt {\ log {n}}}}$ для каждой добавленной функции минимальная длина описания (MDL), которая асимптотически использует ${\ displaystyle {\ sqrt {\ log {n}}}}$ , Bonferroni / RIC, которые используют ${\ displaystyle {\ sqrt {2 \ log {p}}}}$ , максимальный выбор функций зависимости и множество новых критериев, которые мотивированы ложным обнаружением (FDR), которые используют что-то близкое к ${\ displaystyle {\ sqrt {2 \ log {\ frac {p} {q}}}}}$ . Критерий максимальной скорости энтропии также может использоваться для выбора наиболее подходящего подмножества функций. ^[25]

Структурное обучение

Выбор функции фильтра - это частный случай более общей парадигмы, называемой структурным обучением . Выбор функций находит соответствующий набор функций для конкретной целевой переменной, тогда как изучение структуры находит взаимосвязи между всеми переменными, обычно выражая эти отношения в виде графика. Наиболее распространенные алгоритмы изучения структуры предполагают, что данные генерируются байесовской сетью , и поэтому структура представляет собой ориентированную графическую модель . Оптимальным решением проблемы выбора характеристик фильтра является марковское одеяло целевого узла, а в байесовской сети существует уникальное марковское одеяло для каждого узла. ^[26]

Механизмы выбора характеристик, основанные на теории информации

Существуют различные механизмы выбора характеристик, которые используют взаимную информацию для оценки различных характеристик. Обычно они используют один и тот же алгоритм:

Вычислите взаимную информацию как оценку между всеми функциями ( ${\ displaystyle f_ {i} \ in F}$ ) и целевой класс ( ${\ displaystyle c}$ )
Выберите функцию с наибольшим количеством баллов (например, ${\ displaystyle argmax_ {f_ {i} \ in F} (I (f_ {i}, c))}$ ) и добавить его в набор выбранных функций ( ${\ displaystyle S}$ )
Подсчитайте балл, который может быть получен из взаимной информации
Выберите функцию с наибольшим количеством баллов и добавьте ее в набор выбранных функций (например, ${\ displaystyle argmax_ {f_ {i} \ in F} (I_ {производное} (f_ {i}, c))}$ )
Повторяйте 3. и 4. до тех пор, пока не будет выбрано определенное количество функций (например, ${\ displaystyle | S | = l}$ )

В простейшем подходе в качестве «производной» оценки используется взаимная информация . ^[27]

Однако есть разные подходы, которые пытаются уменьшить избыточность между функциями.

Выбор функции минимальной избыточности и максимальной релевантности (mRMR)

Peng et al. ^[28] предложили метод выбора признаков, который может использовать либо взаимную информацию, корреляцию, либо оценки расстояния / сходства для выбора признаков. Цель состоит в том, чтобы снизить актуальность функции за счет ее избыточности в присутствии других выбранных функций. Релевантность набора характеристик $S$ для класса $c$ определяется средним значением всех значений взаимной информации между индивидуальным признаком $f i$ и классом $c$ следующим образом:

{\ displaystyle D (S, c) = {\ frac {1} {| S |}} \ sum _ {f_ {i} \ in S} I (f_ {i}; c)}

.

Избыточность всех признаков в наборе $S$ - это среднее значение всех значений взаимной информации между признаком $f i$ и признаком $f j$ :

{\ displaystyle R (S) = {\ frac {1} {| S | ^ {2}}} \ sum _ {f_ {i}, f_ {j} \ in S} I (f_ {i}; f_ { j})}

Критерий mRMR представляет собой комбинацию двух приведенных выше показателей и определяется следующим образом:

{\ displaystyle \ mathrm {mRMR} = \ max _ {S} \ left [{\ frac {1} {| S |}} \ sum _ {f_ {i} \ in S} I (f_ {i}; c ) - {\ frac {1} {| S | ^ {2}}} \ sum _ {f_ {i}, f_ {j} \ in S} I (f_ {i}; f_ {j}) \ right] .}

Предположим, что есть $n$ полнофункциональных функций. Пусть $x i$ будет функцией индикатора принадлежности к набору для признака $f i$ , так что $x i = 1$ указывает на присутствие, а $x i = 0$ указывает на отсутствие признака $f i$ в глобально оптимальном наборе признаков. Позволять ${\ displaystyle c_ {i} = I (f_ {i}; c)}$ а также ${\ displaystyle a_ {ij} = I (f_ {i}; f_ {j})}$ . Вышеизложенное может быть записано как задача оптимизации:

{\ displaystyle \ mathrm {mRMR} = \ max _ {x \ in \ {0,1 \} ^ {n}} \ left [{\ frac {\ sum _ {i = 1} ^ {n} c_ {i } x_ {i}} {\ sum _ {i = 1} ^ {n} x_ {i}}} - {\ frac {\ sum _ {i, j = 1} ^ {n} a_ {ij} x_ { i} x_ {j}} {(\ sum _ {i = 1} ^ {n} x_ {i}) ^ {2}}} \ right].}

Алгоритм mRMR является приближением теоретически оптимального алгоритма выбора признаков с максимальной зависимостью, который максимизирует взаимную информацию между совместным распределением выбранных признаков и переменной классификации. Поскольку mRMR аппроксимирует комбинаторную задачу оценивания серией гораздо меньших задач, каждая из которых включает только две переменные, она, таким образом, использует более надежные попарные совместные вероятности. В определенных ситуациях алгоритм может недооценивать полезность функций, поскольку у него нет способа измерить взаимодействия между функциями, которые могут повысить релевантность. Это может привести к снижению производительности ^[27], когда функции по отдельности бесполезны, но полезны в сочетании (патологический случай обнаруживается, когда класс является функцией четности функций ). В целом алгоритм более эффективен (с точки зрения количества требуемых данных), чем теоретически оптимальный выбор максимальной зависимости, но дает набор функций с небольшой попарной избыточностью.

mRMR - это пример большого класса методов фильтрации, которые по-разному балансируют между релевантностью и избыточностью. ^[27]^[29]

Выбор функции квадратичного программирования

mRMR - типичный пример инкрементальной жадной стратегии для выбора функции: после того, как функция была выбрана, ее нельзя отменить на более позднем этапе. Хотя mRMR можно оптимизировать с помощью плавающего поиска для уменьшения некоторых функций, его также можно переформулировать как задачу оптимизации глобального квадратичного программирования следующим образом: ^[30]

{\ displaystyle \ mathrm {QPFS}: \ min _ {\ mathbf {x}} \ left \ {\ alpha \ mathbf {x} ^ {T} H \ mathbf {x} - \ mathbf {x} ^ {T} F \ right \} \ quad {\ mbox {st}} \ \ sum _ {i = 1} ^ {n} x_ {i} = 1, x_ {i} \ geq 0}

где ${\ Displaystyle F_ {п \ раз 1} = [I (f_ {1}; c), \ ldots, I (f_ {n}; c)] ^ {T}}$ вектор релевантности функции при условии, что всего $n$ функций, ${\ Displaystyle Н_ {п \ раз п} = [я (е_ {я}; е_ {j})] _ {я, j = 1 \ ldots n}}$ - матрица попарной избыточности признаков, а ${\ Displaystyle \ mathbf {х} _ {п \ раз 1}}$ представляет относительные веса функций. QPFS решается с помощью квадратичного программирования. Недавно было показано, что QFPS смещается в сторону характеристик с меньшей энтропией ^[31] из-за размещения в нем члена самодостаточной функции ${\ Displaystyle I (е_ {я}; е_ {я})}$ на диагонали $H$ .

Условная взаимная информация

Другая оценка, полученная для взаимной информации, основана на условной релевантности: ^[31]

{\ displaystyle \ mathrm {SPEC_ {CMI}}: \ max _ {\ mathbf {x}} \ left \ {\ mathbf {x} ^ {T} Q \ mathbf {x} \ right \} \ quad {\ mbox {st}} \ \ | \ mathbf {x} \ | = 1, x_ {i} \ geq 0}

где ${\ displaystyle Q_ {ii} = I (f_ {i}; c)}$ а также ${\ displaystyle Q_ {ij} = I (f_ {i}; c | f_ {j}), i \ neq j}$ .

Преимущество $SPEC CMI$ заключается в том, что его можно решить просто путем нахождения доминирующего собственного вектора $Q$ , что делает его очень масштабируемым. $SPEC CMI$ также обрабатывает взаимодействие функций второго порядка.

Совместная взаимная информация

В исследовании с разными оценками Brown et al. ^[27] рекомендовал совместную взаимную информацию ^[32] как хороший показатель для выбора функций. Оценка пытается найти функцию, которая добавляет самую новую информацию к уже выбранным функциям, чтобы избежать дублирования. Оценка формулируется следующим образом:

${\ displaystyle {\ begin {align} JMI (f_ {i}) & = \ sum _ {f_ {j} \ in S} (I (f_ {i}; c) + I (f_ {i}; c | f_ {j})) \\ & = \ sum _ {f_ {j} \ in S} {\ bigl [} I (f_ {j}; c) + I (f_ {i}; c) - {\ bigl (} I (f_ {i}; f_ {j}) - I (f_ {i}; f_ {j} | c) {\ bigr)} {\ bigr]} \ end {выровнено}}}$

Оценка использует условную взаимную информацию и взаимную информацию для оценки избыточности между уже выбранными функциями ( ${\ displaystyle f_ {j} \ in S}$ ) и исследуемый объект ( ${\ displaystyle f_ {i}}$ ).

Критерий независимости Гильберта-Шмидта Выбор функций на основе лассо

Для данных большой размерности и малых выборок (например, размерность> 10 ⁵ и количество выборок <10 ³ ) полезно использовать лассо критерия независимости Гильберта-Шмидта (HSIC Lasso). ^[33] Задача оптимизации HSIC Lasso задается как

{\ displaystyle \ mathrm {HSIC_ {Lasso}}: \ min _ {\ mathbf {x}} {\ frac {1} {2}} \ sum _ {k, l = 1} ^ {n} x_ {k} x_ {l} {\ mbox {HSIC}} (f_ {k}, f_ {l}) - \ sum _ {k = 1} ^ {n} x_ {k} {\ mbox {HSIC}} (f_ {k }, c) + \ lambda \ | \ mathbf {x} \ | _ {1}, \ quad {\ mbox {st}} \ x_ {1}, \ ldots, x_ {n} \ geq 0,}

где ${\ Displaystyle {\ mbox {HSIC}} (f_ {k}, c) = {\ mbox {tr}} ({\ bar {\ mathbf {K}}} ^ {(k)} {\ bar {\ mathbf {L}}})}$ - основанная на ядре мера независимости, называемая (эмпирическим) критерием независимости Гильберта-Шмидта (HSIC), ${\ Displaystyle {\ mbox {tr}} (\ cdot)}$ обозначает след , ${\ displaystyle \ lambda}$ - параметр регуляризации, ${\ displaystyle {\ bar {\ mathbf {K}}} ^ {(k)} = \ mathbf {\ Gamma} \ mathbf {K} ^ {(k)} \ mathbf {\ Gamma}}$ а также ${\ displaystyle {\ bar {\ mathbf {L}}} = \ mathbf {\ Gamma} \ mathbf {L} \ mathbf {\ Gamma}}$ центрированные по входу и выходу матрицы Грама , ${\ Displaystyle К_ {я, j} ^ {(к)} = К (и_ {к, я}, и_ {к, j})}$ а также ${\ Displaystyle L_ {я, j} = L (c_ {i}, c_ {j})}$ матрицы Грама, ${\ Displaystyle К (и, и ')}$ а также ${\ Displaystyle L (с, с ')}$ - функции ядра, ${\ displaystyle \ mathbf {\ Gamma} = \ mathbf {I} _ {m} - {\ frac {1} {m}} \ mathbf {1} _ {m} \ mathbf {1} _ {m} ^ { T}}$ - центрирующая матрица, ${\ displaystyle \ mathbf {I} _ {m}}$ - это $m$ -мерная единичная матрица ( $m$ : количество выборок), ${\ displaystyle \ mathbf {1} _ {m}}$ - $m$ -мерный вектор со всеми единицами, а ${\ Displaystyle \ | \ cdot \ | _ {1}}$ это ${\ displaystyle \ ell _ {1}}$ -норма. HSIC всегда принимает неотрицательное значение и равен нулю тогда и только тогда, когда две случайные величины статистически независимы, когда используется универсальное воспроизводящее ядро, такое как ядро Гаусса.

HSIC Lasso можно записать как

{\ displaystyle \ mathrm {HSIC_ {Lasso}}: \ min _ {\ mathbf {x}} {\ frac {1} {2}} \ left \ | {\ bar {\ mathbf {L}}} - \ sum _ {k = 1} ^ {n} x_ {k} {\ bar {\ mathbf {K}}} ^ {(k)} \ right \ | _ {F} ^ {2} + \ lambda \ | \ mathbf {x} \ | _ {1}, \ quad {\ mbox {st}} \ x_ {1}, \ ldots, x_ {n} \ geq 0,}

где ${\ Displaystyle \ | \ cdot \ | _ {F}}$ - норма Фробениуса . Задача оптимизации - это задача лассо, и поэтому ее можно эффективно решить с помощью современного решателя лассо, такого как двойственный расширенный метод Лагранжа .

Выбор функции корреляции

Мера выбора признаков корреляции (CFS) оценивает подмножества признаков на основе следующей гипотезы: «Хорошие подмножества признаков содержат признаки, сильно коррелированные с классификацией, но не коррелированные друг с другом». ^[34]^[35] Следующее уравнение показывает достоинства подмножества S, состоящего из k функций:

{\ displaystyle \ mathrm {Merit} _ {S_ {k}} = {\ frac {k {\ overline {r_ {cf}}}}} {\ sqrt {k + k (k-1) {\ overline {r_ { ff}}}}}}.}

Здесь, ${\ displaystyle {\ overline {r_ {cf}}}}$ - среднее значение всех корреляций классификации признаков, и ${\ displaystyle {\ overline {r_ {ff}}}}$ - среднее значение всех корреляций между характеристиками. Критерий CFS определяется следующим образом:

{\ displaystyle \ mathrm {CFS} = \ max _ {S_ {k}} \ left [{\ frac {r_ {cf_ {1}} + r_ {cf_ {2}} + \ cdots + r_ {cf_ {k}} }} {\ sqrt {k + 2 (r_ {f_ {1} f_ {2}} + \ cdots + r_ {f_ {i} f_ {j}} + \ cdots + r_ {f_ {k} f_ {k- 1}})}}} \ right].}

В ${\ displaystyle r_ {cf_ {i}}}$ а также ${\ displaystyle r_ {f_ {i} f_ {j}}}$ переменные называются корреляциями, но не обязательно являются коэффициентом корреляции Пирсона или ρ Спирмена . В диссертации Холла не используется ни один из них, но используются три различных критерия родства: минимальная длина описания (MDL), симметричная неопределенность и облегчение .

Пусть x _i будет установленной функцией индикатора принадлежности для признака f _i ; то приведенное выше можно переписать как задачу оптимизации:

{\ displaystyle \ mathrm {CFS} = \ max _ {x \ in \ {0,1 \} ^ {n}} \ left [{\ frac {(\ sum _ {i = 1} ^ {n} a_ { i} x_ {i}) ^ {2}} {\ sum _ {i = 1} ^ {n} x_ {i} + \ sum _ {i \ neq j} 2b_ {ij} x_ {i} x_ {j }}}\верно].}

Комбинаторные задачи, описанные выше, по сути, являются смешанными задачами линейного программирования 0–1, которые могут быть решены с помощью алгоритмов ветвей и границ . ^[36]

Регуляризованные деревья

Показано, что признаки из дерева решений или ансамбля деревьев являются избыточными. Для выбора подмножества признаков можно использовать недавний метод, называемый регуляризованным деревом ^[37] . Регуляризованные деревья наказываются использованием переменной, подобной переменным, выбранным в предыдущих узлах дерева для разделения текущего узла. Регуляризованные деревья нуждаются в построении только одной модели дерева (или одной модели ансамбля деревьев) и, таким образом, являются эффективными с вычислительной точки зрения.

Регуляризованные деревья естественным образом обрабатывают числовые и категориальные особенности, взаимодействия и нелинейности. Они инвариантны к шкалам атрибутов (единицам) и нечувствительны к выбросам и, следовательно, не требуют предварительной обработки данных, такой как нормализация . Регуляризованный случайный лес (RRF) ^[38] - это один из типов регуляризованных деревьев. Управляемый RRF - это улучшенный RRF, который руководствуется оценками важности из обычного случайного леса.

Обзор методов метаэвристики

Метаэвристический общее описание алгоритма , посвященный решению сложных ( как правило , NP-трудная задача) задачи оптимизации , для которых нет классических методов разрешающих. Как правило, метаэвристика - это стохастический алгоритм, стремящийся достичь глобального оптимума. Существует множество метаэвристик, от простого локального поиска до сложного глобального алгоритма поиска.

Основные принципы

Методы выбора функций обычно представлены в трех классах в зависимости от того, как они сочетают алгоритм выбора и построение модели.

Метод фильтрации

Метод фильтрации для выбора функции

Методы типа фильтра выбирают переменные независимо от модели. Они основаны только на общих характеристиках, таких как корреляция с прогнозируемой переменной. Методы фильтрации исключают наименее интересные переменные. Другие переменные будут частью классификации или регрессионной модели, используемой для классификации или прогнозирования данных. Эти методы особенно эффективны с точки зрения времени вычислений и устойчивы к переобучению. ^[39]

Методы фильтрации, как правило, выбирают избыточные переменные, когда они не учитывают отношения между переменными. Однако более сложные функции пытаются минимизировать эту проблему, удаляя переменные, сильно коррелированные друг с другом, такие как алгоритм фильтра на основе быстрой корреляции (FCBF). ^[40]

Wrapper метод

Метод оболочки для выбора функции

Методы оболочки оценивают подмножества переменных, что позволяет, в отличие от подходов с фильтрами, обнаруживать возможные взаимодействия между переменными. ^[41] Два основных недостатка этих методов:

Возрастающий риск переобучения при недостаточном количестве наблюдений.
Значительное время вычислений при большом количестве переменных.

Встроенный метод

Встроенный метод выбора функции

Недавно были предложены встроенные методы, которые пытаются объединить преимущества обоих предыдущих методов. Алгоритм обучения использует преимущества собственного процесса выбора переменных и одновременно выполняет выбор и классификацию признаков, например алгоритм FRMT. ^[42]

Применение метаэвристики выбора признаков

Это обзор применения метаэвристики выбора признаков, используемой в последнее время в литературе. Этот обзор был проведен Дж. Хэммон в своей диссертации 2013 года. ^[39]

Заявление	Алгоритм	Подход	Классификатор	Функция оценки	Справка
SNP	Выбор функций с использованием сходства функций	Фильтр		r ²	Phuong 2005 ^[41]
SNP	Генетический алгоритм	Обертка	Древо решений	Точность классификации (10 раз)	Шах 2004 ^[43]
SNP	скалолазание	Фильтр + Обертка	Наивный байесовский	Прогнозируемая остаточная сумма квадратов	Длинный 2007 ^[44]
SNP	Имитация отжига		Наивный байесовский	Точность классификации (5-кратная)	Устункар 2011 ^[45]
Сегменты условно-досрочное освобождение	Колония муравьев	Обертка	Искусственная нейронная сеть	MSE	Аль-Ани 2005 ^{[ необходима ссылка ]}
Маркетинг	Имитация отжига	Обертка	Регресс	АПК , г ²	Мейри 2006 ^[46]
Экономика	Имитация отжига, генетический алгоритм	Обертка	Регресс	BIC	Капетаниос 2007 ^[47]
Спектральная масса	Генетический алгоритм	Обертка	Множественная линейная регрессия, частичные наименьшие квадраты	среднеквадратичная ошибка прогноза	Broadhurst et al. 1997 ^[48]
Спам	Бинарный PSO + мутация	Обертка	Древо решений	взвешенная стоимость	Чжан 2014 ^[18]
Микрочип	Табу поиск + PSO	Обертка	Машина опорных векторов , K ближайших соседей	Евклидово расстояние	Чжуан 2009 ^[49]
Микрочип	PSO + Генетический алгоритм	Обертка	Машина опорных векторов	Точность классификации (10 раз)	Альба 2007 ^[50]
Микрочип	Генетический алгоритм + повторный локальный поиск	Встроенный	Машина опорных векторов	Точность классификации (10 раз)	Дюваль 2009 ^[51]
Микрочип	Повторный локальный поиск	Обертка	Регресс	Апостериорная вероятность	Ганс 2007 ^[52]
Микрочип	Генетический алгоритм	Обертка	K Ближайшие соседи	Точность классификации ( перекрестная проверка без исключения )	Джирапеч-Умпай 2005 ^[53]
Микрочип	Гибридный генетический алгоритм	Обертка	K Ближайшие соседи	Точность классификации (перекрестная проверка без исключения)	О 2004 ^[54]
Микрочип	Генетический алгоритм	Обертка	Машина опорных векторов	Чувствительность и специфичность	Сюань 2011 ^[55]
Микрочип	Генетический алгоритм	Обертка	Все парные машины опорных векторов	Точность классификации (перекрестная проверка без исключения)	Пэн 2003 ^[56]
Микрочип	Генетический алгоритм	Встроенный	Машина опорных векторов	Точность классификации (10 раз)	Эрнандес 2007 ^[57]
Микрочип	Генетический алгоритм	Гибридный	Машина опорных векторов	Точность классификации (перекрестная проверка без исключения)	Huerta 2006 ^[58]
Микрочип	Генетический алгоритм		Машина опорных векторов	Точность классификации (10 раз)	Муни 2006 ^[59]
Микрочип	Генетический алгоритм	Обертка	Машина опорных векторов	EH-DIALL, CLUMP	Журдан 2005 ^[60]
Болезнь Альцгеймера	T-критерий Велча	Фильтр	Машина опорных векторов	Точность классификации (10 раз)	Чжан 2015 ^[61]
Компьютерное зрение	Бесконечный выбор функций	Фильтр	Независимый	Средняя точность , ROC AUC	Roffo 2015 ^[62]
Микрочипы	Центральность собственного вектора FS	Фильтр	Независимый	Средняя точность, точность, ROC AUC	Роффо и Мельци, 2016 ^[63]
XML	Симметричный тау (ST)	Фильтр	Структурно-ассоциативная классификация	Точность, охват	Шахарани и Хаджич 2014

Выбор функций встроен в алгоритмы обучения

Некоторые алгоритмы обучения выполняют выбор функций как часть своей общей работы. Это включает:

${\ displaystyle l_ {1}}$ -техники регуляризации, такие как разреженная регрессия, LASSO и ${\ displaystyle l_ {1}}$ -SVM
Регуляризованные деревья, ^[37] например, регуляризованный случайный лес, реализованный в пакете RRF ^[38]
Дерево решений ^[64]
Меметический алгоритм
Случайный полиномиальный логит (RMNL)
Автокодирование сетей с узким местом
Выбор субмодульных функций ^[65]^[66]^[67]
Выбор функций на основе местного обучения. ^[68] По сравнению с традиционными методами, он не требует эвристического поиска, может легко обрабатывать многоклассовые задачи и работает как для линейных, так и для нелинейных задач. Это также поддерживается прочной теоретической базой. Численные эксперименты показали, что с помощью этого метода можно достичь решения, близкого к оптимальному, даже если данные содержат> 1 млн нерелевантных функций.
Система рекомендаций, основанная на выборе функций. ^[69] Методы выбора характеристик вводятся в исследование рекомендательной системы.

Смотрите также

Кластерный анализ
Сбор данных
Снижение размерности
Извлечение признаков
Оптимизация гиперпараметров
Выбор модели
Рельеф (выбор функции)

дальнейшее чтение

Гийон, Изабель; Элиссефф, Андре (2003). «Введение в выбор переменных и функций» . Журнал исследований в области машинного обучения . 3 : 1157–1182.
Харрелл, Ф. (2001). Стратегии регрессионного моделирования . Springer. ISBN 0-387-95232-2.
Лю, Хуань; Мотода, Хироши (1998). Выбор функций для обнаружения знаний и интеллектуального анализа данных . Springer. ISBN 0-7923-8198-X.
Лю, Хуань; Ю, Лей (2005). «На пути к интеграции алгоритмов выбора признаков для классификации и кластеризации». IEEE Transactions по разработке знаний и данных . 17 (4): 491–502. DOI : 10,1109 / TKDE.2005.66 . S2CID 1607600 .

Внешние ссылки

Пакет выбора функций, Университет штата Аризона (код Matlab)
NIPS Challenge 2003 (см. Также NIPS )
Наивная реализация Байеса с выбором функций в Visual Basic (включая исполняемый и исходный код)
Программа выбора функций с минимальной избыточностью и максимальной релевантностью (mRMR)
FEAST (Алгоритмы выбора функций с открытым исходным кодом в C и MATLAB)

[islr-1] Гарет Джеймс; Даниэла Виттен; Тревор Хасти; Роберт Тибширани (2013). Введение в статистическое обучение . Springer. п. 204.

[Bermingham-prolog-2] а б Bermingham, Mairead L .; Понг-Вонг, Рикардо; Спилиопулу, Афина; Хейворд, Кэролайн; Рудан, Игорь; Кэмпбелл, Гарри; Райт, Алан Ф .; Уилсон, Джеймс Ф .; Агаков, Феликс; Наварро, По; Хейли, Крис С. (2015). «Применение многомерного отбора признаков: оценка для геномного предсказания у человека» . Sci. Отчет 5 : 10312. Bibcode : 2015NatSR ... 510312B . DOI : 10.1038 / srep10312 . PMC 4437376 . PMID 25988841 .

[guyon-intro-3] а б в Гийон, Изабель; Элиссефф, Андре (2003). «Введение в выбор переменных и функций» . JMLR . 3 .

[4] Саранги, Сусанта; Сахидулла, штат Мэриленд; Саха, Гоутам (сентябрь 2020 г.). «Оптимизация набора фильтров на основе данных для автоматической проверки говорящего». Цифровая обработка сигналов . 104 : 102795. arXiv : 2007.10729 . DOI : 10.1016 / j.dsp.2020.102795 . S2CID 220665533 .

[textcat-5] а б Ян, Иминь; Педерсен, Ян О. (1997). Сравнительное исследование выбора функций при категоризации текста (PDF) . ICML.

[6] Урбанович, Райан Дж .; Микер, Мелисса; ЛаКава, Уильям; Olson, Randal S .; Мур, Джейсон Х. (2018). «Выбор функций на основе рельефа: введение и обзор» . Журнал биомедицинской информатики . 85 : 189–203. arXiv : 1711.08421 . DOI : 10.1016 / j.jbi.2018.07.014 . PMC 6299836 . PMID 30031057 .

[7] Форман, Джордж (2003). «Обширное эмпирическое исследование показателей выбора функций для классификации текста» (PDF) . Журнал исследований в области машинного обучения . 3 : 1289–1305.

[8] Иши Чжан; Шуцзюань Ли; Тэн Ван; Зиган Чжан (2013). «Отбор признаков для отдельных классов на основе дивергенции». Нейрокомпьютеры . 101 (4): 32–42. DOI : 10.1016 / j.neucom.2012.06.036 .

[9] Guyon I .; Вестон Дж .; Barnhill S .; Вапник В. (2002). «Выбор гена для классификации рака с использованием машин опорных векторов» . Машинное обучение . 46 (1–3): 389–422. DOI : 10,1023 / A: 1012487302797 .

[Bolasso-10] Бах, Фрэнсис R (2008). Болассо: модель согласованной оценки лассо с помощью бутстрапа . Материалы 25-й Международной конференции по машинному обучению . С. 33–40. DOI : 10.1145 / 1390156.1390161 . ISBN 9781605582054. S2CID 609778 .

[FeaLect-11] Заре, Хабил (2013). «Оценка релевантности функций на основе комбинаторного анализа Лассо с приложением к диагностике лимфомы» . BMC Genomics . 14 : S14. DOI : 10.1186 / 1471-2164-14-S1-S14 . PMC 3549810 . PMID 23369194 .

[12] Кай Хан; Юньхэ Ван; Чао Чжан; Чао Ли; Чао Сюй (2018). Автоэнкодер вдохновил неконтролируемый выбор функций . Международная конференция IEEE по акустике, обработке речи и сигналов (ICASSP).

[13] Хазиме, Хусейн; Мазумдер, Рахул; Сааб, Али (2020). «Разреженная регрессия в масштабе: ветвление и граница, основанная на оптимизации первого порядка». arXiv : 2004.06152 [ stat.CO ].

[14] Суфан, Осман; Клефтогианнис, Димитриос; Калнис, Панос; Баич, Владимир Б. (26.02.2015). «DWFS: инструмент выбора функций оболочки, основанный на параллельном генетическом алгоритме» . PLOS ONE . 10 (2): e0117988. Bibcode : 2015PLoSO..1017988S . DOI : 10.1371 / journal.pone.0117988 . ISSN 1932-6203 . PMC 4342225 . PMID 25719748 .

[15] Фигероа, Алехандро (2015). «Изучение эффективных функций для распознавания намерений пользователя, стоящих за веб-запросами» . Компьютеры в промышленности . 68 : 162–169. DOI : 10.1016 / j.compind.2015.01.005 .

[16] Фигероа, Алехандро; Гюнтер Нойман (2013). Обучение ранжированию эффективных перефразирований из журналов запросов для ответов на вопросы сообщества . AAAI.

[17] Фигероа, Алехандро; Гюнтер Нойман (2014). «Категориальные модели для ранжирования эффективных пересказов в ответах на вопросы сообщества» . Экспертные системы с приложениями . 41 (10): 4730–4742. DOI : 10.1016 / j.eswa.2014.02.004 . hdl : 10533/196878 .

[sciencedirect.com-18] а б Zhang, Y .; Wang, S .; Филлипс, П. (2014). «Двоичный PSO с оператором мутации для выбора функции с использованием дерева решений, применяемого к обнаружению спама». Системы, основанные на знаниях . 64 : 22–31. DOI : 10.1016 / j.knosys.2014.03.015 .

[19] ФК Гарсия-Лопес, М. Гарсия-Торрес, Б. Мелиан, Х.А. Морено-Перес, Дж. М. Морено-Вега. Решение проблемы выбора подмножества признаков с помощью параллельного точечного поиска , European Journal of Operational Research , vol. 169, нет. 2. С. 477–489, 2006.

[20] ФК Гарсия-Лопес, М. Гарсия-Торрес, Б. Мелиан, Х.А. Морено-Перес, Дж. М. Морено-Вега. Решение проблемы выбора подмножества признаков с помощью гибридной метаэвристики . В Первом международном семинаре по гибридной метаэвристике , стр. 59–68, 2004 г.

[21] М. Гарсия-Торрес, Ф. Гомес-Вела, Б. Мелиан, Дж. М. Морено-Вега. Выбор пространственных объектов с помощью группировки объектов: подход поиска по переменным окрестностям , Информационные науки , т. 326, стр. 102-118, 2016.

[22] Красков, Александр; Штегбауэр, Харальд; Анджеяк, Ральф Джи; Грассбергер, Питер (2003). «Иерархическая кластеризация на основе взаимной информации». arXiv : q-bio / 0311039 . Bibcode : 2003q.bio .... 11039K . Цитировать журнал требует |journal=( помощь )

[23] Акаике, Х. (1985), «Предсказание и энтропия», в Аткинсоне, АС; Финберг, С.Е. (ред.), Праздник статистики (PDF) , Springer, стр. 1–24..

[24] Бернем, КП; Андерсон, Д.Р. (2002), Выбор модели и многомодельный вывод: практический теоретико-информационный подход (2-е изд.), Springer-Verlag , ISBN 9780387953649.

[25] Эйнике, GA (2018). «Выбор характеристик с максимальным уровнем энтропии для классификации изменений в динамике коленного и голеностопного суставов во время бега». Журнал IEEE по биомедицинской и медицинской информатике . 28 (4): 1097–1103. DOI : 10,1109 / JBHI.2017.2711487 . PMID 29969403 . S2CID 49555941 .

[26] Алиферис, Константин (2010). «Локальная причинная и марковская бланкетная индукция для обнаружения причин и выбора признаков для классификации, часть I: Алгоритмы и эмпирическая оценка» (PDF) . Журнал исследований в области машинного обучения . 11 : 171–234.

[Brown-27] а б в г Браун, Гэвин; Покок, Адам; Чжао, Мин-Цзе; Лухан, Микель (2012). «Максимизация условного правдоподобия: объединяющая основа для выбора теоретических характеристик информации» . Журнал исследований в области машинного обучения . 13 : 27–66.[1]

[28] Пэн, HC; Long, F .; Дин, К. (2005). «Выбор функций на основе взаимной информации: критерии максимальной зависимости, максимальной релевантности и минимальной избыточности». IEEE Transactions по анализу шаблонов и машинному анализу . 27 (8): 1226–1238. CiteSeerX 10.1.1.63.5765 . DOI : 10.1109 / TPAMI.2005.159 . PMID 16119262 . S2CID 206764015 . Программа

[docs.google-29] Перейти ↑ Nguyen, H., Franke, K., Petrovic, S. (2010). «На пути к универсальной мере выбора функций для обнаружения вторжений», In Proc. Международная конференция по распознаванию образов (ICPR), Стамбул, Турция. [2]

[QPFS-30] Родригес-Лухан, I .; Huerta, R .; Elkan, C .; Санта-Крус, К. (2010). «Выбор функций квадратичного программирования» (PDF) . JMLR . 11 : 1491–1516.

[CMI-31] Нгуен X. Винь, Джеффри Чан, Симоне Романо и Джеймс Бейли, «Эффективные глобальные подходы к выбору функций на основе взаимной информации». Материалы 20-й конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных (KDD'14), 24–27 августа, Нью-Йорк, 2014 г. " [3] "

[32] Ян, Ховард Хуа; Муди, Джон (2000). «Визуализация данных и выбор функций: новые алгоритмы для негауссовских данных» (PDF) . Достижения в системах обработки нейронной информации : 687–693.

[HSICLasso-33] Yamada, M .; Jitkrittum, W .; Sigal, L .; Син, EP; Сугияма, М. (2014). «Выбор крупногабаритных объектов с помощью точного нелинейного лассо». Нейронные вычисления . 26 (1): 185–207. arXiv : 1202.0515 . DOI : 10.1162 / NECO_a_00537 . PMID 24102126 . S2CID 2742785 .

[34] Холл, М. (1999). Выбор функций на основе корреляции для машинного обучения (PDF) (кандидатская диссертация). Университет Вайкато.

[35] Сенлиол, Барис; и другие. (2008). «Фильтр на основе быстрой корреляции (FCBF) с другой стратегией поиска». 2008 23-й Международный симпозиум по компьютерным и информационным наукам : 1–4. DOI : 10.1109 / ISCIS.2008.4717949 . ISBN 978-1-4244-2880-9. S2CID 8398495 .

[36] Нгуен, Хай; Франке, Катрин; Петрович, Слободан (декабрь 2009 г.). «Оптимизация класса мер выбора признаков» . Труды семинара NIPS 2009 по дискретной оптимизации в машинном обучении: субмодульность, разреженность и многогранники (DISCML) . Ванкувер, Канада.

[DengRunger2012-37] Х. Денг, Г. Рангер, « Выбор функций с помощью регуляризованных деревьев », Труды Международной совместной конференции по нейронным сетям (IJCNN) 2012 г., IEEE, 2012 г.

[RRF-38] RRF: Regularized Random Forest , пакет R на CRAN

[ReferenceA-39] а б Хамон, Джули (ноябрь 2013 г.). Комбинация оптимизации для выбора переменных в большом измерении: Application en génétique animale (Thesis) (на французском языке). Лилльский университет науки и технологий .

[40] Ю, Лэй; Лю, Хуань (август 2003 г.). «Выбор функций для данных большой размерности: решение для быстрого фильтрации на основе корреляции» (PDF) . ICML'03: Материалы двадцатой международной конференции по машинному обучению : 856–863.

[M._Phuong,_Z_pages_301-309-41] а б Т. М. Фыонг, З. Лин и Р. Б. Альтман. Выбор SNP с помощью выбора функций. Архивировано 13 сентября 2016 г. на Wayback Machine Proceedings / IEEE Computational Systems Bioinformatics Conference, CSB. Конференция по биоинформатике вычислительных систем IEEE, страницы 301-309, 2005. PMID 16447987 .

[42] Saghapour, E .; Kermani, S .; Сеххати, М. (2017). «Новый метод ранжирования признаков для прогнозирования стадий рака с использованием данных протеомики» . PLOS ONE . 12 (9): e0184203. Bibcode : 2017PLoSO..1284203S . DOI : 10.1371 / journal.pone.0184203 . PMC 5608217 . PMID 28934234 .

[43] Шах, Южная Каролина; Кусяк, А. (2004). «Интеллектуальный анализ данных и генетический алгоритм на основе выбора гена / SNP». Искусственный интеллект в медицине . 31 (3): 183–196. DOI : 10.1016 / j.artmed.2004.04.002 . PMID 15302085 .

[44] Long, N .; Gianola, D .; Вейгель, К. А (2011). «Снижение размеров и выбор переменных для геномной селекции: приложение для прогнозирования надоев у голштинов». Журнал животноводства и генетики . 128 (4): 247–257. DOI : 10.1111 / j.1439-0388.2011.00917.x . PMID 21749471 .

[45] Устюнкар, Гюркан; Özöür-Akyüz, Süreyya; Вебер, Герхард В .; Фридрих, Кристоф М .; Айдын Сон, Йешим (2012). «Выбор репрезентативных наборов SNP для полногеномных ассоциативных исследований: метаэвристический подход». Письма об оптимизации . 6 (6): 1207–1218. DOI : 10.1007 / s11590-011-0419-7 . S2CID 8075318 .

[46] Meiri, R .; Захави, Дж. (2006). «Использование имитации отжига для оптимизации задачи выбора функций в маркетинговых приложениях». Европейский журнал операционных исследований . 171 (3): 842–858. DOI : 10.1016 / j.ejor.2004.09.010 .

[47] Капетаниос, Г. (2007). «Выбор переменных в регрессионных моделях с использованием нестандартной оптимизации информационных критериев». Вычислительная статистика и анализ данных . 52 (1): 4–15. DOI : 10.1016 / j.csda.2007.04.006 .

[48] Broadhurst, D .; Goodacre, R .; Jones, A .; Роуленд, JJ; Келл, ДБ (1997). «Генетические алгоритмы как метод выбора переменных в множественной линейной регрессии и частичной регрессии наименьших квадратов, с приложениями к масс-спектрометрии пиролиза». Analytica Chimica Acta . 348 (1–3): 71–86. DOI : 10.1016 / S0003-2670 (97) 00065-2 .

[49] Chuang, L.-Y .; Ян, Ч.-Х. (2009). «Поиск табу и оптимизация роя бинарных частиц для выбора характеристик с использованием данных микрочипа». Журнал вычислительной биологии . 16 (12): 1689–1703. DOI : 10,1089 / cmb.2007.0211 . PMID 20047491 .

[50] Э. Альба, Дж. Гариа-Нието, Л. Журдан и Э.-Г. Талби. Выбор гена в классификации рака с использованием гибридных алгоритмов PSO-SVM и GA-SVM. Конгресс по эволюционным вычислениям, Singapor: Singapore (2007), 2007

[B._Duval,_J_pages_201-208-51] Б. Дюваль, Ж.-К. Hao et JC Hernandez Hernandez. Меметический алгоритм выбора гена и молекулярной классификации рака. В материалах 11-й ежегодной конференции по генетическим и эволюционным вычислениям, GECCO '09, страницы 201-208, Нью-Йорк, Нью-Йорк, США, 2009. ACM.

[52] К. Ханс, А. Добра и М. Вест. Стохастический поиск дробовика для регрессии с большим p . Журнал Американской статистической ассоциации, 2007.

[53] Айткен, С. (2005). «Выбор характеристик и классификация для анализа данных микрочипов: эволюционные методы для идентификации прогностических генов» . BMC Bioinformatics . 6 (1): 148. DOI : 10,1186 / 1471-2105-6-148 . PMC 1181625 . PMID 15958165 .

[54] О, ЕСТЬ; Луна, BR (2004). «Гибридные генетические алгоритмы для отбора признаков». IEEE Transactions по анализу шаблонов и машинному анализу . 26 (11): 1424–1437. CiteSeerX 10.1.1.467.4179 . DOI : 10.1109 / tpami.2004.105 . PMID 15521491 .

[55] Xuan, P .; Guo, MZ; Wang, J .; Лю, XY; Лю, Ю. (2011). «Выбор эффективных признаков на основе генетического алгоритма для классификации пре-миРНК» . Генетика и молекулярные исследования . 10 (2): 588–603. DOI : 10.4238 / vol10-2gmr969 . PMID 21491369 .

[56] Пэн, С. (2003). «Молекулярная классификация типов рака по данным микрочипов с использованием комбинации генетических алгоритмов и опорных векторных машин» . Письма FEBS . 555 (2): 358–362. DOI : 10.1016 / s0014-5793 (03) 01275-4 . PMID 14644442 .

[57] Эрнандес, JCH; Duval, B .; Хао, Ж.-К. (2007). «Встроенный генетический подход к отбору генов и классификации данных микрочипов». Эволюционные вычисления, машинное обучение и интеллектуальный анализ данных в биоинформатике. EvoBIO 2007 . Конспект лекций по информатике. том 4447. Берлин: Springer Verlag. С. 90–101. DOI : 10.1007 / 978-3-540-71783-6_9 . ISBN 978-3-540-71782-9. |volume=имеет дополнительный текст ( справка )

[58] Huerta, EB; Duval, B .; Хао, Ж.-К. (2006). «Гибридный подход GA / SVM для отбора генов и классификации данных микрочипов». Приложения эволюционных вычислений. EvoWorkshops 2006 . Конспект лекций по информатике. vol 3907. pp. 34–44. DOI : 10.1007 / 11732242_4 . ISBN 978-3-540-33237-4. |volume=имеет дополнительный текст ( справка )

[59] Муни, Д.П .; Pal, NR; Дас, Дж. (2006). «Генетическое программирование для одновременного выбора признаков и построения классификатора». IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics: Cybernetics . 36 (1): 106–117. DOI : 10.1109 / TSMCB.2005.854499 . PMID 16468570 . S2CID 2073035 .

[60] Jourdan, L .; Dhaenens, C .; Талби, Э.-Г. (2005). «Исследование неравновесия сцепления с параллельным адаптивным GA». Международный журнал основ информатики . 16 (2): 241–260. DOI : 10.1142 / S0129054105002978 .

[61] Zhang, Y .; Dong, Z .; Phillips, P .; Ван, С. (2015). «Обнаружение субъектов и областей мозга, связанных с болезнью Альцгеймера, с помощью 3D-МРТ-сканирования на основе собственного мозга и машинного обучения» . Границы вычислительной неврологии . 9 : 66. DOI : 10,3389 / fncom.2015.00066 . PMC 4451357 . PMID 26082713 .

[62] Roffo, G .; Melzi, S .; Кристани, М. (01.12.2015). Бесконечный выбор функций . 2015 IEEE Международная конференция по компьютерному зрению (ICCV) . С. 4202–4210. DOI : 10.1109 / ICCV.2015.478 . ISBN 978-1-4673-8391-2. S2CID 3223980 .

[63] Роффо, Джорджио; Мельци, Симона (сентябрь 2016 г.). «Выбор функций через центральность собственного вектора» (PDF) . NFmcp2016 . Проверено 12 ноября +2016 .

[64] Р. Кохави и Г. Джон, " Обертки для выбора подмножества функций ", Искусственный интеллект 97.1-2 (1997): 273-324

[65] Дас, Абхиманью; Кемпе, Дэвид (2011). «Подмодуль встречается со спектральным: жадные алгоритмы для выбора подмножества, разреженной аппроксимации и выбора словаря». arXiv : 1102.3975 [ stat.ML ].

[66] Лю и др., Выбор субмодульных функций для пространств акустических партитур большой размерности. Архивировано 17октября 2015 г. в Wayback Machine.

[67] Чжэн и др., Выбор субмодульного атрибута для распознавания действий в видео, заархивированный 18 ноября 2015 г., на Wayback Machine.

[68] Sun, Y .; Todorovic, S .; Гудисон, С. (2010). «[https://ieeexplore.ieee.org/abstract/document/5342431/ Выбор функций на основе местного обучения для анализа данных большого размера]» . IEEE Transactions по анализу шаблонов и машинному анализу . 32 (9): 1610–1626. DOI : 10.1109 / tpami.2009.190 . PMC 3445441 . PMID 20634556 . Внешняя ссылка в |title=( помощь )

[69] DH Wang, YC Liang, D.Xu, XY Feng, RC Guan (2018), « Система рекомендаций, основанная на содержании, для публикаций по информатике », Knowledge-Based Systems , 157: 1-9

[1]