Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Мягкое независимое моделирование по аналогии с классами (SIMCA) - это статистический метод контролируемой классификации данных. Для этого метода требуется набор обучающих данных, состоящий из образцов (или объектов) с набором атрибутов и их членством в классе. Термин «мягкий» относится к тому факту, что классификатор может идентифицировать образцы как принадлежащие к нескольким классам и не обязательно производить классификацию образцов на неперекрывающиеся классы.

Метод [ править ]

Чтобы построить классификационные модели, необходимо проанализировать образцы, принадлежащие к каждому классу, с использованием анализа главных компонентов (PCA); сохраняются только важные компоненты.

Для данного класса результирующая модель затем описывает либо линию (для одного главного компонента или ПК), плоскость (для двух ПК) или гиперплоскость (для более чем двух ПК). Для каждого смоделированного класса среднее ортогональное расстояние образцов обучающих данных от линии, плоскости или гиперплоскости (рассчитанное как остаточное стандартное отклонение) используется для определения критического расстояния для классификации. Это критическое расстояние основано на F-распределении и обычно рассчитывается с использованием доверительных интервалов 95% или 99%.

Новые наблюдения проецируются в каждую модель ПК и рассчитываются остаточные расстояния. Наблюдение назначается классу модели, когда его остаточное расстояние от модели ниже статистического предела для класса. Может быть установлено, что наблюдение относится к нескольким классам, и критерий качества модели можно определить по количеству случаев, когда наблюдения классифицируются по нескольким классам. На эффективность классификации обычно указывают рабочие характеристики приемника .

В исходном методе SIMCA концы гиперплоскости каждого класса закрываются путем установки статистических контрольных пределов по осям сохраненных основных компонентов (т. Е. Значение оценки между плюс и минус 0,5 стандартного отклонения оценки).

Более поздние адаптации метода SIMCA закрывают гиперплоскость за счет построения эллипсоидов (например , T 2 Хотеллинга или расстояние Махаланобиса ). С помощью таких модифицированных методов SIMCA для классификации объекта требуется, чтобы его ортогональное расстояние от модели и его проекция в модели (т. Е. Значение оценки в области, определяемой эллипсоидом) не имели значения.

Заявление [ править ]

SIMCA как метод классификации получил широкое распространение, особенно в прикладных статистических областях, таких как хемометрия и спектроскопический анализ данных.

Ссылки [ править ]

  • Уолд, Сванте и Шостром, Майкл, 1977, SIMCA: метод анализа химических данных с точки зрения сходства и аналогии, в Ковальски, Б. Р., под ред., Теория и применение хемометрики, Симпозиум Американского химического общества, серия 52, Вашингтон, округ Колумбия. , Американское химическое общество, стр. 243-282.