Обучение без учителя

Машинное обучение и интеллектуальный анализ данных
Часть серии по

Проблемы Классификация Кластеризация Регресс Обнаружение аномалий AutoML Правила ассоциации Обучение с подкреплением Структурированный прогноз Разработка функций Особенности обучения Онлайн обучение Полу-контролируемое обучение Обучение без учителя Учимся ранжировать Введение в грамматику
Обучение с учителем ( классификация • регрессия ) Деревья решений Ансамбли Упаковка Повышение Случайный лес k -NN Линейная регрессия Наивный байесовский Искусственные нейронные сети Логистическая регрессия Перцептрон Вектор релевантности (RVM) Машина опорных векторов (SVM)
Кластеризация БЕРЕЗА ИЗЛЕЧИВАТЬ Иерархический k- означает Ожидание – максимизация (EM) DBSCAN ОПТИКА Средний сдвиг
Снижение размерности Факторный анализ CCA ICA LDA NMF PCA PGD t-SNE
Структурированный прогноз Графические модели Сеть Байеса Условное случайное поле Скрытый Марков
Обнаружение аномалий k -NN Фактор локального выброса
Искусственная нейронная сеть Автоэнкодер Когнитивные вычисления Глубокое обучение DeepDream Многослойный перцептрон RNN LSTM ГРУ ESN Ограниченная машина Больцмана GAN SOM Сверточная нейронная сеть U-Net Трансформатор Пиковая нейронная сеть Мемтранзистор Электрохимическая RAM (ECRAM)
Обучение с подкреплением Q-обучение SARSA Временная разница (TD)
Теория Компромисс смещения и дисперсии Теория вычислительного обучения Минимизация эмпирического риска Обучение Оккама PAC обучение Статистическое обучение Теория ВК
Площадки для машинного обучения NeurIPS ICML ML JMLR ArXiv: cs.LG
Глоссарий искусственного интеллекта Глоссарий искусственного интеллекта
Статьи по Теме Список наборов данных для исследований в области машинного обучения Схема машинного обучения
v т е

Неконтролируемое обучение ( UL ) - это тип алгоритма, который изучает шаблоны из немаркированных данных. Есть надежда, что с помощью мимикрии машина будет вынуждена построить компактное внутреннее представление своего мира. В отличие от обучения с учителем (SL), где данные маркируются человеком, например, как «машина» или «рыба» и т. Д., UL демонстрирует самоорганизацию, которая фиксирует шаблоны как нейронные предвыборки или плотности вероятности. ^[1] Другими уровнями в спектре супервизии являются обучение с подкреплением, при котором машине дается только числовая оценка производительности в качестве руководства, и полу-контролируемое обучение.где помечена меньшая часть данных. Два основных метода в UL - это нейронные сети и вероятностные методы.

Вероятностные методы [ править ]

Два основных метода, используемых в обучении без учителя, - это анализ главных компонентов и кластерный анализ . Кластерный анализ используется в обучении без учителя для группировки или сегментирования наборов данных с общими атрибутами для экстраполяции алгоритмических отношений. ^[2] Кластерный анализ - это ветвь машинного обучения, которая группирует данные, которые не были помечены , классифицированы или категоризированы. Вместо того, чтобы реагировать на обратную связь, кластерный анализ выявляет общие черты в данных и реагирует на их наличие или отсутствие в каждой новой части данных. Этот подход помогает обнаруживать аномальные точки данных, которые не попадают ни в одну из групп.

Единственное требование, которое следует называть стратегией обучения без учителя, - это изучить новое пространство признаков, которое фиксирует характеристики исходного пространства, максимизируя некоторую целевую функцию или минимизируя некоторую функцию потерь. Следовательно, создание ковариационной матрицы не является обучением без учителя, но взятие собственных векторов ковариационной матрицы происходит потому, что операция разложения собственных значений линейной алгебры максимизирует дисперсию; это известно как анализ главных компонентов. ^[3] Точно так же выполнение логарифмического преобразования набора данных не является неконтролируемым обучением, но передача входных данных через несколько сигмоидальных функций при минимизации некоторой функции расстояния между сгенерированными и результирующими данными называется автоэнкодером .

Центральное применение неконтролируемого обучения в области оценки плотности в статистике , ^[4] , хотя без присмотра обучение охватывает многие другие области с участием обобщения и объяснения особенностей данных. Это можно было бы противопоставить обучению с учителем, сказав, что в то время как обучение с учителем намеревается вывести условное распределение вероятностей, обусловленное меткой входных данных; обучение без учителя предполагает получение априорного распределения вероятностей . ${\ textstyle p_ {X} (х \, | \, y)}$ ${\ textstyle y}$ ${\ textstyle p_ {X} (x)}$

Подходы [ править ]

Некоторые из наиболее распространенных алгоритмов, используемых в обучении без учителя, включают: (1) кластеризацию, (2) обнаружение аномалий, (3) нейронные сети и (4) подходы к изучению моделей со скрытыми переменными. Каждый подход использует несколько следующих методов:

Методы кластеризации включают в себя: иерархическую кластеризацию , ^[5] k-средних , ^[6] смешанные модели , DBSCAN и алгоритм OPTICS.
Методы обнаружения аномалий включают: локальный фактор выброса и лес изоляции.
Подходы к обучению латентной переменной модели , таким как алгоритм Expectation-максимизации (EM), метод моментов и слепое разделение сигналов метода ( главный компонент анализ , анализ независимого компонентов , неотрицательная матрица разложение , сингулярное разложение )

Метод моментов [ править ]

Одним из статистических подходов к обучению без учителя является метод моментов . В методе моментов неизвестные параметры (представляющие интерес) в модели связаны с моментами одной или нескольких случайных величин, и, таким образом, эти неизвестные параметры могут быть оценены с учетом моментов. Моменты обычно оцениваются по выборкам эмпирически. Основные моменты - это моменты первого и второго порядка. Для случайного вектора момент первого порядка - это средний вектор, а момент второго порядка - это ковариационная матрица (когда среднее значение равно нулю). Моменты более высокого порядка обычно представляются с помощью тензоров, которые являются обобщением матриц на более высокие порядки в виде многомерных массивов.

В частности, показана эффективность метода моментов при обучении параметров моделей со скрытыми переменными . ^[7] Модели со скрытыми переменными - это статистические модели, в которых в дополнение к наблюдаемым переменным также существует набор скрытых переменных, которые не наблюдаются. Практичным примером моделей со скрытыми переменными в машинном обучении является тематическое моделирование.которая представляет собой статистическую модель для генерации слов (наблюдаемых переменных) в документе на основе темы (скрытой переменной) документа. В тематическом моделировании слова в документе генерируются в соответствии с различными статистическими параметрами при изменении темы документа. Показано, что метод моментов (методы тензорной декомпозиции) последовательно восстанавливает параметры большого класса моделей со скрытыми переменными при некоторых предположениях. ^[7]

Алгоритм Expectation Максимизации (EM) также является одним из самых практических методов обучения модели скрытой переменной. Однако он может застрять в локальных оптимумах, и не гарантируется, что алгоритм сойдется к истинным неизвестным параметрам модели. Напротив, для метода моментов глобальная сходимость гарантируется при некоторых условиях. ^[7]

Нейронные сети [ править ]

Основы [ править ]

Сначала немного словарного запаса:

активация	= значение состояния нейрона. Для бинарных нейронов это обычно 0/1 или +1 / -1.
CAM	= адресуемая память содержимого. Вызов памяти по частичному шаблону вместо адреса памяти.
конвергенция	= стабилизация шаблона активации в сети. В SL конвергенция означает стабилизацию весов и смещений, а не активацию.
отличительный	= относящиеся к задачам распознавания. Также называется анализом (в теории паттернов) или выводом.
энергия	= макроскопическая величина, описывающая образец активации в сети. (Смотри ниже)
обобщение	= точное поведение на ранее не встречавшихся входах
генеративный	= Машина представила и вспомнила задание. иногда называемый синтезом (в теории образов), мимикрией или глубокой подделкой.
вывод	= фаза «бега» (в отличие от тренировки). Во время логического вывода сеть выполняет задачу, которой она обучена, - либо распознает шаблон (SL), либо создает его (UL). Обычно логический вывод спускается по градиенту энергетической функции. В отличие от SL, градиентный спуск происходит во время обучения, а НЕ вывода.
машинное зрение	= машинное обучение на изображениях.
НЛП	= Обработка естественного языка. Машинное обучение человеческих языков.
шаблон	= сетевая активация, имеющая в некотором смысле внутренний порядок или более компактно описываемая функциями в активациях. Например, пиксельный узор нуля, заданный как данные или воображаемый сетью, имеет особенность, которую можно описать как одиночный цикл. Особенности закодированы в скрытых нейронах.
обучение персонала	= фаза обучения. Здесь сеть корректирует свои веса и смещения, чтобы учиться на входных данных.

Задачи

Склонность задачи использовать контролируемые методы против неконтролируемых

Методы UL обычно подготавливают сеть к генеративным задачам, а не к распознаванию, но группировка задач как контролируемых или не контролируемых может быть туманной. Например, распознавание почерка началось в 1980-х как SL. Затем, в 2007 году, UL используется для последующей подготовки сети к SL. В настоящее время SL вернул себе позицию лучшего метода.

Обучение
Во время фазы обучения неконтролируемая сеть пытается имитировать данные, которые она дает, и использует ошибку в своих имитированных выходных данных, чтобы исправить себя (например, свои веса и смещения). Это напоминает мимикрическое поведение детей при изучении языка. Иногда ошибка выражается как низкая вероятность появления ошибочного вывода или как нестабильное состояние высокой энергии в сети.

Энергия
Энергетическая функция - это макроскопическая мера состояния сети. Эта аналогия с физикой основана на анализе Людвига Больцмана макроскопической энергии газа на основе микроскопических вероятностей движения частицы p e ^{E / kT} , где k - постоянная Больцмана, а T - температура. В сети RBM соотношение p = e ^-E / Z, ^[8] где p и E изменяются для каждого возможного шаблона активации, а Z = e ^{-E (шаблон)} . Точнее, p (a) = e ^{-E (a)} ${\ displaystyle \ propto}$ ${\ displaystyle \ sum _ {AllPatterns}}$ / Z, где a - паттерн активации всех нейронов (видимых и скрытых). Следовательно, ранние нейронные сети носят название машины Больцмана. Павел Смоленский называет -Э Гармонией. Сеть ищет низкую энергию, которая является высокой гармонией.

Сети

Hopfield	Больцман	УОР	Гельмгольца	Автоэнкодер	VAE
		ограниченная машина Больцмана		автоэнкодер	вариационный автоэнкодер

Больцман и Гельмгольц пришли до создания нейронных сетей, но эти сети заимствовали из своего анализа, поэтому эти сети носят их имена. Однако Хопфилд внес непосредственный вклад в UL.

Средний [ править ]

Здесь распределения p (x) и q (x) будут обозначаться как p и q.

История

1969 г.	Персептроны Мински и Паперта показывают, что перцептрон без скрытых слоев не работает при XOR
1970-е годы	(приблизительные даты) AI зима I
1974 г.	Магнитная модель Изинга, предложенная В.А. Литтлом для познания
1980 г.	Фукусима представляет неокогнитрон, который позже получил название сверточной нейронной сети. В основном он используется в SL, но заслуживает упоминания здесь.
1982 г.	Вариант Изинга сети Хопфилда, описанный Джоном Хопфилдом как САМ и классификаторы.
1983 г.	Вариант машины Больцмана Изинга с вероятностными нейронами, описанный Хинтоном и Сейновски после работы Шерингтона и Киркпатрика 1975 года.
1986 г.	Пол Смоленский публикует Теорию Гармонии, которая представляет собой RBM с практически той же функцией энергии Больцмана. Смоленский не дал схемы практических занятий. Хинтон сделал в середине 2000-х
1995 г.	Шмидтабер представляет нейрон LSTM для языков.
1995 г.	Dayan & Hinton представляет машину Гельмгольца
1995-2005	(приблизительные даты) AI Winter II
2013	Kingma, Rezende и другие. представила вариационные автоэнкодеры как байесовскую графическую вероятностную сеть с нейронными сетями в качестве компонентов.

Еще немного словарного запаса:

Вероятность
cdf	= кумулятивная функция распределения. интеграл PDF. Вероятность приблизиться к 3 - это область под кривой между 2,9 и 3,1.
контрастное расхождение	= метод обучения, при котором снижается энергия тренировочных паттернов и повышается энергия нежелательных паттернов за пределами обучающего набора. Это сильно отличается от KL-дивергенции, но имеет похожую формулировку.
ожидаемое значение	= Е (х) = х * р (х). Это среднее значение или среднее значение. Для непрерывного входа x замените суммирование интегралом. ${\ Displaystyle \ сумма _ {х}}$
скрытая переменная	= ненаблюдаемая величина, которая помогает объяснить наблюдаемые данные. например, инфекция гриппа (ненаблюдаемая) может объяснить, почему человек чихает (наблюдаемый). В вероятностных нейронных сетях скрытые нейроны действуют как латентные переменные, хотя их скрытая интерпретация явно не известна.
pdf	= функция плотности вероятности. Вероятность того, что случайная величина принимает определенное значение. Для непрерывного pdf p (3) = 1/2 может означать, что вероятность достижения этого точного значения равняется нулю. Мы рационализируем это с помощью cdf.
стохастический	= ведет себя согласно хорошо описанной формуле плотности вероятности.
Термодинамика
Распределение Больцмана	= Распределение Гиббса. p e ^{E / kT} ${\ displaystyle \ propto}$
энтропия	= ожидаемая информация = p * log p ${\ Displaystyle \ сумма _ {х}}$
Свободная энергия Гиббса	= термодинамический потенциал. Это максимальная обратимая работа, которую может выполнить тепловая система при постоянной температуре и давлении. свободная энергия G = тепло - температура * энтропия
Информация	= объем информации сообщения x = -log p (x)
KLD	= относительная энтропия. Для вероятностных сетей это аналог ошибки между входом и имитированным выходом. Дивергенция Кульбака-Либлера (KLD) измеряет отклонение энтропии одного распределения от другого распределения. KLD (p, q) = p * журнал (p / q). Обычно p отражает входные данные, q отражает их интерпретацию в сети, а KLD отражает разницу между ними. ${\ Displaystyle \ сумма _ {х}}$

Сравнение сетей

	Hopfield	Больцман	УОР	Гельмгольца	Автоэнкодер	VAE
использование и известные	CAM, задача коммивояжера	CAM. Свобода подключений затрудняет анализ этой сети.	распознавание образов (MNIST, распознавание речи)	воображение, мимика	язык: творческое письмо, перевод. Зрение: улучшение размытых изображений	генерировать реалистичные данные
нейрон	детерминированное двоичное состояние. Активация = {0 (или -1), если x отрицательно, иначе 1}	стохастический бинарный нейрон Хопфилда	стохастический бинарный. Продлен до реальной стоимости в середине 2000-х	двоичный, сигмовидный	язык: LSTM. зрение: местные рецептивные поля. Обычно активация relu имеет реальную ценность.
связи	1-слойный с симметричными весами. Никаких самостоятельных подключений.	2-х слойный. 1-скрытый и 1-видимый. симметричные веса.	2-х слойный. симметричные веса. нет боковых соединений внутри слоя.	3 слоя: асимметричные веса. 2 сети объединены в 1.	3 слоя. Вход считается слоем, даже если он не имеет входящих весов. повторяющиеся слои для НЛП. свертки с прямой связью для зрения. вход и выход имеют одинаковое количество нейронов.	3 уровня: вход, кодировщик, декодер сэмплера распределения. пробоотборник не считается слоем (д)
вывод и энергия	энергия определяется вероятностной мерой Гиббса: ${\ displaystyle E = - {\ frac {1} {2}} \ sum _ {i, j} {w_ {ij} {s_ {i}} {s_ {j}}} + \ sum _ {i} { \ theta _ {i}} {s_ {i}}}$	← такой же	← такой же	минимизировать расхождение KL	вывод является только прямой связью. предыдущие сети UL работали в прямом и обратном направлении	минимизировать ошибку = ошибка реконструкции - KLD
обучение персонала	Δw _ij = s _i * s _j , для + 1 / -1 нейрона	Δw _ij = e * (p _ij - p ' _ij ). Это происходит из минимизации KLD. e = скорость обучения, p '= прогнозируемое и p = фактическое распределение.	контрастное расхождение с выборкой Гиббса	2 фазы бодрствования и сна	Обратное распространение ошибки восстановления	изменить параметры скрытого состояния для обратного распространения
сила	напоминает физические системы, поэтому наследует их уравнения	<--- то же самое. скрытые нейроны действуют как внутреннее представление внешнего мира	быстрее более практичная схема обучения, чем машины Больцмана	слегка анатомический. анализируемый с теорией информации и статистической механикой
слабое место	Хопфилд	трудно тренироваться из-за боковых связей	УОР	Гельмгольца

Конкретные сети
Здесь мы выделяем некоторые характеристики каждой сети. Ферромагнетизм вдохновил сети Хопфилда, машины Больцмана и RBM. Нейрон соответствует домену железа с бинарными магнитными моментами вверх и вниз, а нейронные связи соответствуют влиянию домена друг на друга. Симметричные связи позволяют сформулировать глобальную энергетику. Во время логического вывода сеть обновляет каждое состояние, используя стандартную функцию шага активации. Симметричные веса гарантируют сходимость к стабильному шаблону активации. Сети
Хопфилда используются в качестве CAM и гарантированно устанавливаются по некоторому шаблону. Без симметричных весов сеть очень сложно анализировать. При правильной энергетической функции сеть будет сходиться.
Машины Больцманаявляются стохастическими сетями Хопфилда. Их значение состояния выбирается из этого PDF-файла следующим образом: предположим, что бинарный нейрон срабатывает с вероятностью Бернулли p (1) = 1/3 и отдыхает с p (0) = 2/3. Один выбирает из него, беря УНИВЕРСАЛЬНО распределенное случайное число y и вставляя его в инвертированную кумулятивную функцию распределения, которая в данном случае является ступенчатой функцией с пороговым значением 2/3. Обратная функция = {0, если x <= 2/3, 1, если x> 2/3}
Гельмгольцамашины - ранние источники вдохновения для вариационных автокодировщиков. Это две сети, объединенные в одну: прямые веса управляют распознаванием, а обратные веса воплощают воображение. Возможно, это первая сеть, в которой реализованы и то и другое. Гельмгольц не работал в области машинного обучения, но он вдохновил взгляд на «механизм статистического вывода, функция которого состоит в том, чтобы делать выводы о вероятных причинах сенсорного ввода» (3). стохастический бинарный нейрон выдает вероятность того, что его состояние равно 0 или 1. Входные данные обычно не считаются слоем, но в режиме генерации машины Гельмгольца уровень данных получает входные данные от среднего уровня и имеет для этой цели отдельные веса, поэтому считается слоем. Следовательно, эта сеть имеет 3 уровня.
Вариационный автоэнкодер(VAE) вдохновлены машинами Гельмгольца и объединяют сеть вероятностей с нейронными сетями. Автоэнкодер - это трехуровневая сеть CAM, где средний уровень должен быть некоторым внутренним представлением входных шаблонов. Веса называются phi & theta, а не W и V, как у Гельмгольца - косметическая разница. Нейронная сеть кодера представляет собой распределение вероятностей q _φ (z | x), а сеть декодера - это p _θ (x | z). Эти две сети могут быть полностью соединены или использовать другую схему NN.

Hebbian Learning, ART, SOM
Классическим примером обучения без учителя при изучении нейронных сетей является принцип Дональда Хебба , то есть нейроны, которые срабатывают вместе, соединяются вместе. ^[9] В хеббийском обучении связь усиливается независимо от ошибки, но является исключительно функцией совпадения потенциалов действия между двумя нейронами. ^[10] Похожая версия, которая изменяет синаптические веса, учитывает время между потенциалами действия ( пластичность, зависящая от времени спайка, или STDP). Было выдвинуто предположение, что обучение Хебба лежит в основе ряда когнитивных функций, таких как распознавание образов и экспериментальное обучение.

Среди моделей нейронных сетей в алгоритмах неконтролируемого обучения обычно используются самоорганизующаяся карта (SOM) и теория адаптивного резонанса (ART). SOM - это топографическая организация, в которой близлежащие точки на карте представляют собой входы с аналогичными свойствами. Модель ART позволяет количеству кластеров меняться в зависимости от размера проблемы и позволяет пользователю контролировать степень сходства между членами одних и тех же кластеров с помощью определяемой пользователем константы, называемой параметром бдительности. Сети ART используются для многих задач распознавания образов, таких как автоматическое распознавание целей и обработка сейсмических сигналов. ^[11]

См. Также [ править ]

Автоматизированное машинное обучение
Кластерный анализ
Обнаружение аномалий
Алгоритм ожидания – максимизации
Генеративная топографическая карта
Мета-обучение (информатика)
Многомерный анализ
Сеть радиальных базисных функций
Слабый надзор

Ссылки [ править ]

^ Хинтон, Джеффри; Сейновски, Терренс (1999). Неконтролируемое обучение: основы нейронных вычислений . MIT Press. ISBN 978-0262581684.
^ Роман, Виктор (2019-04-21). «Машинное обучение без учителя: кластерный анализ» . Средний . Проверено 1 октября 2019 .
^ Сноу, доктор Дерек (2020-03-26). «Машинное обучение в управлении активами: Часть 2: Построение портфеля - оптимизация веса» . Журнал науки о финансовых данных . 2 (2): 17–24. DOI : 10,3905 / jfds.2020.1.029 . S2CID 215932953 . Проверено 16 мая 2020 .
^ Джордан, Майкл I .; Епископ, Кристофер М. (2004). "Нейронные сети". В Аллен Б. Такер (ред.). Справочник по информатике, второе издание (раздел VII: Интеллектуальные системы) . Бока-Ратон, Флорида: Chapman & Hall / CRC Press LLC. ISBN 1-58488-360-X.
^ Хасти, Тревор, Роберт Тибширани, Фридман, Джером (2009). Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование . Нью-Йорк: Спрингер. С. 485–586. ISBN 978-0-387-84857-0.CS1 maint: несколько имен: список авторов ( ссылка )
^ Garbade, д - р Майкл Дж (2018-09-12). «Понимание кластеризации K-средних в машинном обучении» . Средний . Проверено 31 октября 2019 .
^ a b c Анандкумар, Анимашри; Ге, Ронг; Хсу, Даниэль; Какаде, Шам; Телгарский, Матус (2014). «Тензорные разложения для изучения моделей со скрытыми переменными» (PDF) . Журнал исследований в области машинного обучения . 15 : 2773–2832. arXiv : 1210,7559 . Bibcode : 2012arXiv1210.7559A .
^ Хинтон, G (2010-08-02). «Практическое руководство по обучению ограниченных машин Больцмана».
^ Buhmann, J .; Кунель, Х. (1992). «Неконтролируемая и контролируемая кластеризация данных с конкурентными нейронными сетями». [Proceedings 1992] Международная объединенная конференция IJCNN по нейронным сетям . 4 . IEEE. С. 796–801. DOI : 10.1109 / ijcnn.1992.227220 . ISBN 0780305590. S2CID 62651220 .
^ Комесана-Кампос, Альберто; Буза-Родригес, Хосе Бенито (июнь 2016 г.). «Применение изучения Hebbian в процессе принятия решений» . Журнал интеллектуального производства . 27 (3): 487–506. DOI : 10.1007 / s10845-014-0881-Z . ISSN 0956-5515 . S2CID 207171436 .
Перейти ↑ Carpenter, GA, Grossberg, S. (1988). «Искусство адаптивного распознавания образов с помощью самоорганизующейся нейронной сети» (PDF) . Компьютер . 21 (3): 77–88. DOI : 10,1109 / 2,33 . S2CID 14625094 .

Дальнейшее чтение [ править ]

Bousquet, O .; von Luxburg, U .; Рэтч, Г., ред. (2004). Расширенные лекции по машинному обучению . Springer-Verlag. ISBN 978-3540231226.
Дуда, Ричард О .; Харт, Питер Э .; Аист, Дэвид Г. (2001). «Неконтролируемое обучение и кластеризация». Классификация паттернов (2-е изд.). Вайли. ISBN 0-471-05669-3.
Хасти, Тревор; Тибширани, Роберт (2009). Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование . Нью-Йорк: Спрингер. С. 485–586. DOI : 10.1007 / 978-0-387-84858-7_14 . ISBN 978-0-387-84857-0.
Хинтон, Джеффри ; Сейновски, Терренс Дж. , Ред. (1999). Неконтролируемое обучение: основы нейронных вычислений . MIT Press . ISBN 0-262-58168-X.(Эта книга посвящена обучению без учителя в нейронных сетях )

[Hinton99a-1] Хинтон, Джеффри; Сейновски, Терренс (1999). Неконтролируемое обучение: основы нейронных вычислений . MIT Press. ISBN 978-0262581684.

[tds-ul-2] Роман, Виктор (2019-04-21). «Машинное обучение без учителя: кластерный анализ» . Средний . Проверено 1 октября 2019 .

[vixra-3] Сноу, доктор Дерек (2020-03-26). «Машинное обучение в управлении активами: Часть 2: Построение портфеля - оптимизация веса» . Журнал науки о финансовых данных . 2 (2): 17–24. DOI : 10,3905 / jfds.2020.1.029 . S2CID 215932953 . Проверено 16 мая 2020 .

[JordanBishop2004-4] Джордан, Майкл I .; Епископ, Кристофер М. (2004). "Нейронные сети". В Аллен Б. Такер (ред.). Справочник по информатике, второе издание (раздел VII: Интеллектуальные системы) . Бока-Ратон, Флорида: Chapman & Hall / CRC Press LLC. ISBN 1-58488-360-X.

[Hastie-5] Хасти, Тревор, Роберт Тибширани, Фридман, Джером (2009). Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование . Нью-Йорк: Спрингер. С. 485–586. ISBN 978-0-387-84857-0.CS1 maint: несколько имен: список авторов ( ссылка )

[tds-kmeans-6] Garbade, д - р Майкл Дж (2018-09-12). «Понимание кластеризации K-средних в машинном обучении» . Средний . Проверено 31 октября 2019 .

[TensorLVMs-7] Анандкумар, Анимашри; Ге, Ронг; Хсу, Даниэль; Какаде, Шам; Телгарский, Матус (2014). «Тензорные разложения для изучения моделей со скрытыми переменными» (PDF) . Журнал исследований в области машинного обучения . 15 : 2773–2832. arXiv : 1210,7559 . Bibcode : 2012arXiv1210.7559A .

[Hinton2010-8] Хинтон, G (2010-08-02). «Практическое руководство по обучению ограниченных машин Больцмана».

[Buhmann-9] Buhmann, J .; Кунель, Х. (1992). «Неконтролируемая и контролируемая кластеризация данных с конкурентными нейронными сетями». [Proceedings 1992] Международная объединенная конференция IJCNN по нейронным сетям . 4 . IEEE. С. 796–801. DOI : 10.1109 / ijcnn.1992.227220 . ISBN 0780305590. S2CID 62651220 .

[Comesana-10] Комесана-Кампос, Альберто; Буза-Родригес, Хосе Бенито (июнь 2016 г.). «Применение изучения Hebbian в процессе принятия решений» . Журнал интеллектуального производства . 27 (3): 487–506. DOI : 10.1007 / s10845-014-0881-Z . ISSN 0956-5515 . S2CID 207171436 .

[Carpenter-11] Перейти ↑ Carpenter, GA, Grossberg, S. (1988). «Искусство адаптивного распознавания образов с помощью самоорганизующейся нейронной сети» (PDF) . Компьютер . 21 (3): 77–88. DOI : 10,1109 / 2,33 . S2CID 14625094 .