Правило Оджи

Правило обучения Оя , или просто правило Оя , названное в честь финского компьютерного ученого Эркки Оя , представляет собой модель того, как нейроны в мозге или в искусственных нейронных сетях со временем меняют силу связи или обучаются. Это модификация стандартного правила Хебба (см. Обучение Хебба ), которое посредством мультипликативной нормализации решает все проблемы стабильности и генерирует алгоритм для анализа главных компонентов . Это вычислительная форма эффекта, который, как полагают, происходит в биологических нейронах.

Теория

Правило Оджи требует ряда упрощений для получения, но в его окончательной форме оно очевидно стабильно, в отличие от правила Хебба. Это частный случай одного нейрона обобщенного алгоритма Хебба . Однако правило Оджи можно обобщить и другими способами до различной степени стабильности и успеха.

Формула

Рассмотрим упрощенную модель нейрона. ${\ displaystyle y}$ который возвращает линейную комбинацию своих входов $x$ с использованием пресинаптических весов $w$ :

${\ Displaystyle \, Y (\ mathbf {x}) ~ = ~ \ sum _ {j = 1} ^ {m} x_ {j} w_ {j}}$

Правило Оджи определяет изменение пресинаптических весов $w с$ учетом выходной реакции ${\ displaystyle y}$ нейрона на его входы $x,$ чтобы быть

{\ displaystyle \, \ Delta \ mathbf {w} ~ = ~ \ mathbf {w} _ {n + 1} - \ mathbf {w} _ {n} ~ = ~ \ eta \, y_ {n} (\ mathbf {x} _ {n} -y_ {n} \ mathbf {w} _ {n}),}

где $η$ - скорость обучения, которая также может изменяться со временем. Обратите внимание, что жирным шрифтом обозначены векторы, а $n$ определяет дискретное время итерации. Правило также может быть сделано для непрерывных итераций как

{\ Displaystyle \, {\ гидроразрыва {d \ mathbf {w}} {dt}} ~ = ~ \ eta \, y (t) (\ mathbf {x} (t) -y (t) \ mathbf {w}) (t)).}

Вывод

Простейшим известным правилом обучения является правило Хебба, которое концептуально заявляет, что нейроны, срабатывающие вместе, соединяются между собой . В компонентной форме в виде разностного уравнения записывается

{\ displaystyle \, \ Delta \ mathbf {w} ~ = ~ \ eta \, y (\ mathbf {x} _ {n}) \ mathbf {x} _ {n}}

,

или в скалярной форме с неявной $n-$ зависимостью,

{\ Displaystyle \, w_ {i} (n + 1) ~ = ~ w_ {i} (n) + \ eta \, y (\ mathbf {x}) x_ {i}}

,

где $y (x n)$ снова является выходом, на этот раз явно зависящим от его входного вектора $x$ .

Правило Хебба имеет синаптические веса, приближающиеся к бесконечности с положительной скоростью обучения. Мы можем остановить это, нормализовав веса так, чтобы величина каждого веса была ограничена между 0, что соответствует отсутствию веса, и 1, что соответствует единственному входному нейрону с любым весом. Мы делаем это, нормализуя весовой вектор, чтобы он имел длину один:

{\ displaystyle \, w_ {i} (n + 1) ~ = ~ {\ frac {w_ {i} (n) + \ eta \, y (\ mathbf {x}) x_ {i}} {\ left ( \ sum _ {j = 1} ^ {m} [w_ {j} (n) + \ eta \, y (\ mathbf {x}) x_ {j}] ^ {p} \ right) ^ {1 / p }}}}

.

Обратите внимание, что в исходной статье Оджи ^[1] $p = 2$ , что соответствует квадратуре (корень из суммы квадратов), который является известным правилом декартовой нормализации. Однако любой тип нормализации, даже линейный, даст тот же результат без потери общности .

За небольшую скорость обучения ${\ displaystyle | \ eta | \ ll 1}$ уравнение можно разложить в степенной ряд в ${\ displaystyle \ eta}$ . ^[1]

{\ displaystyle \, w_ {i} (n + 1) ~ = ~ {\ frac {w_ {i} (n)} {\ left (\ sum _ {j} w_ {j} ^ {p} (n) \ right) ^ {1 / p}}} ~ + ~ \ eta \ left ({\ frac {yx_ {i}} {\ left (\ sum _ {j} w_ {j} ^ {p} (n) \ справа) ^ {1 / p}}} - {\ frac {w_ {i} (n) \ sum _ {j} yx_ {j} w_ {j} ^ {p-1} (n)} {\ left ( \ sum _ {j} w_ {j} ^ {p} (n) \ right) ^ {(1 + 1 / p)}}} \ right) ~ + ~ O ​​(\ eta ^ {2})}

.

При малых $η$ наши члены высшего порядка $O (η 2)$ обращаются в нуль. Мы снова делаем спецификацию линейного нейрона, то есть выход нейрона равен сумме произведения каждого входа и его синаптического веса на степень p-1, которая в случае $p = 2$ равна сам синаптический вес, или

{\ Displaystyle \, Y (\ mathbf {x}) ~ = ~ \ sum _ {j = 1} ^ {m} x_ {j} w_ {j} ^ {p-1}}

.

Мы также указываем, что наши веса нормализуются до $1$ , что будет необходимым условием стабильности, поэтому

{\ displaystyle \, | \ mathbf {w} | ~ = ~ \ left (\ sum _ {j = 1} ^ {m} w_ {j} ^ {p} \ right) ^ {1 / p} ~ = ~ 1}

,

который, будучи замененным в нашем расширении, дает правило Оджи, или

{\ Displaystyle \, w_ {i} (n + 1) ~ = ~ w_ {i} (n) + \ eta \, y (x_ {i} -w_ {i} (n) y)}

.

Стабильность и PCA

При анализе сходимости отдельного нейрона, развивающегося по правилу Оджи, извлекается первый главный компонент или особенность набора данных. Кроме того, с помощью расширений, использующих обобщенный алгоритм Хебба , можно создать нейронную сеть с несколькими Oja, которая может извлекать столько функций, сколько требуется, что позволяет проводить анализ основных компонентов .

Основной компонент $J$ извлекается из набора данных $х$ через некоторый присоединенный вектор $д$ $J$ или $J$ $=$ $д$ $J$ $\cdot$ $х$ , и мы сможем восстановить исходный набор данных путем принятия

{\ Displaystyle \ mathbf {x} ~ = ~ \ sum _ {j} a_ {j} \ mathbf {q} _ {j}}

.

В случае одиночного нейрона, обученного по правилу Оджи, мы обнаруживаем, что весовой вектор сходится к $q 1$ или первому главному компоненту, когда время или количество итераций приближается к бесконечности. Мы также можем определить, учитывая набор входных векторов $X i$ , что его корреляционная матрица $R ij = X i X j$ имеет связанный собственный вектор, задаваемый $q j$ с собственным значением $λ j$ . Дисперсия выходов нашего Oja нейроне $σ 2 (п) = ⟨y 2 (п)⟩$ затем сходится с итераций времени к главному собственному значению, или

{\ displaystyle \ lim _ {п \ rightarrow \ infty} \ sigma ^ {2} (n) ~ = ~ \ lambda _ {1}}

.

Эти результаты получены с использованием анализа функций Ляпунова , и они показывают, что нейрон Оджи обязательно сходится строго к первому главному компоненту, если определенные условия выполняются в нашем исходном правиле обучения. Что наиболее важно, скорость обучения $η$ может изменяться со временем, но только так, чтобы ее сумма расходилась, но ее сумма степеней сходилась , т. Е.

{\ displaystyle \ sum _ {n = 1} ^ {\ infty} \ eta (n) = \ infty, ~~~ \ sum _ {n = 1} ^ {\ infty} \ eta (n) ^ {p} <\ infty, ~~~ p> 1}

.

Наша выходная функция активации $y (x (n))$ также может быть нелинейной и нестатической, но она должна быть непрерывно дифференцируемой как по $x, так$ и по $w,$ а производные должны быть ограничены по времени. ^[2]

Обобщения

Недавно в контексте ассоциативного обучения было показано, что правило Хебба, которое похоже на правило Оджи, может быть обобщено с использованием модели, подобной Изингу: ^[3] Основная идея обобщения основана на формулировке энергетической функции как в модели Изинга, а затем применяя алгоритм стохастического градиентного спуска к этой энергетической функции. Энергетическая функция и правило обновления, соответствующие следующей производной, задаются следующим образом:

{\ Displaystyle E (\ mathbf {w}) = - ч \ mathbf {w} -b \ mathbf {w} ^ {\ top} \ mathbf {V} \ mathbf {w} -c \ mathbf {w} ^ { \ top} \ mathbf {x} y}

,

{\ displaystyle \ mathbf {w} _ {n + 1} = \ mathbf {w} _ {n} + \ eta (h + b (\ mathbf {V} + \ mathbf {V} ^ {\ top}) \ mathbf {w} _ {n} + c \ mathbf {x} _ {n + 1} y_ {n + 1})}

,

где: ${\ Displaystyle у \ в \ {- 1,1 \}}$ , ${\ displaystyle b \ in \ mathbb {R}}$ это связь между входами, ${\ displaystyle c> 0}$ сила корреляции между моделью и выходом, ${\ displaystyle h \ in \ mathbb {R}}$ соответствует наличию внешнего магнитного поля, ${\ Displaystyle \ mathbf {V} \ in \ {0,1 \} ^ {D \ times D}}$ определяет связи между входами.

Тогда для ${\ displaystyle h = 0}$ , ${\ displaystyle b = 0}$ , а также ${\ displaystyle c = 1}$ мы получаем правило Хебба, а для ${\ displaystyle h = 0}$ , ${\ displaystyle b = -0,5}$ , ${\ displaystyle c = 1}$ , а также ${\ Displaystyle \ mathbf {V} = \ mathbf {I}}$ , где ${\ displaystyle \ mathbf {I}}$ является единичной матрицей, введем уменьшение веса. Затем формула сводится к:

{\ displaystyle \ mathbf {w} _ {n + 1} = \ mathbf {w} _ {n} + \ eta (2b \ mathbf {w} _ {n} + \ mathbf {x} _ {n + 1} y_ {n + 1})}

,

Приложения

Правило Оджи было первоначально описано в статье Оджи 1982 г. ^[1], но принцип самоорганизации, к которому оно применяется, впервые приписывается Алану Тьюрингу в 1952 г. ^[2] PCA также имел долгую историю использования до того, как правило Оджи было формализовано. его использование в сетевых вычислениях в 1989 году. Таким образом, модель может быть применена к любой проблеме самоорганизующегося отображения , в особенности к тем, в которых извлечение признаков представляет первостепенный интерес. Таким образом, правило Оджи занимает важное место в обработке изображений и речи. Это также полезно, поскольку оно легко расширяется до более высоких измерений обработки, что позволяет быстро интегрировать несколько выходов. Каноническим примером является его использование в бинокулярном зрении . ^[4]

Биология и правило подпространства Оджи

Существуют четкие доказательства как долгосрочной потенциации, так и долговременной депрессии в биологических нейронных сетях, наряду с эффектом нормализации как входных весов, так и выходов нейронов. Однако, хотя пока нет прямых экспериментальных доказательств того, что правило Оджи действует в биологической нейронной сети, биофизический вывод обобщения правила возможен. Такое происхождение требует ретроградной передачи сигналов от постсинаптического нейрона, что является биологически правдоподобным (см. Обратное распространение нейронов ) и принимает форму

{\ displaystyle \ Delta w_ {ij} ~ \ propto ~ \ langle x_ {i} y_ {j} \ rangle - \ epsilon \ left \ langle \ left (c _ {\ mathrm {pre}} * \ sum _ {k} w_ {ik} y_ {k} \ right) \ cdot \ left (c _ {\ mathrm {post}} * y_ {j} \ right) \ right \ rangle,}

где, как и раньше, $w ij$ - синаптический вес между нейронами $i-$ го входа и $j-$ го выхода, $x$ - вход, $y$ - постсинаптический выход, и мы определяем $ε$ как постоянную, аналогичную скорости обучения, а $c pre$ и $c post$ представляют собой пресинаптические и постсинаптические функции, моделирующие ослабление сигналов с течением времени. Обратите внимание, что угловые скобки обозначают среднее значение, а оператор ∗ представляет собой свертку . Взяв пре- и постсинаптические функции в частотное пространство и комбинируя члены интегрирования со сверткой, мы обнаруживаем, что это дает произвольное обобщение правила Оджи, известного как подпространство Оджи , ^[5] а именно

{\ displaystyle \ Delta w ~ = ~ Cx \ cdot ww \ cdot Cy.}

^[6]

Смотрите также

Внешние ссылки

Оя, Эркки: правило обучения Оджа в Scholarpedia
Оя, Эркки: Университет Аалто

[Oja82-1] Oja, Erkki (ноябрь 1982 г.). «Упрощенная модель нейрона как анализатор главных компонент». Журнал математической биологии . 15 (3): 267–273. DOI : 10.1007 / BF00275687 . PMID 7153672 . S2CID 16577977 . BF00275687.

[Haykin98-2] а б Хайкин, Саймон (1998). Нейронные сети: всеобъемлющий фундамент (2-е изд.). Прентис Холл. ISBN 978-0-13-273350-2.

[3] Якуб М. Томчак, Ассоциативное обучение с использованием модели Изинга , в «Достижения в области системной науки», (ред.) Ежи Свёнтек, Адам Грзех, Павел Свёнтек, Якуб М. Томчак, Достижения в области интеллектуальных и мягких вычислений, Vol. 240, Springer-Verlag, 2014 г., стр. 295-304, PDF

[Intrator07-4] Интратор, Натан (2007). «Обучение без учителя» . Лекции по нейронным вычислениям . Тель-Авивский университет . Проверено 22 ноября 2007 .

[5] Оя, Эркки (1989). «Нейронные сети, основные компоненты и подпространства». Международный журнал нейронных систем . 1 (1): 61–68. DOI : 10.1142 / S0129065789000475 .

[6] Фристон, штат Калифорния; CD Frith; RSJ Frackowiak (22 октября 1993 г.). "Алгоритмы обучения анализу главных компонентов: нейробиологический анализ". Труды: Биологические науки . 254 (1339): 47–54. Bibcode : 1993RSPSB.254 ... 47F . DOI : 10,1098 / rspb.1993.0125 . JSTOR 49565 . PMID 8265675 . S2CID 42179377 .

[1]