Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Метод информационного узкого места - это метод теории информации, введенный Нафтали Тишби , Фернандо С. Перейрой и Уильямом Биалеком . [1] Он предназначен для поиска наилучшего компромисса между точностью и сложностью ( сжатием ) при суммировании (например, кластеризации ) случайной величины X , учитывая совместное распределение вероятностей p (X, Y) между X и наблюдаемой релевантной переменной Y - и описывается как предоставление«Удивительно богатый фреймворк для обсуждения множества проблем обработки сигналов и обучения» . [1]

Приложения включают распределительную кластеризацию и уменьшение размерности , и совсем недавно это было предложено в качестве теоретической основы для глубокого обучения . Он обобщил классическое понятие минимальной достаточной статистики с параметрической статистики на произвольные распределения, не обязательно экспоненциальной формы. Он делает это, расслабляя условие достаточности , чтобы захватить некоторую долю взаимной информации с соответствующей переменной Y .

Информация узкого место можно также рассматривать как искажение скорости проблемы, с функцией искажения , что меры , насколько хорошо Y предсказывается из сжатого представления Т по сравнению с его прямым предсказанием с X . Эта интерпретация обеспечивает общий итерационный алгоритм для решения компромисса между информационными узкими местами и вычисления информационной кривой на основе распределения p (X, Y) .

Пусть сжатое представление задано случайной величиной . Алгоритм минимизирует следующий функционал по условному распределению :

где и - взаимная информация и , и , соответственно, и - множитель Лагранжа .

Минимально достаточная статистика [ править ]

Самосогласованные уравнения [ править ]

Теория обучения [ править ]

Фазовые переходы [ править ]

Информационная теория глубокого обучения [ править ]

Теория информационных узких мест в последнее время используется для изучения глубоких нейронных сетей (DNN). [2] Рассмотрим и соответственно как входной и выходной уровни DNN, и пусть будет любым скрытым уровнем сети. Шварц-Зив и Тишби предложили информационное узкое место, которое выражает компромисс между мерами взаимной информации и . В этом случае и, соответственно, количественно определите количество информации, которую скрытый слой содержит о входных и выходных данных. Они предположили, что процесс обучения DNN состоит из двух отдельных фаз; 1) начальная фаза подгонки, в которой увеличивается, и 2) последующая фаза сжатия, в которой уменьшается. Saxe et al. в [3]противодействовал утверждению Шварц-Зива и Тишби [2], заявив, что это явление сжатия в DNN не является всеобъемлющим и зависит от конкретной функции активации. В частности, они утверждали, что сжатия не происходит с функциями активации ReLu. Шварц-Зив и Тишби оспорили эти утверждения, утверждая, что Сакс и др. Не наблюдали сжатия из-за слабой оценки взаимной информации. Недавно Noshad et al. использовали оптимальную по скорости оценку взаимной информации, чтобы исследовать это противоречие, заметив, что оптимальная оценка на основе хешей выявляет явление сжатия в более широком диапазоне сетей с активациями ReLu и maxpooling. [4]С другой стороны, недавно Goldfeld et al. утверждали, что наблюдаемое сжатие является результатом геометрических, а не теоретико-информационных явлений [5], точка зрения, которую разделяли также. [6]

Вариационное узкое место [ править ]

Узкое место по Гауссу [ править ]

Гауссово узкое место [7], а именно применение подхода информационного узкого места к гауссовским переменным, приводит к решениям, связанным с каноническим корреляционным анализом. Предположим, что это совместно многомерные векторы нормалей с нулевым средним и ковариациями, и это сжатая версия, которая должна поддерживать заданное значение взаимной информации с . Можно показать, что оптимум - это нормальный вектор, состоящий из линейных комбинаций элементов, где матрица имеет ортогональные строки.

Матрица проекции на самом деле содержит строки, выбранные из взвешенных левых собственных векторов сингулярного разложения матрицы (обычно асимметричной)

Определите разложение по сингулярным числам

и критические значения

тогда количество активных собственных векторов в проекции или порядок приближения определяется выражением

И мы наконец получаем

В котором веса даны как

где

Применение гауссовского информационного узкого места к временным рядам (процессам) дает решения, связанные с оптимальным прогнозирующим кодированием. Эта процедура формально эквивалентна линейному анализу медленных признаков. [8]

Оптимальные временные структуры в линейных динамических системах могут быть обнаружены в так называемом узком месте информации прошлого и будущего, применении метода узкого места к негауссовским выборочным данным. [9] Концепция, трактуемая Крейтцигом, Тишби и др., Не лишена сложности, поскольку в упражнении складываются две независимые фазы: во-первых, оценка неизвестных родительских плотностей вероятностей, из которых берутся образцы данных, и, во-вторых, использование эти плотности в рамках теоретической информации узкого места.

Оценка плотности [ править ]

Поскольку метод узких мест основан на вероятностных, а не статистических терминах, необходимо оценить основную плотность вероятности в точках выборки . Это хорошо известная проблема с множеством решений, описанных Сильверманом . [10] В настоящем методе вероятности совместной выборки находятся с использованием метода матрицы переходов Маркова, и это имеет некоторую математическую синергию с самим методом узких мест.

Произвольно увеличивающаяся метрика расстояния между всеми парами отсчетов и матрицей расстояний равна . Затем необходимо вычислить вероятности перехода между парами выборок для некоторых . Рассматривая образцы как состояния и нормализованную версию как матрицу вероятностей перехода состояний Маркова, вектор вероятностей «состояний» после шагов, обусловленных начальным состоянием , равен . Вектор равновесной вероятности, заданный обычным способом доминантным собственным вектором матрицы, который не зависит от инициализирующего вектора. Этот метод перехода Маркова устанавливает вероятность в точках выборки, которая, как утверждается, пропорциональна плотности вероятностей в них.

Другие интерпретации использования собственных значений матрицы расстояний обсуждаются в книге Сильвермана « Оценка плотности для статистики и анализа данных» . [10]

Кластеры [ править ]

В следующем примере мягкой кластеризации опорный вектор содержит категории выборки, и предполагается, что совместная вероятность известна. Мягкий кластер определяется его распределением вероятностей по выборкам данных . Тишби и др. представил [1] следующий итерационный набор уравнений для определения кластеров, которые в конечном итоге являются обобщением алгоритма Блахута-Аримото , разработанного в теории искажения скорости . Применение этого типа алгоритма в нейронных сетях, по-видимому, связано с энтропийными аргументами, возникающими при применении распределений Гиббса при детерминированном отжиге. [11] [12]

Функция каждой строки итерации расширяется как

Строка 1: это матричный набор условных вероятностей.

Кульбак-Либлер расхождение между векторами генерируемых данными выборки и те , генерируемых его уменьшенной информацией прокси применяется для оценки верности сжатого вектора относительно контрольных данных (или категоричен) в соответствии с фундаментальным уравнением узкого места. - расхождение Кульбака – Лейблера между распределениями

и - скалярная нормализация. Взвешивание отрицательного показателя расстояния означает, что вероятности предшествующих кластеров уменьшаются в строке 1, когда расхождение Кульбака – Лейблера велико, таким образом, успешные кластеры увеличиваются в вероятности, а неудачные - распадаются.

Строка 2: Второй матричнозначный набор условных вероятностей. По определению

где используются байесовские тождества .

Строка 3: эта строка находит предельное распределение кластеров.

Это стандартный результат.

Дальнейшие входные данные для алгоритма - это предельное выборочное распределение, которое уже было определено доминирующим собственным вектором, и матричнозначная функция дивергенции Кульбака – Лейблера.

полученные из интервалов между образцами и вероятностей переходов.

Матрица может быть инициализирована случайным образом или с разумным предположением, в то время как матрица не требует предварительных значений. Хотя алгоритм сходится, может существовать несколько минимумов, которые необходимо разрешить. [13]

Определение контуров принятия решений [ править ]

Для того, чтобы классифицировать новый образец внешнего по отношению к обучающему набору , предыдущего расстояние метрических находки вероятность переходов между и все образцы в , с нормализацией. Во-вторых, примените последние две строки трехстрочного алгоритма, чтобы получить вероятности кластера и условной категории.

Ну наконец то

Параметр должен находиться под тщательным наблюдением, поскольку по мере его увеличения от нуля увеличивающееся количество функций в пространстве вероятностей категорий становится в фокусе при определенных критических порогах.

Пример [ править ]

В следующем примере рассматривается кластеризация в четырехквадрантном множителе со случайными входными данными и двумя категориями выходных данных , генерируемых . Эта функция имеет два пространственно разделенных кластера для каждой категории и, таким образом, демонстрирует, что метод может обрабатывать такие распределения.

Отбирают 20 проб, равномерно распределяемых по площади . Количество используемых кластеров превышает количество категорий, в данном случае два, мало влияет на производительность, и результаты показаны для двух кластеров с использованием параметров .

Функция расстояния - это где, в то время как условное распределение представляет собой матрицу 2 × 20

и ноль в других местах.

Суммирование в строке 2 включает только два значения, представляющих обучающие значения +1 или -1, но, тем не менее, работает хорошо. На рисунке показано расположение двадцати выборок, где «0» представляет Y = 1, а «x» представляет Y = -1. Показан контур на уровне отношения правдоподобия,

поскольку новый образец сканируется по квадрату. Теоретически контур следует привести в соответствие с и координатами , но для таких небольших количеств образца они вместо того, чтобы вслед за паразитные кластеризации точек выборки.

Контуры решения


Аналогии нейронной сети / нечеткой логики [ править ]

Этот алгоритм чем-то аналогичен нейронной сети с единственным скрытым слоем. Внутренние узлы представлены кластерами, а первый и второй уровни весов сети являются условными вероятностями и соответственно. Однако, в отличие от стандартной нейронной сети, алгоритм полностью полагается на вероятности в качестве входных данных, а не на сами значения выборки, в то время как внутренние и выходные значения представляют собой условные распределения плотности вероятности. Нелинейные функции инкапсулируются в метрику расстояния (или функции влияния / радиальные базисные функции ) и вероятности перехода вместо сигмоидальных функций.

Алгоритм три строки Блейхута-Аримото быстро сходится, часто в десятки итераций, и варьирование , а и мощность кластеров, различные уровни внимания на особенности может быть достигнута.

Определение статистической мягкой кластеризации частично совпадает с концепцией вербальной нечеткой принадлежности нечеткой логики .

Расширения [ править ]

Интересным расширением является случай информационного узкого места с дополнительной информацией. [14] Здесь информация максимизируется об одной целевой переменной и минимизируется о другой, изучая представление, которое является информативным о выбранных аспектах данных. Формально

Библиография [ править ]

  • Вайс, Ю. (1999), "Сегментация с использованием собственных векторов: объединяющая точка зрения", Труды Международной конференции IEEE по компьютерному зрению (PDF) , стр. 975–982
  • П. Харремоес и Н. Тишби "Новый взгляд на узкое место в информации или как выбрать хорошую меру искажения". В трудах Международного симпозиума по теории информации (ISIT) 2007 г.

Ссылки [ править ]

  1. ^ a b c Тишбы, Нафтали ; Перейра, Фернандо К.; Биалек, Уильям (сентябрь 1999 г.). Метод информационных узких мест (PDF) . 37-я ежегодная конференция Allerton по коммуникациям, управлению и вычислениям. С. 368–377.
  2. ^ a b Шварц-Зив, Равид; Тишбы, Нафтали (2017). «Открытие черного ящика глубоких нейронных сетей через информацию». arXiv : 1703.00810 [ cs.LG ].
  3. ^ Эндрю М., Saxe; и другие. (2018). «К теории информационного узкого места глубокого обучения» . Публикация вслепую на конференции ICLR 2018 .
  4. ^ Ношад, Мортеза; и другие. (2018). «Масштабируемая оценка взаимной информации с использованием графов зависимостей». arXiv : 1801.09125 [ cs.IT ].
  5. ^ Голдфельд, Зив; и другие. (2019). «Оценка информационного потока в глубоких нейронных сетях» . ICML 2019 .
  6. ^ Гейгер, Бернхард С. (2020). «Об анализе на информационной плоскости классификаторов нейронных сетей - обзор». arXiv : 2003.09671 .
  7. ^ Чечик, Gal; Глоберсон, Амир; Тишбы, Нафтали; Вайс, Яир (1 января 2005 г.). Даян, Питер (ред.). «Информационное узкое место для гауссовских переменных» (PDF) . Journal of Machine Learning Research (опубликовано 1 мая 2005 г.) (6): 165–188.
  8. ^ Кройтциг, Феликс; Спрекелер, Хеннинг (17 декабря 2007 г.). «Предиктивное кодирование и принцип медленности: теоретико-информационный подход». Нейронные вычисления . 20 (4): 1026–1041. CiteSeerX 10.1.1.169.6917 . DOI : 10.1162 / neco.2008.01-07-455 . ISSN 0899-7667 . PMID 18085988 .   
  9. ^ Кройтциг, Феликс; Глоберсон, Амир; Тишбы, Нафтали (27 апреля 2009 г.). «Узкое место информации прошлого и будущего в динамических системах». Physical Review E . 79 (4): 041925. Bibcode : 2009PhRvE..79d1925C . DOI : 10.1103 / PhysRevE.79.041925 . PMID 19518274 . 
  10. ^ a b Сильверман, Берни (1986). Оценка плотности для статистики и анализа данных . Монографии по статистике и прикладной теории вероятностей . Чепмен и Холл. Bibcode : 1986desd.book ..... S . ISBN 978-0412246203.
  11. ^ Слоним, Ноам; Тишбы, Нафтали (01.01.2000). Кластеризация документов с использованием кластеров слов с помощью метода информационных узких мест . Материалы 23-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . СИГИР '00. Нью-Йорк, Нью-Йорк, США: ACM. С. 208–215. CiteSeerX 10.1.1.21.3062 . DOI : 10.1145 / 345508.345578 . ISBN  978-1-58113-226-7.
  12. ^ DJ Миллер, А. В. Рао, К. Роуз, А. Гершо: "Теоретико-информационный алгоритм обучения для классификации нейронных сетей". НИПС 1995: стр. 591–597.
  13. ^ Тишби, Нафтали ; Слоним, Н. Кластеризация данных с помощью марковской релаксации и метода информационных узких мест (PDF) . Системы обработки нейронной информации (NIPS) 2000. С. 640–646.
  14. ^ Чечик, Gal; Тишбы, Нафтали (2002). «Извлечение релевантных структур с дополнительной информацией» (PDF) . Достижения в системах обработки нейронной информации : 857–864.