Сеть зависимостей (графическая модель)

Сети зависимостей (DN) представляют собой графические модели , подобные сетям Маркова , в которых каждая вершина (узел) соответствует случайной переменной, а каждое ребро фиксирует зависимости между переменными. В отличие от байесовских сетей , DN могут содержать циклы. Каждый узел связан с таблицей условной вероятности, которая определяет реализацию случайной величины с учетом ее родителей. ^[1]

Марковское одеяло

В байесовской сети , то марковское узла есть множество родителей и детей этого узла, вместе с родителями детей. Значения родителей и потомков узла, очевидно, дают информацию об этом узле. Однако родители его детей также должны быть включены в марковское одеяло, потому что их можно использовать для объяснения рассматриваемого узла. В марковском случайном поле , то одеяло Маркова для узла просто прилегающие к нему (или соседним) узлы. В сети зависимостей марковское одеяло для узла - это просто набор его родителей.

Сеть зависимостей против байесовских сетей

Сети зависимостей имеют преимущества и недостатки по сравнению с байесовскими сетями. В частности, их легче параметризовать на основе данных, поскольку существуют эффективные алгоритмы для изучения как структуры, так и вероятностей сети зависимостей на основе данных. Такие алгоритмы недоступны для байесовских сетей, для которых задача определения оптимальной структуры NP-сложна. ^[2] Тем не менее, сеть зависимостей может быть труднее построить с использованием подхода, основанного на знаниях, основанного на экспертных знаниях.

Сети зависимостей против сетей Маркова

Согласованные сети зависимостей и сети Маркова обладают одинаковой репрезентативной силой. Тем не менее, можно построить несовместимые сети зависимостей, т. Е. Сети зависимостей, для которых не существует совместимого действительного совместного распределения вероятностей . Марковские сети, напротив, всегда непротиворечивы.

Определение

Последовательная сеть зависимостей для набора случайных величин ${\ textstyle \ mathbf {X} = (X_ {1}, \ ldots, X_ {n})}$ с совместным распределением ${\ Displaystyle р (\ mathbf {х})}$ пара ${\ Displaystyle (G, P)}$ где ${\ displaystyle G}$ - это циклический ориентированный граф, каждый из узлов которого соответствует переменной в ${\ displaystyle \ mathbf {X}}$ , а также ${\ displaystyle P}$ представляет собой набор условных вероятностных распределений. Родители узла ${\ displaystyle X_ {i}}$ , обозначенный ${\ displaystyle \ mathbf {Pa_ {i}}}$ , соответствуют этим переменным ${\ displaystyle \ mathbf {Pa_ {i}} \ substeq (X_ {1}, \ ldots, X_ {i-1}, X_ {i + 1}, \ ldots, X_ {n})}$ которые удовлетворяют следующим отношениям независимости

{\ Displaystyle p (x_ {i} \ mid \ mathbf {pa_ {i}}) = p (x_ {i} \ mid x_ {1}, \ ldots, x_ {i-1}, x_ {i + 1} , \ ldots, x_ {n}) = p (x_ {i} \ mid \ mathbf {x} - {x_ {i}}).}

Сеть зависимостей согласована в том смысле, что каждое локальное распределение может быть получено из совместного распределения. ${\ Displaystyle р (\ mathbf {х})}$ . Сети зависимостей, изученные с использованием больших наборов данных с большими размерами выборки, почти всегда будут согласованными. Несогласованная сеть - это сеть, для которой нет совместного распределения вероятностей, совместимого с парой ${\ Displaystyle (G, P)}$ . В этом случае не существует совместного распределения вероятностей, которое удовлетворяет отношениям независимости, входящим в эту пару.

Структура и параметры обучения

Две важные задачи в сети зависимостей - это изучение ее структуры и вероятностей на основе данных. По сути, алгоритм обучения состоит из независимого выполнения вероятностной регрессии или классификации для каждой переменной в домене. Это происходит из наблюдения, что локальное распределение для переменной ${\ displaystyle X_ {i}}$ в сети зависимостей условное распределение ${\ displaystyle p (x_ {i} | \ mathbf {x} - {x_ {i}})}$ , который можно оценить с помощью любого количества методов классификации или регрессии, таких как методы, использующие вероятностное дерево решений, нейронную сеть или машину вероятностных опорных векторов. Следовательно, для каждой переменной ${\ displaystyle X_ {i}}$ в домене ${\ displaystyle X}$ , мы независимо оцениваем его локальное распределение на основе данных с помощью алгоритма классификации, даже если это отдельный метод для каждой переменной. Здесь мы кратко покажем, как вероятностные деревья решений используются для оценки локальных распределений. Для каждой переменной ${\ displaystyle X_ {i}}$ в ${\ displaystyle \ mathbf {X}}$ , изучается вероятностное дерево решений, где ${\ displaystyle X_ {i}}$ целевая переменная и ${\ displaystyle \ mathbf {X} -X_ {i}}$ - входные переменные. Чтобы изучить древовидную структуру решений для ${\ displaystyle X_ {i}}$ , алгоритм поиска начинается с одноэлементного корневого узла без дочерних узлов. Затем каждый листовой узел в дереве заменяется двоичным разбиением по некоторой переменной. ${\ displaystyle X_ {j}}$ в ${\ displaystyle \ mathbf {X} -X_ {i}}$ , пока никакие замены не увеличат счет дерева.

Вероятностный вывод

Вероятностный вывод - это задача, в которой мы хотим ответить на вероятностные запросы вида ${\ Displaystyle р (\ mathbf {у \ середина г})}$ , учитывая графическую модель для ${\ displaystyle \ mathbf {X}}$ , где ${\ displaystyle \ mathbf {Y}}$ ("целевые" переменные) ${\ displaystyle \ mathbf {Z}}$ («входные» переменные) являются непересекающимися подмножествами ${\ displaystyle \ mathbf {X}}$ . Одна из альтернатив для выполнения вероятностных выводов - использование выборки Гиббса . Наивный подход для этого использует упорядоченный сэмплер Гиббса, чья важная трудность заключается в том, что если либо ${\ Displaystyle р (\ mathbf {у \ середина г})}$ или же ${\ Displaystyle р (\ mathbf {z})}$ мала, то для точной оценки вероятности требуется много итераций. Другой подход к оценке ${\ Displaystyle р (\ mathbf {у \ середина г})}$ когда ${\ Displaystyle р (\ mathbf {z})}$ заключается в использовании модифицированного заказанного сэмплера Гиббса, где он фиксирует ${\ Displaystyle \ mathbf {Z = z}}$ во время отбора проб Гиббса.

Также может случиться так, что ${\ displaystyle \ mathbf {y}}$ редко, например ${\ displaystyle \ mathbf {Y}}$ содержит много переменных. Таким образом, закон полной вероятности вместе с зависимостями, закодированными в сети зависимостей, можно использовать для разложения задачи вывода на набор задач вывода по отдельным переменным. Этот подход имеет то преимущество, что некоторые термины могут быть получены прямым поиском, что позволяет избежать некоторой выборки Гиббса.

Ниже вы можете увидеть алгоритм, который можно использовать для получения ${\ Displaystyle р (\ mathbf {y | z})}$ для конкретного случая ${\ displaystyle \ mathbf {y} \ in \ mathbf {Y}}$ а также ${\ displaystyle \ mathbf {z} \ in \ mathbf {Z}}$ , где ${\ displaystyle \ mathbf {Y}}$ а также ${\ displaystyle \ mathbf {Z}}$ непересекающиеся подмножества.

Алгоритм 1:

${\ Displaystyle \ mathbf {U: = Y}}$ (* необработанные переменные *)
${\ displaystyle \ mathbf {P: = Z}}$ (* обрабатываемые и кондиционирующие переменные *)
${\ displaystyle \ mathbf {p: = z}}$ (* значения для ${\ displaystyle \ mathbf {P}}$ *)
Пока ${\ Displaystyle \ mathbf {U} \ neq \ emptyset}$ :
1. Выбирать ${\ displaystyle X_ {i} \ in \ mathbf {U}}$ такой, что ${\ displaystyle X_ {i}}$ нет больше родителей в ${\ displaystyle U}$ чем любая переменная в ${\ displaystyle U}$
2. Если все родители ${\ displaystyle X}$ находятся в ${\ displaystyle \ mathbf {P}}$
  1. ${\ displaystyle p (x_ {i} | \ mathbf {p}): = p (x_ {i} | \ mathbf {pa_ {i}})}$
3. Еще
  1. Используйте модифицированный заказанный сэмплер Гиббса для определения ${\ displaystyle p (x_ {i} | \ mathbf {p})}$
4. ${\ displaystyle \ mathbf {U: = U} -X_ {i}}$
5. ${\ Displaystyle \ mathbf {P: = P} + X_ {i}}$
6. ${\ Displaystyle \ mathbf {p: = p} + x_ {i}}$
Возвращает произведение условных выражений. ${\ displaystyle p (x_ {i} | \ mathbf {p})}$

Приложения

В дополнение к приложениям для вероятностного вывода, следующие приложения относятся к категории совместной фильтрации (CF), которая является задачей прогнозирования предпочтений. Сети зависимостей - это естественный класс модели, на котором основываются прогнозы CF, поскольку алгоритм для этой задачи требует только оценки ${\ displaystyle p (x_ {i} = 1 | \ mathbf {x} - {x_ {i}} = 0)}$ дать рекомендации. В частности, эти оценки могут быть получены прямым поиском в сети зависимостей.

Предсказать, какие фильмы понравятся человеку, на основе его оценок просмотренных фильмов;
Прогнозирование того, к каким веб-страницам будет обращаться человек, на основе его или ее истории на сайте;
Предсказание того, какие новости интересуют человека, на основе других историй, которые он или она прочитали;
Предсказание того, какой продукт будет покупать человек, на основе продуктов, которые он или она уже купил и / или бросил в свою корзину.

Другой класс полезных приложений для сетей зависимостей связан с визуализацией данных, то есть визуализацией прогнозируемых отношений.

Смотрите также

Сеть реляционных зависимостей