Параллельная внешняя память

Модель PEM

В информатике модель с параллельной внешней памятью (PEM) - это абстрактная машина с поддержкой кеш-памяти и внешней памятью . ^[1] Это аналогия параллельных вычислений с моделью однопроцессорной внешней памяти (EM). Аналогичным образом, это аналогия с поддержкой кеширования с параллельной машиной с произвольным доступом (PRAM). Модель PEM состоит из нескольких процессоров вместе с их соответствующими частными кэшами и общей основной памятью.

Модель [ править ]

Определение [ править ]

Модель PEM ^[1] представляет собой комбинацию модели EM и модели PRAM. Модель PEM - это модель вычислений, которая состоит из процессоров и двухуровневой иерархии памяти . Эта иерархия памяти состоит из большой внешней памяти (основной памяти) определенного размера и небольших внутренних запоминающих устройств (кешей) . Процессоры совместно используют основную память. Каждый кеш является эксклюзивным для одного процессора. Процессор не может получить доступ к чужому кешу. Кеши имеют размер, который разделен на блоки . Процессоры могут выполнять операции только с данными, которые находятся в их кэше. Данные могут передаваться между основной памятью и кешем в блоках размера . ${\ displaystyle P}$ ${\ displaystyle N}$ ${\ displaystyle P}$ ${\ displaystyle M}$ ${\ displaystyle B}$ ${\ displaystyle B}$

Сложность ввода / вывода [ править ]

Мера сложности модели PEM является сложность ввода / вывода, ^[1] , который определяет количество параллельных блоков переводов между основной памятью и кэш - памяти. Во время параллельной передачи блоков каждый процессор может передавать блок. Таким образом, если процессоры загружают в свои кеши параллельно блок данных размером с основную память, это считается сложностью ввода-вывода, а не нет . Программа в модели PEM должна минимизировать передачу данных между основной памятью и кешами и работать с данными в кэшах в максимально возможной степени. ${\ displaystyle P}$ ${\ displaystyle B}$ ${\ displaystyle O (1)}$ ${\ Displaystyle O (P)}$

Конфликты чтения / записи [ править ]

В модели PEM нет прямой сети связи между процессорами P. Процессоры должны косвенно обмениваться данными через основную память. Если несколько процессоров пытаются получить доступ к одному и тому же блоку в основной памяти одновременно, возникают конфликты чтения / записи ^[1] . Как и в модели PRAM, рассматриваются три различных варианта этой задачи:

Concurrent Read Concurrent Write (CRCW): один и тот же блок в основной памяти может быть прочитан и записан несколькими процессорами одновременно.
Параллельное чтение и монопольная запись (CREW): один и тот же блок в основной памяти может быть прочитан несколькими процессорами одновременно. Только один процессор может записывать в блок за раз.
Эксклюзивное чтение Эксклюзивная запись (EREW): один и тот же блок в основной памяти не может быть прочитан или записан несколькими процессорами одновременно. Только один процессор может получить доступ к блоку одновременно.

Следующие два алгоритма ^[1] решают проблему CREW и EREW, если процессоры одновременно записывают в один и тот же блок. Первый подход - сериализовать операции записи. Только один процессор за другим записывает в блок. Это приводит к параллельным передачам блоков. Второй подход требует параллельной передачи блоков и дополнительного блока для каждого процессора. Основная идея состоит в том, чтобы запланировать операции записи в виде двоичного дерева и постепенно объединить данные в один блок. В первом раунде процессоры объединяют свои блоки в блоки. Затем процессоры объединяют блоки в . Эта процедура продолжается до тех пор, пока все данные не будут объединены в один блок. ${\ Displaystyle P \ leq B}$ ${\ displaystyle P}$ ${\ Displaystyle О (\ журнал (P))}$ ${\ displaystyle P}$ ${\ displaystyle P / 2}$ ${\ displaystyle P / 2}$ ${\ displaystyle P / 2}$ ${\ displaystyle P / 4}$

Сравнение с другими моделями [ править ]


Модель	Многоядерный	С учетом кеша
Машина с произвольным доступом (RAM)	Нет	Нет
Параллельная машина с произвольным доступом (PRAM)	да	Нет
Внешняя память (EM)	Нет	да
Параллельная внешняя память (PEM)	да	да

Примеры [ править ]

Многостороннее разбиение [ править ]

Позвольте быть вектором d-1 опорных точек, отсортированных в порядке возрастания. Позвольте быть неупорядоченным набором из N элементов. Двустороннее разбиение ^[1] из - это множество , где и для . называется i-м ведром. Количество элементов в больше и меньше чем . В следующем алгоритме ^[1] входные данные разделяются на непрерывные сегменты размером N / P в основной памяти. Процессор i в первую очередь работает на сегменте . Алгоритм многостороннего разделения ( ^[1] ) использует алгоритм суммы префиксов PEM ^[1] для вычисления суммы префиксов с оптимальным ${\ Displaystyle M = \ {m_ {1}, ..., m_ {d-1} \}}$ ${\ displaystyle A}$ ${\ displaystyle A}$ ${\ Displaystyle \ Pi = \ {A_ {1}, ..., A_ {d} \}}$ ${\ Displaystyle \ чашка _ {я = 1} ^ {d} A_ {i} = A}$ ${\ Displaystyle A_ {i} \ cap A_ {j} = \ emptyset}$ ${\ Displaystyle 1 \ Leq я <J \ Leq d}$ ${\ displaystyle A_ {i}}$ ${\ displaystyle A_ {i}}$ ${\ displaystyle m_ {i-1}}$ ${\ displaystyle m_ {i} ^ {2}}$ ${\ displaystyle S_ {1}, ..., S_ {P}}$ ${\ displaystyle S_ {i}}$ PEM_DIST_SORT ${\ Displaystyle О ({\ гидроразрыва {N} {PB}} + \ log (P))}$ Сложность ввода / вывода. Этот алгоритм моделирует оптимальный алгоритм суммы префиксов PRAM.

// Параллельно вычислить d-разделение сегментов данных для каждого процессора i параллельно do Считать вектор опорных точек в кэш. ${\ displaystyle S_ {i}}$  ${\ displaystyle M}$  Разделите на d сегментов и пусть вектор будет количеством элементов в каждой корзине.конец для ${\ displaystyle S_ {i}}$  ${\ displaystyle M_ {i} = \ {j_ {1} ^ {i}, ..., j_ {d} ^ {i} \}}$ Выполните суммирование префикса PEM одновременно для набора векторов . ${\ Displaystyle \ {M_ {1}, ..., M_ {P} \}}$ // Используем вектор суммы префикса для вычисления последнего разделадля каждого процессора i параллельно выполните запись элементов в ячейки памяти, смещенные соответствующим образом на и .конец для ${\ displaystyle S_ {i}}$  $M_{i-1}$  $M_{i}$ Используя префиксные суммы, хранящиеся в последнем процессоре P, вычисляет вектор размеров корзины и возвращает его. $M_{P}$  $B$

Если вектор опорных точек M и входной набор A расположены в непрерывной памяти, то проблема d-образного разбиения может быть решена в модели PEM со сложностью ввода-вывода. Содержимое последних сегментов должно располагаться в непрерывной памяти. $d=O({\frac {M}{B}})$ $O({\frac {N}{PB}}+\lceil {\frac {d}{B}}\rceil >\log(P)+d\log(B))$

Выбор [ править ]

Проблема выбора заключается в нахождении k-го наименьшего элемента в неупорядоченном списке размеров . В следующем коде ^[1] используется алгоритм оптимальной сортировки PRAM, который выполняется , и алгоритм выбора оптимального однопроцессорного кэша. $A$ $N$ PRAMSORT $O(\log N)$ SELECT

если  тогда верните конец если $N\leq P$    ${\texttt {PRAMSORT}}(A,P)$    $A[k]$  // Найти медиану каждого для каждого процессора в параллельном сделай конце для $S_{i}$  $i$    $m_{i}={\texttt {SELECT}}(S_{i},{\frac {N}{2P}})$  // Сортировать медианы ${\texttt {PRAMSORT}}(\lbrace m_{1},\dots ,m_{2}\rbrace ,P)$ // Разделение вокруг медианы медиан $t={\texttt {PEMPARTITION}}(A,m_{P/2},P)$ если  тогда вернуть еще вернуться конец если $k\leq t$     ${\texttt {PEMSELECT}}(A[1:t],P,k)$    ${\texttt {PEMSELECT}}(A[t+1:N],P,k-t)$

В предположении, что ввод хранится в непрерывной памяти, PEMSELECTимеет сложность ввода-вывода:

$O({\frac {N}{PB}}+\log(PB)\cdot \log({\frac {N}{P}}))$

Сортировка распределения [ править ]

Сортировка распределения разделяет входной список размера на непересекающиеся сегменты одинакового размера. Затем каждая корзина рекурсивно сортируется, а результаты объединяются в полностью отсортированный список. $A$ $N$ $d$

Если задача делегирована оптимальному для кеша однопроцессорному алгоритму сортировки. $P=1$

В противном случае используется следующий алгоритм ^[1] :

// Примеры элементов из для каждого процессора параллельно делать , если затем загрузите в -sized страниц и сортировки страниц по отдельности еще загружать и сортировать в качестве одной страницы конца , если Заберите каждый «й элемент из каждой отсортированной страницы памяти в прилежащей вектор из образцов енд для ${\tfrac {4N}{\sqrt {d}}}$  $A$   $i$     $M<|S_{i}|$    $d=M/B$  $S_{i}$  $M$   $d=|S_{i}|$  $S_{i}$  ${\sqrt {d}}/4$  $R^{i}$  параллельно do Объединить векторы в один непрерывный вектор Сделать копии : end do $R^{1}\dots R^{P}$  ${\mathcal {R}}$  ${\sqrt {d}}$  ${\mathcal {R}}$  ${\mathcal {R}}_{1}\dots {\mathcal {R}}_{\sqrt {d}}$ // Найти шарниры для , чтобы параллельно сделайте конец для ${\sqrt {d}}$  ${\mathcal {M}}[j]$   $j=1$  ${\sqrt {d}}$    ${\mathcal {M}}[j]={\texttt {PEMSELECT}}({\mathcal {R}}_{i},{\tfrac {P}{\sqrt {d}}},{\tfrac {j\cdot 4N}{d}})$ Упаковать сводные точки в непрерывный массив  ${\mathcal {M}}$ // Разбиение точек на сегменты $A$  ${\mathcal {B}}$  ${\mathcal {B}}={\texttt {PEMMULTIPARTITION}}(A[1:N],{\mathcal {M}},{\sqrt {d}},P)$ // Рекурсивно сортировать сегментыдля , чтобы параллельно выполнять рекурсивный вызов на ведре размера с использованием процессоров , отвечающие за элементы в ведре конца для $j=1$  ${\sqrt {d}}+1$   ${\texttt {PEMDISTSORT}}$  $j$  ${\mathcal {B}}[j]$  $O\left(\left\lceil {\tfrac {{\mathcal {B}}[j]}{N/P}}\right\rceil \right)$  $j$

Сложность ввода-вывода PEMDISTSORT:

$O\left(\left\lceil {\frac {N}{PB}}\right\rceil \left(\log _{d}P+\log _{M/B}{\frac {N}{PB}}\right)+f(N,P,d)\cdot \log _{d}P\right)$

где

$f(N,P,d)=O\left(\log {\frac {PB}{\sqrt {d}}}\log {\frac {N}{P}}+\left\lceil {\frac {\sqrt {d}}{B}}\log P+{\sqrt {d}}\log B\right\rceil \right)$

Если количество процессоров выбрано так, а сложность ввода-вывода составит: $f(N,P,d)=O\left(\left\lceil {\tfrac {N}{PB}}\right\rceil \right)$ $M<B^{O(1)}$

$O\left({\frac {N}{PB}}\log _{M/B}{\frac {N}{B}}\right)$

Другие алгоритмы PEM [ править ]


Алгоритм PEM	Сложность ввода / вывода	Ограничения
Сортировка слияния ^[1]	$O\left({\frac {N}{PB}}\log _{\frac {M}{B}}{\frac {N}{B}}\right)={\textrm {sort}}_{P}(N)$	$P\leq {\frac {N}{B^{2}}},M=B^{O(1)}$
Рейтинг в списке ^[2]	$O\left({\textrm {sort}}_{P}(N)\right)$	$P\leq {\frac {N/B^{2}}{\log B\cdot \log ^{O(1)}N}},M=B^{O(1)}$
Эйлер тур ^[2]	$O\left({\textrm {sort}}_{P}(N)\right)$	$P\leq {\frac {N}{B^{2}}},M=B^{O(1)}$
Оценка дерева выражений ^[2]	$O\left({\textrm {sort}}_{P}(N)\right)$	$P\leq {\frac {N}{B^{2}\log B\cdot \log ^{O(1)}N}},M=B^{O(1)}$
Поиск MST ^[2]	$O\left({\textrm {sort}}_{P}(\|V\|)+{\textrm {sort}}_{P}(\|E\|)\log {\tfrac {\|V\|}{pB}}\right)$	$p\leq {\frac {\|V\|+\|E\|}{B^{2}\log B\cdot \log ^{O(1)}N}},M=B^{O(1)}$

Где время, необходимое для сортировки элементов с помощью процессоров в модели PEM. ${\textrm {sort}}_{P}(N)$ $N$ $P$

См. Также [ править ]

Параллельная машина с произвольным доступом (PRAM)
Машина с произвольным доступом (RAM)
Внешняя память (EM)

Ссылки [ править ]

^ Б с д е е г ч я J K L Арге, Ларс; Гудрич, Майкл Т .; Нельсон, Майкл; Ситчинава, Нодари (2008). «Фундаментальные параллельные алгоритмы для мультипроцессоров с частным кэшированием». Материалы двадцатого ежегодного симпозиума по параллелизму в алгоритмах и архитектурах - SPAA '08 . Нью-Йорк, Нью-Йорк, США: ACM Press: 197. doi : 10.1145 / 1378533.1378573 . ISBN 9781595939739.
^ а б в г Ардж, Ларс; Гудрич, Майкл Т .; Ситчинава, Нодари (2010). «Параллельные алгоритмы графа внешней памяти». 2010 Международный симпозиум IEEE по параллельной и распределенной обработке (IPDPS) . IEEE: 1–11. DOI : 10.1109 / ipdps.2010.5470440 . ISBN 9781424464425.

[:0-1] Б с д е е г ч я J K L Арге, Ларс; Гудрич, Майкл Т .; Нельсон, Майкл; Ситчинава, Нодари (2008). «Фундаментальные параллельные алгоритмы для мультипроцессоров с частным кэшированием». Материалы двадцатого ежегодного симпозиума по параллелизму в алгоритмах и архитектурах - SPAA '08 . Нью-Йорк, Нью-Йорк, США: ACM Press: 197. doi : 10.1145 / 1378533.1378573 . ISBN 9781595939739.

[:1-2] а б в г Ардж, Ларс; Гудрич, Майкл Т .; Ситчинава, Нодари (2010). «Параллельные алгоритмы графа внешней памяти». 2010 Международный симпозиум IEEE по параллельной и распределенной обработке (IPDPS) . IEEE: 1–11. DOI : 10.1109 / ipdps.2010.5470440 . ISBN 9781424464425.

[1]

vтеПараллельные вычисления
Общий	Распределенных вычислений Параллельные вычисления Массивно параллельный Облачные вычисления Высокопроизводительные вычисления Многопроцессорность Многоядерный процессор ГПГПУ Компьютерная сеть Систолический массив
Уровни	Немного Инструкция Нить Задача Данные объем памяти Петля Трубопровод
Многопоточность	Временный Одновременный (SMT) Спекулятивный (SpMT) Упреждающий Кооператив Кластерная многопоточность (CMT) Аппаратный разведчик
Теория	PRAM модель Модель PEM Анализ параллельных алгоритмов Закон Амдала Закон Густафсона Эффективность затрат Метрика Карпа – Флатта Замедлять Ускорение
Элементы	Процесс Нить Волокно Окно с инструкциями Структура данных массива
Координация	Многопроцессорность Когерентность памяти Согласованность кеша Аннулирование кеша Барьер Синхронизация Контрольные точки приложения
Программирование	Потоковая обработка Программирование потока данных Модели Неявный параллелизм Явный параллелизм Параллелизм Неблокирующий алгоритм
Аппаратное обеспечение	Таксономия Флинна SISD SIMD SIMT MISD MIMD Архитектура потока данных Конвейерный процессор Суперскалярный процессор Векторный процессор Мультипроцессор симметричный асимметричный объем памяти общий распределен распределенный общий UMA NUMA КОМА Массивно-параллельный компьютер Компьютерный кластер Сетевой компьютер Аппаратное ускорение
API	Ateji PX Увеличение Часовня HPX Очарование ++ Силк Coarray Fortran CUDA Дриада C ++ AMP Глобальные массивы GPUOpen MPI OpenMP OpenCL OpenHMPP OpenACC Параллельные расширения PVM Потоки POSIX RaftLib UPC TBB ZPL
Проблемы	Автоматическое распараллеливание Тупик Детерминированный алгоритм Смущающе параллельный Параллельное замедление Состояние гонки Блокировка программного обеспечения Масштабируемость Голодание
Категория: Параллельные вычисления