Задача максимального подмассива

В информатике , то максимальная сумма проблема подмассива является задачей нахождения смежного подмассива с наибольшей суммой, в пределах заданного одномерного массива A [1 ... п] числа. Формально задача найти индексы ${\ displaystyle i}$ а также ${\ displaystyle j}$ с участием ${\ Displaystyle 1 \ Leq я \ Leq J \ Leq N}$ , такая что сумма

Визуализация того, как подмассивы меняются в зависимости от начальной и конечной позиции образца. Каждый возможный непрерывный подмассив представлен точкой на цветной линии. Координата Y этой точки представляет собой сумму выборки. Его координата x представляет конец выборки, а крайняя левая точка на этой цветной линии представляет начало выборки. В этом случае массив, из которого берутся образцы, равен [2, 3, -1, -20, 5, 10].

{\ Displaystyle \ сумма _ {х = я} ^ {j} А [х]}

как можно больше. (Некоторые формулировки задачи также позволяют рассматривать пустой подмассив; по соглашению сумма всех значений пустого подмассива равна нулю.) Каждое число во входном массиве A может быть положительным, отрицательным или нулевым. ^[1]

Например, для массива значений [−2, 1, −3, 4, −1, 2, 1, −5, 4] непрерывный подмассив с наибольшей суммой равен [4, −1, 2, 1] , с суммой 6.

Некоторые свойства этой проблемы:

Если массив содержит все неотрицательные числа, проблема тривиальна; максимальный подмассив - это весь массив.
Если массив содержит все неположительные числа, то решением является любой подмассив размером 1, содержащий максимальное значение массива (или пустой подмассив, если это разрешено).
Несколько разных подмассивов могут иметь одинаковую максимальную сумму.

Эта проблема может быть решена с использованием нескольких различных алгоритмических методов, включая грубую силу, ^[2] разделяй и властвуй, ^[3] динамическое программирование ^[4] и сокращение до кратчайших путей. ^{[ необходима цитата ]}

История

Задача максимального подмассива была предложена Ульфом Гренандером в 1977 году как упрощенная модель для оценки максимального правдоподобия шаблонов в оцифрованных изображениях. ^[5]

Гренандер искал прямоугольный подмассив с максимальной суммой в двумерном массиве действительных чисел. Алгоритм грубой силы для двумерной задачи выполняется за время O ( n ⁶ ); поскольку это происходило слишком медленно, Гренандер предложил одномерную задачу, чтобы понять ее структуру. Гренандер разработал алгоритм, который решает одномерную задачу за время O ( n ² ) ^{[примечание 1],} улучшая время работы грубой силы O ( n ³ ). Когда Майкл Шамос услышал о проблеме, он в одночасье разработал для нее алгоритм «разделяй и властвуй» за O ( n log n ) . Вскоре после этого Шамос описал одномерную проблему и ее историю на семинаре Университета Карнеги-Меллона, на котором присутствовал Джей Кадейн , который в течение минуты разработал алгоритм за время O ( n ), ^[5]^[6]^[7], который выглядит следующим образом: как можно быстрее. ^{[примечание 2]} В 1982 году Дэвид Грайс получил тот же алгоритм за время O ( n ), применяя «стандартную стратегию» Дейкстры ; ^[8] в 1989 году Ричард Берд вывел его путем чисто алгебраической манипуляции с алгоритмом грубой силы с использованием формализма Берда – Меертенса . ^[9]

Двумерное обобщение Гренандера может быть решено за время O ( n ³ ) либо с помощью алгоритма Кадана в качестве подпрограммы, либо с помощью подхода «разделяй и властвуй». Немного более быстрые алгоритмы, основанные на умножении матриц расстояний , были предложены Тамаки и Токуяма (1998) и Такаока (2002) . Есть некоторые свидетельства того, что не существует значительно более быстрого алгоритма; алгоритм, который решает двумерную задачу о максимуме подмассива за время O ( n ^{3 − ε} ) для любого ε> 0, будет предполагать аналогичный быстрый алгоритм для задачи поиска кратчайших путей для всех пар . ^[10]

Приложения

Проблемы с максимальным подмассивом возникают во многих областях, таких как анализ геномной последовательности и компьютерное зрение .

Анализ геномной последовательности использует алгоритмы максимального подмассива для идентификации важных биологических сегментов белковых последовательностей. ^{[ необходима цитата ]} Эти проблемы включают консервативные сегменты, GC-богатые области, тандемные повторы, фильтр низкой сложности, ДНК-связывающие домены и области с высоким зарядом. ^{[ необходима цитата ]}

В компьютерном зрении алгоритмы максимального подмассива используются в растровых изображениях для обнаружения самой яркой области изображения.

Алгоритм Кадане

Пример запуска

Выполнение алгоритма Кадане на приведенном выше примере массива. Синий : подмассив с наибольшей суммой, заканчивающейся на i ; зеленый : подмассив с наибольшей суммой, встреченной на данный момент; строчная буква указывает на пустой массив; переменная i оставлена неявной в коде Python.

Алгоритм Кадане сканирует данный массив ${\ Displaystyle А [1 \ ldots п]}$ слева направо. в ${\ displaystyle j}$ -й шаг, он вычисляет подмассив с наибольшей суммой, заканчивающейся на ${\ displaystyle j}$ ; эта сумма сохраняется в переменной current_sum. ^{[примечание 3]} Кроме того, он вычисляет подмассив с наибольшей суммой в любом месте ${\ Displaystyle А [1 \ ldots j]}$ , поддерживается в переменной best_sum, ^{[примечание 4]} и легко получается как максимум из всех значений, current_sumзамеченных до сих пор, ср. строка 7 алгоритма.

Как инвариант цикла , в ${\ displaystyle j}$ -м шаге старое значение current_sumудерживает максимум по всем ${\ Displaystyle я \ в \ {1, \ ldots, j \}}$ суммы ${\ Displaystyle А [я] + \ cdots + А [J-1]}$ . ^{[примечание 5]} Следовательно,current_sum ${\ displaystyle + A [j]}$ ^{[примечание 6]} - это максимум по всем ${\ Displaystyle я \ в \ {1, \ ldots, j \}}$ суммы ${\ Displaystyle А [я] + \ cdots + А [j]}$ . Чтобы расширить последний максимум, чтобы охватить также случай ${\ displaystyle i = j + 1}$ , достаточно рассмотреть также пустой подмассив ${\ Displaystyle А [J + 1 \; \ ldots \; j]}$ . Это делается в строке 6 путем присвоения ${\ displaystyle \ max (0,}$ current_sum ${\ displaystyle + A [j])}$ как новое значение current_sum, которое после этого удерживает максимум по всем ${\ Displaystyle я \ в \ {1, \ ldots, j + 1 \}}$ суммы ${\ Displaystyle А [я] + \ cdots + А [j]}$ .

Таким образом, проблема может быть решена с помощью следующего кода ^[4]^[7], выраженного здесь на Python :

def  max_subarray ( числа ): "" "Найдите наибольшую сумму из любого непрерывного подмассива." "" best_sum  =  0  # или: float ('- inf') current_sum  =  0 для  x  в  числах : текущая_сумма  =  макс ( 0 ,  текущая_сумма  +  х ) best_sum  =  макс ( best_sum ,  current_sum ) вернуть  best_sum

Эта версия алгоритма вернет 0, если вход не содержит положительных элементов (в том числе, когда вход пуст). Для варианта проблемы, который запрещает пустые подмассивы, best_sumвместо этого следует инициализировать отрицательную бесконечность ^[11], а также в цикле for current_sumследует обновить как max(x, current_sum + x). ^{[примечание 7]} В этом случае, если входные данные не содержат положительного элемента, возвращаемое значение - это значение самого большого элемента (т. е. наименьшее отрицательное значение) или отрицательная бесконечность, если вход был пуст.

Алгоритм можно изменить, чтобы отслеживать начальный и конечный индексы максимального подмассива:

def  max_subarray ( числа ): "" "Найдите непрерывный подмассив с наибольшей суммой." "" best_sum  =  0  # или: float ('- inf') best_start  =  best_end  =  0  # или: Нет current_sum  =  0 для  current_end ,  x  в  перечислении ( числа ): если  текущая_сумма  <=  0 : # Начать новую последовательность с текущего элемента current_start  =  current_end current_sum  =  x еще : # Расширить существующую последовательность текущим элементом текущая_сумма  + =  х если  current_sum  >  best_sum : best_sum  =  current_sum best_start  =  current_start best_end  =  current_end  +  1  # +1 делает исключительным 'best_end' вернуть  best_sum ,  best_start ,  best_end

В Python массивы индексируются, начиная с 0, а конечный индекс обычно исключается, так что подмассив [22, 33] в массиве [-11, 22, 33, -44] будет начинаться с индекса 1 и заканчиваться индексом 3.

Поскольку в этом алгоритме используются оптимальные подструктуры (максимальный подмассив, заканчивающийся в каждой позиции, вычисляется простым способом из связанной, но меньшей и перекрывающейся подзадачи: максимальный подмассив, заканчивающийся в предыдущей позиции), этот алгоритм можно рассматривать как простой / тривиальный пример динамического программирования .

Сложность выполнения алгоритма Кадане составляет ${\ Displaystyle О (п)}$ . ^[4]^[7]

Обобщения

Подобные проблемы могут возникать и для многомерных массивов, но их решения более сложны; см., например, Такаока (2002) . Brodal & Jørgensen (2007) показали, как найти k наибольших сумм подмассива в одномерном массиве за оптимальное время. ${\ Displaystyle О (п + к)}$ .

Максимальная сумма k- непересекающихся подмассивов также может быть вычислена в оптимальном временном интервале. ${\ Displaystyle О (п + к)}$ . ^[12]

Смотрите также

Проблема суммы подмножества

Заметки

^ Используя предварительно вычисленную таблицу совокупных сумм ${\ Displaystyle S [к] = \ сумма _ {х = 1} ^ {k} А [х]}$ для вычисления суммы подмассива ${\ displaystyle \ sum _ {x = i} ^ {j} A [x] = S [j] -S [i-1]}$ в постоянное время
^ поскольку каждый алгоритм должен хотя бы один раз просканировать массив, что уже занимает время O ( n )
^ названMaxEndingHereв Bentley (1989) , иcв Gries (1982)
^ названMaxSoFarв Bentley (1989) , иsв Gries (1982)
^ Эта сумма равна ${\ displaystyle 0}$ когда ${\ displaystyle i = j}$ , соответствующий пустому подмассиву ${\ Displaystyle А [j \ ldots j-1]}$ .
^ В коде Python ${\ displaystyle A [j]}$ выражается как x, с индексом ${\ displaystyle j}$ слева неявно.
^ Хотя последняя модификация не упоминается Бентли (1989) , она позволяет поддерживать измененный инвариант цикла.current_sum ${\ Displaystyle = \ макс _ {я \ в \ {1, ..., j \}} A [я] + ... + A [j]}$ в начале ${\ displaystyle j}$ -й шаг.

Внешние ссылки

ТАН, Лиронг. «Задачи о максимальной сумме смежных подмассивов» (PDF) . Архивировано из оригинального (PDF) 10.10.2015 . Проверено 26 октября 2017 .
Му, Шин-Ченг (2010). «Проблема максимальной суммы сегмента: ее происхождение и происхождение» .
«Примечания к проблеме максимального подмассива» . 2012 г.
www.algorithmist.com
alexeigor.wikidot.com
проблема наибольшей подпоследовательной суммы на Розеттском коде
Страница geeksforgeeks по алгоритму Кадане

[6] Используя предварительно вычисленную таблицу совокупных сумм ${\ Displaystyle S [к] = \ сумма _ {х = 1} ^ {k} А [х]}$ для вычисления суммы подмассива ${\ displaystyle \ sum _ {x = i} ^ {j} A [x] = S [j] -S [i-1]}$ в постоянное время

[9] поскольку каждый алгоритм должен хотя бы один раз просканировать массив, что уже занимает время O ( n )

[13] названMaxEndingHereв Bentley (1989) , иcв Gries (1982)

[14] названMaxSoFarв Bentley (1989) , иsв Gries (1982)

[15] Эта сумма равна ${\ displaystyle 0}$ когда ${\ displaystyle i = j}$ , соответствующий пустому подмассиву ${\ Displaystyle А [j \ ldots j-1]}$ .

[16] В коде Python ${\ displaystyle A [j]}$ выражается как x, с индексом ${\ displaystyle j}$ слева неявно.

[18] Хотя последняя модификация не упоминается Бентли (1989) , она позволяет поддерживать измененный инвариант цикла.current_sum ${\ Displaystyle = \ макс _ {я \ в \ {1, ..., j \}} A [я] + ... + A [j]}$ в начале ${\ displaystyle j}$ -й шаг.

[FOOTNOTEBentley198969-1] Перейти ↑ Bentley 1989 , p. 69.

[FOOTNOTEBentley198970-2] Перейти ↑ Bentley 1989 , p. 70.

[FOOTNOTEBentley198973-3] Перейти ↑ Bentley 1989 , p. 73.

[FOOTNOTEBentley198974-4] Bentley 1989 , стр. 74.

[FOOTNOTEBentley1984868-869-5] Bentley 1984 , стр. 868-869.

[FOOTNOTEBentley198976-77-7] Перейти ↑ Bentley 1989 , p. 76-77.

[FOOTNOTEGries1982211-8] Грис 1982 , стр. 211.

[FOOTNOTEGries1982209-211-10] Грис 1982 , с. 209-211.

[FOOTNOTEBird1989Sect.8,_p.126-11] Bird 1989 , Sect.8, с.126.

[FOOTNOTEBackursDikkalaTzamos2016-12] Backurs, Dikkala & Tzamos 2016 .

[FOOTNOTEBentley198978,171-17] Перейти ↑ Bentley 1989 , p. 78 171.

[FOOTNOTEBengtssonChen2007-19] Перейти ↑ Bengtsson & Chen 2007 .

[1]