Метод оптимизации Дженкса , также называемый методом классификации естественных разрывов Дженкса , представляет собой метод кластеризации данных, предназначенный для определения наилучшего распределения значений по различным классам. Это делается путем стремления минимизировать среднее отклонение каждого класса от среднего класса, в то же время максимизируя отклонение каждого класса от средних значений других классов. Другими словами, метод стремится уменьшить дисперсию внутри классов и максимизировать дисперсию между классами. [1] [2]
Метод оптимизации Дженкса напрямую связан с методом Оцу и дискриминантным анализом Фишера .
История
Джордж Фредерик Дженкс
Джордж Фредерик Дженкс был американским картографом 20 века . Получил степень доктора философии. Получив в 1947 году диплом по сельскохозяйственной географии в Сиракузском университете , Дженкс начал свою карьеру под руководством Ричарда Харрисона , картографа журнала Time and Fortune . [3] Он поступил на факультет Канзасского университета в 1949 году и начал разрабатывать картографическую программу. За 37 лет работы в KU Дженкс превратил программу «Картография» в одну из трех программ, известных своим последипломным образованием в этой области; другие - это Университет Висконсина и Вашингтонский университет . Много времени он тратил на разработку и продвижение усовершенствованных методов и программ обучения картографии. Он также потратил много времени на изучение трехмерных карт, исследование движения глаз, передачу тематических карт и геостатистику . [2] [3] [4]
Предпосылки и развитие
Дженкс был картографом по профессии. Его работа со статистикой выросла из желания сделать хороплетные карты более точными для зрителя. В своей статье «Концепция модели данных в статистическом картировании» он утверждает, что, визуализируя данные в трехмерной модели, картографы могут разработать «систематический и рациональный метод подготовки хороплетических карт». [1] Дженкс использовал аналогию с «одеялом ошибки», чтобы описать необходимость использования элементов, отличных от среднего, для обобщения данных. Трехмерные модели были созданы, чтобы помочь Дженксу визуализировать разницу между классами данных. Его цель состояла в том, чтобы обобщить данные с использованием как можно меньшего количества самолетов и поддерживать постоянное «одеяло ошибок».
Описание метода
Метод требует итеративного процесса. То есть, вычисления должны быть повторены с использованием разных разрывов в наборе данных, чтобы определить, какой набор разрывов имеет наименьшую вариацию в классе . Процесс начинается с разделения упорядоченных данных на классы некоторым способом, который может быть произвольным. Необходимо повторить два шага:
- Рассчитайте сумму квадратов отклонений от среднего класса (SDCM).
- Выберите новый способ разделения данных на классы, возможно, путем перемещения одной или нескольких точек данных из одного класса в другой.
Затем рассчитываются отклонения нового класса, и процесс повторяется до тех пор, пока сумма отклонений внутри класса не достигнет минимального значения. [1] [5]
В качестве альтернативы могут быть проверены все комбинации разрывов, рассчитан SDCM для каждой комбинации и выбрана комбинация с наименьшим SDCM. Поскольку проверяются все комбинации разрывов, это гарантирует, что будет найдена комбинация с наименьшим SDCM.
Наконец, может быть вычислена сумма квадратов отклонений от среднего полного набора данных (SDAM) и допустимая дисперсия (GVF). GVF определяется как (SDAM - SDCM) / SDAM. GVF варьируется от 0 (наихудшее соответствие) до 1 (идеальное соответствие).
Использование в картографии
Целью Дженкса при разработке этого метода было создание карты, которая была бы абсолютно точной с точки зрения представления пространственных атрибутов данных. Следуя этому процессу, утверждает Дженкс, «покров ошибки» может быть равномерно распределен по отображаемой поверхности. Он разработал это с намерением использовать относительно немного классов данных, меньше семи, потому что это был предел при использовании монохроматического затенения на хороплетической карте. [1]
Метод классификации Дженкса обычно используется в тематических картах, особенно картограммах, как один из нескольких доступных методов классификации. При создании картограмм метод классификации Дженкса может быть полезным, потому что, если в значениях данных есть кластеры, он их идентифицирует. Фактически, в текущих версиях программного обеспечения ArcGIS от Esri Jenks является методом классификации по умолчанию. Однако классификация Дженкса не рекомендуется для данных с низкой дисперсией. Естественные разрывы Дженкса в данных используются для обеспечения более значимой визуализации данных карты на основе «естественных разрывов» в данных, идентифицированных итеративным процессом.
Альтернативные методы
Другие методы классификации данных включают разрывы «голова / хвост» , естественные разрывы (без оптимизации Дженкса), равный интервал, квантиль и стандартное отклонение.
Смотрите также
- Кластеризация k-средних , обобщение для многомерных данных (оптимизация естественных разрывов Дженкса кажется одномерным k-средним [6] ).
Рекомендации
- ^ a b c d Дженкс, Джордж Ф. 1967. «Концепция модели данных в статистическом картографировании», Международный ежегодник картографии 7: 186–190.
- ^ a b Макмастер, Роберт, «In Memoriam: Джордж Ф. Дженкс (1916–1996)». Картография и географическая информатика. 24 (1) с. 56-59.
- ^ а б Макмастер, Роберт и Макмастер, Сюзанна. 2002. «История американской академической картографии двадцатого века», Картография и географическая информатика. 29 (3) с.312-315.
- ^ CSUN Cartography Speciality Group, Информационный бюллетень зимы 1997 г. Архивировано 07 июня 2010 г.на Wayback Machine
- ^ ESRI FAQ, Что такое метод оптимизации Jenks. Архивировано 16 ноября2007 г. на Wayback Machine .
- ^ «Глава 9» .
Внешние ссылки
- Вызов добровольной географической информации, Дэниел Льюис, алгоритм естественных разрывов Дженкса с реализацией на python
- Object Vision wiki, классификация естественных разрывов Фишера, алгоритм O (k * n * log (n))
- Что такое Jenks Natural Breaks?
- Грамотный Дженкс: естественные перерывы и как теряется идея кода