База данных MNIST ( Modified Национального института стандартов и технологии базы данных [1] ) большая база данных рукописных цифр , которые обычно используются для подготовки различной обработки изображений систем. [2] [3] База данных также широко используется для обучения и тестирования в области машинного обучения . [4] [5] Он был создан путем «повторного смешивания» выборок из исходных наборов данных NIST. [6] Создатели посчитали, что, поскольку обучающий набор данных NIST был взят из Американского бюро переписи населения.сотрудники, в то время как тестирование набор данные был взяты из американских средней школы студентов, это было не очень хорошо подходит для машинного обучения экспериментов. [7] Кроме того, черно-белые изображения из NIST были нормализованы, чтобы поместиться в ограничивающий прямоугольник 28x28 пикселей, и сглажены , что привело к появлению уровней градаций серого. [7]
База данных MNIST содержит 60 000 обучающих изображений и 10 000 тестовых изображений. [8] Половина обучающего набора и половина тестового набора были взяты из набора обучающих данных NIST, в то время как другая половина обучающего набора и другая половина набора тестов были взяты из набора данных тестирования NIST. [9] Первоначальные создатели базы данных хранят список некоторых методов, протестированных на ней. [7] В своей оригинальной статье они использовали машину опорных векторов, чтобы получить коэффициент ошибок 0,8%. [10] В 2017 году был опубликован расширенный набор данных EMNIST, аналогичный MNIST, который содержит 240 000 обучающих изображений и 40 000 тестовых изображений рукописных цифр и символов. [11]
История
Набор изображений в базе данных MNIST был создан в 1998 году как комбинация двух баз данных NIST : Special Database 1 и Special Database 3. Special Database 1 и Special Database 3 состоят из цифр, написанных старшеклассниками и сотрудниками Бюро переписи населения США соответственно. [7]
Представление
Некоторые исследователи достигли «почти человеческих характеристик» в базе данных MNIST, используя комитет нейронных сетей; в той же статье авторы добиваются вдвое большей производительности, чем люди, в других задачах распознавания. [12] Наивысшая частота ошибок, указанная [7] на исходном веб-сайте базы данных, составляет 12 процентов, что достигается с помощью простого линейного классификатора без предварительной обработки. [10]
В 2004 году уровень ошибок в лучшем случае 0,42 процента был достигнут в базе данных исследователями, использовавшими новый классификатор под названием LIRA, который представляет собой нейронный классификатор с тремя слоями нейронов, основанный на принципах персептрона Розенблатта. [13]
Некоторые исследователи тестировали системы искусственного интеллекта, используя базу данных, подвергнутую случайным искажениям. Системы в этих случаях обычно представляют собой нейронные сети, а используемые искажения имеют тенденцию быть либо аффинными искажениями, либо упругими искажениями . [7] Иногда эти системы могут быть очень успешными; одна такая система достигла коэффициента ошибок в базе данных 0,39 процента. [14]
В 2011 году исследователи, использующие аналогичную систему нейронных сетей, сообщили о частоте ошибок 0,27 процента, что лучше предыдущего лучшего результата. [15] В 2013 году было заявлено, что подход, основанный на регуляризации нейронных сетей с использованием DropConnect, позволяет достичь коэффициента ошибок 0,21%. [16] В 2016 году лучшая производительность одиночной сверточной нейронной сети составила 0,25 процента ошибок. [17] По состоянию на август 2018 года лучшая производительность одной сверточной нейронной сети, обученной на обучающих данных MNIST без дополнения данных, составляет 0,25 процента ошибок. [17] [18] Кроме того, Центр параллельных вычислений (Хмельницкий, Украина) получил ансамбль всего из 5 сверточных нейронных сетей, которые работают на MNIST с коэффициентом ошибок 0,21%. [19] [20] Некоторые изображения в наборе данных тестирования плохо читаются и могут помешать достижению коэффициента ошибок теста 0%. [21] В 2018 году исследователи из Департамента системной и информационной инженерии Университета Вирджинии объявили об ошибке 0,18% при одновременном совмещении трех типов нейронных сетей (полносвязные, рекуррентные и сверточные нейронные сети). [22]
Классификаторы
Это таблица некоторых методов машинного обучения, используемых в наборе данных, и их коэффициентов ошибок по типам классификатора:
Тип | Классификатор | Искажение | Предварительная обработка | Частота ошибок (%) |
---|---|---|---|---|
Линейный классификатор | Попарный линейный классификатор | Никто | Выравнивание | 7,6 [10] |
K-Ближайшие соседи | К-НН с нелинейной деформацией (П2ДХМДМ) | Никто | Сдвигающиеся края | 0,52 [23] |
Усиленные пни | Произведение пней на особенности Хаара | Никто | Особенности Хаара | 0,87 [24] |
Нелинейный классификатор | 40 PCA + квадратичный классификатор | Никто | Никто | 3.3 [10] |
Случайный лес | Быстрые унифицированные случайные леса для выживания, регрессии и классификации (RF-SRC) [25] | Никто | Простая статистическая важность пикселей | 2,8 [26] |
Машина опорных векторов (SVM) | Виртуальный SVM , deg-9 poly, 2-пиксельное дрожание | Никто | Выравнивание | 0,56 [27] |
Глубокая нейронная сеть (DNN) | 2-х слойный 784-800-10 | Никто | Никто | 1,6 [28] |
Глубокая нейронная сеть | 2-х слойный 784-800-10 | Упругие искажения | Никто | 0,7 [28] |
Глубокая нейронная сеть | 6-слойный 784-2500-2000-1500-1000-500-10 | Упругие искажения | Никто | 0,35 [29] |
Сверточная нейронная сеть (CNN) | 6-слойный 784-40-80-500-1000-2000-10 | Никто | Расширение обучающих данных | 0,31 [30] |
Сверточная нейронная сеть | 6-слойный 784-50-100-500-1000-10-10 | Никто | Расширение обучающих данных | 0,27 [31] |
Сверточная нейронная сеть (CNN) | 13-слойный 64-128 (5x) -256 (3x) -512-2048-256-256-10 | Никто | Никто | 0,25 [17] |
Сверточная нейронная сеть | Комитет 35 CNN, 1-20-P-40-P-150-10 | Упругие искажения | Нормализация ширины | 0,23 [12] |
Сверточная нейронная сеть | Комитет 5 CNN, 6-ти слойный 784-50-100-500-1000-10-10 | Никто | Расширение обучающих данных | 0,21 [19] [20] |
Случайное многомодельное глубокое обучение (RMDL) | 10 NN-10 RNN - 10 CNN | Никто | Никто | 0,18 [22] |
Сверточная нейронная сеть | Комитет 20 CNNS с сетями сжатия и возбуждения [32] | Никто | Увеличение данных | 0,17 [33] |
Смотрите также
- Список наборов данных для исследования машинного обучения
- Калтех 101
- LabelMe
- OCR
Рекомендации
- ^ "БАЗА ДАННЫХ MNIST рукописных цифр" . Ян Лекун , Институт Куранта, Нью-Йоркский университет Коринна Кортес, Google Labs, Нью-Йорк Кристофер Дж. К. Берджес, Microsoft Research, Редмонд.
- ^ «Поддержка векторных машин распознавания образов скорости - Vision Systems Design» . Дизайн систем зрения . Проверено 17 августа 2013 года .
- ^ Гангапутра, Сачин. «База данных рукописных цифр» . Проверено 17 августа 2013 года .
- ^ Цяо, Ю (2007). «БАЗА ДАННЫХ рукописных цифр MNIST» . Проверено 18 августа 2013 года .
- ^ Платт, Джон С. (1999). «Использование аналитического QP и разреженности для ускорения обучения опорных векторных машин» (PDF) . Достижения в системах обработки нейронной информации : 557–563. Архивировано из оригинального (PDF) 4 марта 2016 года . Проверено 18 августа 2013 года .
- ^ Гротер, Патрик Дж. "Специальная база данных 19 NIST - база данных форм и символов, отпечатанных вручную " (PDF) . Национальный институт стандартов и технологий .
- ^ а б в г д е ЛеКун, Янн; Кортез, Коринна; Берджес, Кристофер CJ "База данных рукописных цифр MNIST" . Веб-сайт Яна ЛеКуна yann.lecun.com . Проверено 30 апреля 2020 .
- ^ Куссул, Эрнст; Байдык, Татьяна (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST». Вычисления изображений и зрения . 22 (12): 971–981. DOI : 10.1016 / j.imavis.2004.03.008 .
- ^ Чжан, Бинь; Шрихари, Саргур Н. (2004). «Быстрая классификация k- ближайших соседей с использованием кластерных деревьев» (PDF) . IEEE Transactions по анализу шаблонов и машинному интеллекту . 26 (4): 525–528. DOI : 10.1109 / TPAMI.2004.1265868 . PMID 15382657 . S2CID 6883417 . Проверено 20 апреля 2020 .
- ^ а б в г ЛеКун, Янн; Леон Ботту; Йошуа Бенжио; Патрик Хаффнер (1998). «Градиентное обучение применительно к распознаванию документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. DOI : 10.1109 / 5.726791 . Проверено 18 августа 2013 года .
- ^ Коэн, Грегори; Афшар, Саид; Тэпсон, Джонатан; ван Шайк, Андре (17.02.2017). «EMNIST: расширение MNIST для рукописных букв». arXiv : 1702.05373 [ cs.CV ].
- ^ а б Чиресан, Дан; Ули Мейер; Юрген Шмидхубер (2012). «Многоколоночные глубокие нейронные сети для классификации изображений» (PDF) . Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов . С. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . DOI : 10.1109 / CVPR.2012.6248110 . ISBN 978-1-4673-1228-8. S2CID 2161592 .
- ^ Куссул, Эрнст; Татьяна Байдык (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST» (PDF) . Вычисления изображений и зрения . 22 (12): 971–981. DOI : 10.1016 / j.imavis.2004.03.008 . Архивировано из оригинального (PDF) 21 сентября 2013 года . Проверено 20 сентября 2013 года .
- ^ Ранзато, Марк'Аурелио; Кристофер Поултни; Сумит Чопра; Янн ЛеКун (2006). «Эффективное изучение разреженных представлений с помощью модели, основанной на энергии» (PDF) . Достижения в системах обработки нейронной информации . 19 : 1137–1144 . Проверено 20 сентября 2013 года .
- ^ Чиресан, Дэн Клаудиу; Ули Мейер; Лука Мария Гамбарделла; Юрген Шмидхубер (2011). «Комитеты сверточных нейронных сетей для классификации рукописных символов» (PDF) . 2011 Международная конференция по анализу и распознаванию документов (ICDAR) . С. 1135–1139. CiteSeerX 10.1.1.465.2138 . DOI : 10.1109 / ICDAR.2011.229 . ISBN 978-1-4577-1350-7. S2CID 10122297 . Архивировано из оригинального (PDF) 22 февраля 2016 года . Проверено 20 сентября 2013 года .
- ^ Ван, Ли; Мэтью Цайлер; Сиксин Чжан; Янн ЛеКун; Роб Фергус (2013). Регуляризация нейронной сети с помощью DropConnect . Международная конференция по машинному обучению (ICML).
- ^ а б в SimpleNet (2016). «Давайте оставим это простым, используя простые архитектуры, чтобы превзойти более глубокие и сложные архитектуры» . arXiv : 1608.06037 . Дата обращения 3 декабря 2020 .
- ^ SimpNet. «На пути к принципиальному проектированию глубоких сверточных сетей: введение в SimpNet» . Github . arXiv : 1802.06205 . Дата обращения 3 декабря 2020 .
- ^ а б Романуке, Вадим. «Центр параллельных вычислений (Хмельницкий, Украина) представляет собой ансамбль из 5 сверточных нейронных сетей, которые работают на MNIST с коэффициентом ошибок 0,21%» . Проверено 24 ноября +2016 .
- ^ а б Романуке, Вадим (2016). «Расширение обучающих данных и усиление сверточных нейронных сетей для уменьшения количества ошибок набора данных MNIST» . Вестник НТУУ «Киевский политехнический институт» . 6 (6): 29–34. DOI : 10.20535 / 1810-0546.2016.6.84115 .
- ^ Классификатор MNIST, GitHub. «Классифицируйте цифры MNIST с помощью сверточных нейронных сетей» . Проверено 3 августа 2018 .
- ^ а б Ковсари, Камран; Хейдарисафа, Моджтаба; Браун, Дональд Э .; Мейманди, Киана Джафари; Барнс, Лаура Э. (2018-05-03). «RMDL: случайное многомодельное глубокое обучение для классификации». Материалы Международной конференции по информационным системам и интеллектуальному анализу данных 2018 . arXiv : 1805.01890 . DOI : 10.1145 / 3206098.3206111 . S2CID 19208611 .
- ^ Кейзерс, Дэниел; Томас Дезелаерс; Кристиан Голлан; Герман Ней (август 2007 г.). «Деформационные модели для распознавания образов». IEEE Transactions по анализу шаблонов и машинному интеллекту . 29 (8): 1422–1435. CiteSeerX 10.1.1.106.3963 . DOI : 10.1109 / TPAMI.2007.1153 . PMID 17568145 . S2CID 2528485 .
- ^ Кегл, Балаж; Роберт Буса-Фекете (2009). «Повышение качества базовых классификаторов» (PDF) . Труды 26-й ежегодной международной конференции по машинному обучению : 497–504 . Проверено 27 августа 2013 года .
- ^ «RandomForestSRC: быстрые унифицированные случайные леса для выживания, регрессии и классификации (RF-SRC)» . 21 января 2020.
- ^ «Мехрад Махмудиан / MNIST с RandomForest» .
- ^ Декост, Деннис; Шёлкопф, Бернхард (2002). «Обучение Инвариантная поддержка Вектор машины» . Машинное обучение . 46 (1–3): 161–190. DOI : 10,1023 / A: 1012454411458 . ISSN 0885-6125 . OCLC 703649027 . Проверено 5 февраля 2021 .
- ^ а б Патрис Ю. Симард; Дэйв Стейнкраус; Джон С. Платт (2003). «Лучшие практики сверточных нейронных сетей, применяемые для визуального анализа документов» . Материалы Седьмой Международной конференции по анализу и распознаванию документов . 1 . Институт инженеров по электротехнике и радиоэлектронике . п. 958. DOI : 10.1109 / ICDAR.2003.1227801 . ISBN 978-0-7695-1960-9. S2CID 4659176 .
- ^ Чиресан, Клаудиу Дан; Ули Мейер; Лука Мария Гамбарделла; Юрген Шмидхубер (декабрь 2010 г.). «Глубокие большие простые нейронные сети Excel по распознаванию рукописных цифр». Нейронные вычисления . 22 (12): 3207–20. arXiv : 1003.0358 . DOI : 10.1162 / NECO_a_00052 . PMID 20858131 . S2CID 1918673 .
- ^ Романуке, Вадим. «Лучшая производительность одиночной сверточной нейронной сети за 18 эпох на расширенных обучающих данных в Центре параллельных вычислений, Хмельницкий, Украина» . Проверено 16 ноября +2016 .
- ^ Романуке, Вадим. «Центр параллельных вычислений (Хмельницкий, Украина) дает единую сверточную нейронную сеть, работающую на MNIST с коэффициентом ошибок 0,27%» . Проверено 24 ноября +2016 .
- ^ Ху, Цзе; Шен, Ли; Албани, Самуэль; Солнце, банда; Ву, Эньхуа (2019). «Сети сжатия и возбуждения». IEEE Transactions по анализу шаблонов и машинному анализу . 42 (8): 2011–2023. arXiv : 1709.01507 . DOI : 10.1109 / TPAMI.2019.2913372 . PMID 31034408 . S2CID 140309863 .
- ^ «GitHub - Matuzas77 / MNIST-0.17: классификатор MNIST со средней ошибкой 0,17%» . 25 февраля 2020.
дальнейшее чтение
- Чиресан, Дан; Мейер, Ули; Шмидхубер, Юрген (июнь 2012 г.). «Многоколоночные глубокие нейронные сети для классификации изображений» (PDF) . Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов . Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике . С. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . DOI : 10.1109 / CVPR.2012.6248110 . ISBN 9781467312264. OCLC 812295155 . S2CID 2161592 . Проверено 9 декабря 2013 .
Внешние ссылки
- Официальный веб-сайт
- Нейронная сеть для распознавания рукописных цифр в JavaScript - реализация нейронной сети на JavaScript для классификации рукописных цифр на основе базы данных MNIST.
- Визуализация базы данных MNIST - группы изображений рукописных цифр MNIST на GitHub