Наборы для обучения, проверки и тестирования

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Источники: «Наборы для обучения, проверки и тестирования» - новости · газеты · книги · ученый · JSTOR ( декабрь 2012 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )

В машинном обучении распространенной задачей является изучение и построение алгоритмов, которые могут учиться на данных и делать прогнозы на их основе . ^[1] Такие алгоритмы функционируют, делая прогнозы или решения на основе данных, ^[2] путем построения математической модели на основе входных данных.

Примеры способов разделения набора данных. Набор данных A использует только обучающий набор и тестовый набор. Набор тестов будет использоваться для тестирования обученной модели. Для набора данных B набор проверки будет использоваться для тестирования обученной модели, а набор тестов будет оценивать окончательную модель.

Данные, используемые для построения окончательной модели, обычно поступают из нескольких наборов данных . В частности, на разных этапах создания модели обычно используются три набора данных.

Модель изначально помещается на тренировочном наборе данных , ^[3] , который представляет собой набор примеров , используемых в соответствии с параметрами (например , веса связей между нейронами в искусственных нейронных сетях ) модели. ^[4] Модель (например, нейронные сети или наивный байесовский классификатор ) обучается на тренировочном наборе данных с использованием наблюдением обучения методом, например , с использованием методов оптимизации , такие как градиентного спуска или стохастического градиентного спуска . На практике обучающий набор данных часто состоит из пар входных векторов.(или скаляр) и соответствующий выходной вектор (или скаляр), где ключ ответа обычно обозначается как цель (или метка ). Текущая модель запускается с набором обучающих данных и дает результат, который затем сравнивается с целевым , для каждого входного вектора в наборе обучающих данных. На основании результата сравнения и конкретного используемого алгоритма обучения настраиваются параметры модели. Подбор модели может включать как выбор переменных, так и оценку параметров .

Последовательно подобранная модель используется для прогнозирования ответов на наблюдения во втором наборе данных, который называется набором данных проверки . ^[3] Набор данных проверки обеспечивает беспристрастную оценку соответствия модели набору обучающих данных при настройке гиперпараметров модели ^[5] (например, количества скрытых единиц - слоев и ширины слоев - в нейронной сети ^[4] ). Наборы данных проверки можно использовать для регуляризации путем ранней остановки (остановка обучения при увеличении ошибки в наборе данных проверки, поскольку это признак переобучения набору обучающих данных). ^[6]Эта простая процедура на практике усложняется тем фактом, что ошибка набора данных проверки может колебаться во время обучения, создавая несколько локальных минимумов. Это осложнение привело к созданию множества специальных правил для принятия решения о том, когда действительно началось переобучение. ^[6]

Наконец, набор тестовых данных - это набор данных, используемый для обеспечения объективной оценки окончательной модели, подходящей для набора обучающих данных. ^[5] Если данные в наборе тестовых данных никогда не использовались в обучении (например, при перекрестной проверке ), набор тестовых данных также называется удерживающим набором данных . Термин «набор для проверки» иногда используется вместо «набор для проверки» в некоторой литературе (например, если исходный набор данных был разделен только на два подмножества, набор для проверки можно было бы назвать набором для проверки). ^[5]

Набор обучающих данных [ править ]

Набор обучающих данных - это набор примеров, используемых в процессе обучения, который используется для соответствия параметрам (например, весам), например, классификатора . ^[7]^[8]

Для задач классификации алгоритм контролируемого обучения смотрит на набор обучающих данных, чтобы определить или изучить оптимальные комбинации переменных, которые позволят сгенерировать хорошую прогностическую модель . ^[9] Цель состоит в том, чтобы создать обученную (подогнанную) модель, которая хорошо обобщается на новые, неизвестные данные. ^[10] Подобранная модель оценивается с использованием «новых» примеров из имеющихся наборов данных (проверочные и тестовые наборы данных) для оценки точности модели при классификации новых данных. ^[5] Чтобы снизить риск таких проблем, как переобучение, примеры в наборах данных проверки и тестирования не должны использоваться для обучения модели. ^[5]

Большинство подходов, которые ищут эмпирические взаимосвязи в обучающих данных, как правило, не соответствуют данным, что означает, что они могут идентифицировать и использовать очевидные связи в обучающих данных, которые в целом не соответствуют действительности.

Набор данных проверки [ править ]

Набор данных проверки - это набор данных примеров, используемых для настройки гиперпараметров (т. Е. Архитектуры) классификатора. Иногда его также называют набором для разработки или «набором для разработчиков». Пример гиперпараметра для искусственных нейронных сетей включает количество скрытых единиц в каждом слое. ^[7]^[8] Он, как и набор для тестирования (как упоминалось выше), должен следовать тому же распределению вероятностей, что и набор обучающих данных.

Чтобы избежать переобучения, когда необходимо настроить какой-либо параметр классификации , необходимо иметь набор данных проверки в дополнение к наборам данных для обучения и тестирования. Например, если ищется наиболее подходящий классификатор для проблемы, набор обучающих данных используется для обучения различных классификаторов-кандидатов, набор данных проверки используется для сравнения их характеристик и принятия решения, какой из них выбрать, и, наконец, используется набор тестовых данных. для получения рабочих характеристик, таких как точность , чувствительность , специфичность , F-мера, и так далее. Набор данных проверки функционирует как гибрид: это обучающие данные, используемые для тестирования, но не как часть низкоуровневого обучения и не как часть окончательного тестирования.

Базовый процесс использования набора данных проверки для выбора модели (как часть набора данных для обучения, набора данных проверки и набора тестовых данных): ^[8]^[11]

Поскольку наша цель - найти сеть, имеющую наилучшую производительность на новых данных, самый простой подход к сравнению различных сетей - оценить функцию ошибок с использованием данных, которые не зависят от данных, используемых для обучения. Различные сети обучаются путем минимизации соответствующей функции ошибок, определенной для набора обучающих данных. Затем производительность сетей сравнивается путем оценки функции ошибок с использованием независимого набора проверки и выбирается сеть, имеющая наименьшую ошибку по сравнению с набором проверки. Такой подход называется удержаниемметод. Поскольку эта процедура сама по себе может привести к некоторому переоснащению набора для проверки, производительность выбранной сети должна быть подтверждена путем измерения ее производительности на третьем независимом наборе данных, называемом набором тестов.

Применение этого процесса заключается в ранней остановке , когда модели-кандидаты являются последовательными итерациями одной и той же сети, а обучение останавливается, когда ошибка на проверочном наборе растет, выбирая предыдущую модель (модель с минимальной ошибкой).

Набор тестовых данных [ править ]

Набор тестовых данных - это набор данных, который не зависит от набора данных для обучения, но имеет то же распределение вероятностей, что и набор данных для обучения. Если модель, подходящая к набору обучающих данных, также хорошо соответствует набору тестовых данных, произошло минимальное переоснащение (см. Рисунок ниже). Лучшее соответствие набора обучающих данных по сравнению с набором тестовых данных обычно указывает на переобучение.

Таким образом, набор тестов - это набор примеров, используемых только для оценки производительности (т. Е. Обобщения) полностью определенного классификатора. ^[7]^[8] Для этого финальная модель используется для прогнозирования классификации примеров в тестовом наборе. Эти прогнозы сравниваются с истинными классификациями примеров для оценки точности модели. ^[9]

В сценарии, в котором используются наборы данных как для проверки, так и для тестирования, набор данных для тестирования обычно используется для оценки окончательной модели, выбранной в процессе проверки. В случае, когда исходный набор данных разделен на два подмножества (обучающий и тестовый наборы данных), тестовый набор данных может оценить модель только один раз (например, в методе удержания ). ^[12] Обратите внимание, что некоторые источники не рекомендуют использовать такой метод. ^[10] Однако при использовании такого метода, как перекрестная проверка , два раздела могут быть достаточными и эффективными, поскольку результаты усредняются после многократных циклов обучения и тестирования модели, чтобы помочь уменьшить систематическую ошибку и вариабельность. ^[5]^[10]

Обучающий набор (слева) и тестовый набор (справа) из одной и той же статистической совокупности показаны синими точками. Обучающим данным подходят две прогнозные модели. Обе подобранные модели построены как для обучающего, так и для тестового набора. В обучающем наборе MSE соответствия, показанного оранжевым, составляет 4, тогда как MSE для соответствия, показанного зеленым, равно 9. В тестовом наборе MSE для соответствия, показанного оранжевым, составляет 15, а MSE для соответствия, показанного на зеленый - 13. Оранжевая кривая сильно перекрывает обучающие данные, поскольку ее MSE увеличивается почти в четыре раза при сравнении тестового набора с обучающим набором. Зеленая кривая намного меньше соответствует обучающим данным, так как ее MSE увеличивается менее чем в 2 раза.

Путаница в терминологии [ править ]

Термины тестовый набор и набор проверки иногда используются таким образом , что переворачивает их значение в промышленности и научных кругов. При ошибочном использовании «набор тестов» становится набором для разработки, а «набор для проверки» - это независимый набор, используемый для оценки производительности полностью определенного классификатора.

В литературе по машинному обучению часто используются противоположные значения «проверочных» и «тестовых». Это наиболее вопиющий пример терминологической путаницы, которая пронизывает исследования искусственного интеллекта. ^[13]

Перекрестная проверка [ править ]

Набор данных можно многократно разделить на набор данных для обучения и набор данных для проверки: это называется перекрестной проверкой . Эти повторяющиеся разбиения могут быть выполнены различными способами, такими как разделение на 2 равных набора данных и использование их в качестве обучения / проверки, а затем проверка / обучение или повторный выбор случайного подмножества в качестве набора данных проверки ^{[ необходима ссылка ]} . Для проверки производительности модели иногда используется дополнительный набор тестовых данных, который не был подвергнут перекрестной проверке. ^{[ необходима цитата ]}

Иерархическая классификация [ править ]

Другим примером настройки параметров является иерархическая классификация (иногда называемая декомпозицией пространства экземпляров ^[14] ), которая разбивает полную многоклассовую задачу на набор более мелких задач классификации. Он служит для изучения более точных концепций благодаря более простым границам классификации в подзадачах и процедурам выбора отдельных функций для подзадач. При выполнении декомпозиции классификации центральным выбором является порядок комбинирования более мелких этапов классификации, называемый путем классификации. В зависимости от приложения его можно получить из матрицы неточностей.а также выявление причин типичных ошибок и поиск способов предотвращения их появления в системе. Например, в ^[15] на проверочном наборе можно увидеть, какие классы наиболее часто взаимно путаются системой, а затем декомпозиция пространства экземпляров выполняется следующим образом: во-первых, классификация выполняется среди хорошо узнаваемых классов и трудно разделимых классов. классы рассматриваются как единый объединенный класс, и, наконец, на втором этапе классификации объединенный класс классифицируется на два первоначально смешанных класса. ^{[ необходима цитата ]}

См. Также [ править ]

Статистическая классификация
Список наборов данных для исследования машинного обучения

Ссылки [ править ]

^ Рон Kohavi; Фостер-провост (1998). «Словарь терминов» . Машинное обучение . 30 : 271–274. DOI : 10,1023 / A: 1007411609915 .
↑ Епископ, Кристофер М. (2006). Распознавание образов и машинное обучение . Нью-Йорк: Спрингер. п. vii. ISBN 0-387-31073-8. Распознавание образов берет свое начало в инженерии, тогда как машинное обучение выросло из информатики. Однако эти виды деятельности можно рассматривать как две стороны одной и той же области, и вместе они претерпели существенное развитие за последние десять лет.
^ a b Джеймс, Гарет (2013). Введение в статистическом обучение: с приложениями в R . Springer. п. 176. ISBN. 978-1461471370.
^ а б Рипли, Брайан (1996). Распознавание образов и нейронные сети . Издательство Кембриджского университета. п. 354 . ISBN 978-0521717700.
^ a b c d e f Браунли, Джейсон (13.07.2017). «В чем разница между тестовыми и проверочными наборами данных?» . Проверено 12 октября 2017 .
^ a b Прешельт, Лутц; Женевьева Б. Орр (01.01.2012). «Ранняя остановка - но когда?». В Грегуаре Монтавоне; Клаус-Роберт Мюллер (ред.). Нейронные сети: хитрости . Конспект лекций по информатике. Springer Berlin Heidelberg. стр. 53 -67. DOI : 10.1007 / 978-3-642-35289-8_5 . ISBN 978-3-642-35289-8.
^ a b c Рипли, Б. Д. (1996) Распознавание образов и нейронные сети , Кембридж: Издательство Кембриджского университета, стр. 354
^ a b c d « Тема: каковы совокупность, выборка, обучающий набор, проектный набор, набор для проверки и набор тестов? », Часто задаваемые вопросы по нейронной сети, часть 1 из 7: Введение ( txt ), comp.ai.neural- сети, Sarle, WS, ed. (1997 г., последнее изменение 17 мая 2002 г.)
^ a b Лароз, Д.Т.; Ларос, CD (2014). Обретение знаний в данных: введение в интеллектуальный анализ данных . Хобокен: Вайли. DOI : 10.1002 / 9781118874059 . ISBN 978-0-470-90874-7. OCLC 869460667 .
^ а б в Сюй, Юнь; Goodacre, Ройстон (2018). «О разделении набора для обучения и проверки: сравнительное исследование перекрестной проверки, начальной загрузки и систематической выборки для оценки эффективности обобщения контролируемого обучения» . Журнал анализа и тестирования . ООО "Спрингер Сайенс энд Бизнес Медиа". 2 (3): 249–262. DOI : 10.1007 / s41664-018-0068-2 . ISSN 2096-241X .
Перейти ↑ Bishop, CM (1995), Neural Networks for Pattern Recognition , Oxford: Oxford University Press, p. 372
^ Kohavi, Рон (2001-03-03). «Исследование перекрестной проверки и начальной загрузки для оценки точности и выбора модели» . 14 . Цитировать журнал требует |journal=( помощь )
^ Рипли, Брайан Д. (2009). Распознавание образов и нейронные сети . Cambridge Univ. Нажмите. С. Глоссарий. ISBN 9780521717700. OCLC 601063414 .
^ Коэн, S .; Рокач, Л .; Маймон, О. (2007). «Декомпозиция пространства экземпляров дерева решений с сгруппированным коэффициентом усиления». Информационные науки . Эльзевир. 177 (17): 3592–3612. DOI : 10.1016 / j.ins.2007.01.016 .
^ Сидорова, Дж., Бадиа, Т. " ESEDA: инструмент для расширенного обнаружения и анализа речевых эмоций ". 4-я Международная конференция по автоматизированным решениям для кросс-медиа-контента и многоканального распространения (AXMEDIS 2008). Флоренция, 17-19 ноября, стр. 257–260. Пресса IEEE.

Внешние ссылки [ править ]

Часто задаваемые вопросы: что такое генеральная совокупность, выборка, обучающий набор, проектный набор, набор для проверки и набор тестов?
В чем разница между тестовыми и проверочными наборами данных?
Что такое сценарий обучения, проверки и тестирования наборов данных в машинном обучении?
Есть ли практическое правило, как разделить набор данных на обучающие и проверочные наборы?

[1] Рон Kohavi; Фостер-провост (1998). «Словарь терминов» . Машинное обучение . 30 : 271–274. DOI : 10,1023 / A: 1007411609915 .

[bishop-2] Епископ, Кристофер М. (2006). Распознавание образов и машинное обучение . Нью-Йорк: Спрингер. п. vii. ISBN 0-387-31073-8. Распознавание образов берет свое начало в инженерии, тогда как машинное обучение выросло из информатики. Однако эти виды деятельности можно рассматривать как две стороны одной и той же области, и вместе они претерпели существенное развитие за последние десять лет.

[James_2013_176-3] Джеймс, Гарет (2013). Введение в статистическом обучение: с приложениями в R . Springer. п. 176. ISBN. 978-1461471370.

[Ripley_1996_354-4] а б Рипли, Брайан (1996). Распознавание образов и нейронные сети . Издательство Кембриджского университета. п. 354 . ISBN 978-0521717700.

[Brownlee-5] Браунли, Джейсон (13.07.2017). «В чем разница между тестовыми и проверочными наборами данных?» . Проверено 12 октября 2017 .

[prechelt_early_2012-6] Прешельт, Лутц; Женевьева Б. Орр (01.01.2012). «Ранняя остановка - но когда?». В Грегуаре Монтавоне; Клаус-Роберт Мюллер (ред.). Нейронные сети: хитрости . Конспект лекций по информатике. Springer Berlin Heidelberg. стр. 53 -67. DOI : 10.1007 / 978-3-642-35289-8_5 . ISBN 978-3-642-35289-8.

[Ripley,_B.D._1996_p._354-7] Рипли, Б. Д. (1996) Распознавание образов и нейронные сети , Кембридж: Издательство Кембриджского университета, стр. 354

[cann-faq-8] « Тема: каковы совокупность, выборка, обучающий набор, проектный набор, набор для проверки и набор тестов? », Часто задаваемые вопросы по нейронной сети, часть 1 из 7: Введение ( txt ), comp.ai.neural- сети, Sarle, WS, ed. (1997 г., последнее изменение 17 мая 2002 г.)

[Larose2014-9] Лароз, Д.Т.; Ларос, CD (2014). Обретение знаний в данных: введение в интеллектуальный анализ данных . Хобокен: Вайли. DOI : 10.1002 / 9781118874059 . ISBN 978-0-470-90874-7. OCLC 869460667 .

[Xu_Goodacre_2018-10] а б в Сюй, Юнь; Goodacre, Ройстон (2018). «О разделении набора для обучения и проверки: сравнительное исследование перекрестной проверки, начальной загрузки и систематической выборки для оценки эффективности обобщения контролируемого обучения» . Журнал анализа и тестирования . ООО "Спрингер Сайенс энд Бизнес Медиа". 2 (3): 249–262. DOI : 10.1007 / s41664-018-0068-2 . ISSN 2096-241X .

[11] Перейти ↑ Bishop, CM (1995), Neural Networks for Pattern Recognition , Oxford: Oxford University Press, p. 372

[Kohavi2001-12] Kohavi, Рон (2001-03-03). «Исследование перекрестной проверки и начальной загрузки для оценки точности и выбора модели» . 14 . Цитировать журнал требует |journal=( помощь )

[13] Рипли, Брайан Д. (2009). Распознавание образов и нейронные сети . Cambridge Univ. Нажмите. С. Глоссарий. ISBN 9780521717700. OCLC 601063414 .

[14] Коэн, S .; Рокач, Л .; Маймон, О. (2007). «Декомпозиция пространства экземпляров дерева решений с сгруппированным коэффициентом усиления». Информационные науки . Эльзевир. 177 (17): 3592–3612. DOI : 10.1016 / j.ins.2007.01.016 .

[15] Сидорова, Дж., Бадиа, Т. " ESEDA: инструмент для расширенного обнаружения и анализа речевых эмоций ". 4-я Международная конференция по автоматизированным решениям для кросс-медиа-контента и многоканального распространения (AXMEDIS 2008). Флоренция, 17-19 ноября, стр. 257–260. Пресса IEEE.

[1]