Обучение без выстрела

Обучение с нулевым выстрелом (ZSL) - это постановка задачи в машинном обучении , когда во время тестирования учащийся наблюдает за образцами из классов, которые не наблюдались во время обучения , и должен предсказать, к какому классу он принадлежит. Методы нулевого выстрела обычно работают путем связывания наблюдаемых и ненаблюдаемых классов с помощью некоторой формы вспомогательной информации, которая кодирует наблюдаемые отличительные свойства объектов. ^[1] Например, учитывая набор изображений животных, которые нужно классифицировать, вместе со вспомогательными текстовыми описаниями того, как выглядят животные, ИИ, который был обучен распознавать лошадей, но никогда не видел зебру, все еще может распознавать зебру. если он еще знает, что зебры похожи на полосатых лошадей. Эта проблема широко изучается вкомпьютерное зрение , обработка естественного языка и машинное восприятие. ^[2]

Предпосылки и история [ править ]

Первая статья о беспроблемном обучении при обработке естественного языка появилась в AAAI'08, но название, данное парадигме обучения, было классификацией без данных . ^[3] Первая статья об обучении с нулевым выстрелом в компьютерном зрении появилась на той же конференции под названием « Обучение с нулевым объемом данных» . ^[4] Это направление было популяризировано позже в другой, более известной статье CV ^[5], и термин « обучение с нулевым выстрелом» пришелся на смену однократному обучению , появившемуся в компьютерном зрении годами ранее. ^[6]

В компьютерном зрении модели обучения с нулевым выстрелом изучали параметры для наблюдаемых классов вместе с их представлениями классов и полагаются на репрезентативное сходство между метками классов, чтобы во время вывода экземпляры можно было классифицировать в новые классы.

В обработке естественного языка ключевое техническое направление основывается на способности «понимать метки» - представлять метки в том же семантическом пространстве, что и документы, подлежащие классификации. Это поддерживает классификацию одного примера без наблюдения за какими-либо аннотированными данными, чистейшая форма классификации с нулевым выстрелом. В исходной статье ^[3] использовалось представление явного семантического анализа (ESA), но в более поздних статьях использовались другие представления, включая плотные представления. Этот подход был также распространен на многоязычные домены ^[7]^[8] точная типизация сущностей ^[9]и другие проблемы. Более того, помимо использования исключительно представлений, вычислительный подход был расширен, чтобы зависеть от переноса из других задач, таких как текстовый вывод ^[10] и ответы на вопросы. ^[11]

В исходной статье ^[3] также указывается, что, помимо возможности классифицировать один пример, когда дается набор примеров, с предположением, что они происходят из одного и того же дистрибутива, можно настроить производительность в полуавтоматическом режиме. под наблюдением (или транссудативное обучение).

В отличие от стандартного обобщения в машинном обучении, где ожидается, что классификаторы правильно классифицируют новые выборки по классам, которые они уже наблюдали во время обучения, в ZSL во время обучения классификатора не было предоставлено никаких выборок из классов. Поэтому его можно рассматривать как крайний случай адаптации предметной области .

Предварительная информация для классов с нулевым выстрелом [ править ]

Естественно, об этих классах нулевого выстрела должна быть предоставлена некоторая вспомогательная информация, и этот тип информации может быть нескольких типов.

Обучение с помощью атрибутов: классы сопровождаются заранее определенным структурированным описанием. Например, в описании птиц это может быть «красная голова», «длинный клюв». ^[5]^[12] Эти атрибуты часто организованы структурированным композиционным образом, и учет этой структуры улучшает обучение. ^[13] Хотя этот подход использовался в основном в компьютерном зрении, есть несколько примеров его использования и при обработке естественного языка. ^[14]
Изучение текстового описания. Как указывалось выше, это было ключевым направлением обработки естественного языка. Здесь метки классов имеют смысл и часто дополняются определениями или текстовыми описаниями на естественном языке. Это может включать, например, описание класса в Википедии. ^[9]^[15]^[16]
Классовое сходство. Здесь классы вложены в непрерывное пространство. классификатор с нулевым выстрелом может предсказать, что образцы соответствуют некоторой позиции в этом пространстве, а ближайший внедренный класс используется в качестве прогнозируемого класса, даже если такие образцы не наблюдались во время обучения. ^[17]

Обобщенное обучение с нулевым выстрелом [ править ]

Вышеупомянутая установка ZSL предполагает, что во время тестирования даются только нулевые выборки, а именно выборки из новых невидимых классов. При обобщенном обучении с нулевым выстрелом во время тестирования могут появляться образцы как из новых, так и из известных классов. Это ставит новые задачи перед классификаторами во время тестирования, потому что очень сложно оценить, является ли данная выборка новой или известной. Вот несколько подходов к решению этой проблемы:

Стробирующий подход. Здесь сначала обучается дополнительный модуль, чтобы решить, происходит ли данный образец из нового класса или из старого. Стробирующий может выдавать жесткое решение ^[18], но выдача мягкого вероятностного решения еще больше повышает точность этой линии заходов на посадку. ^[19]
Генеративные подходы. Здесь генеративная модель обучается генерировать представление признаков невидимых классов. Затем обучается стандартный классификатор на основе выборок всех классов, видимых и невидимых. ^[20]

Домены приложения [ править ]

Обучение с нулевым выстрелом применялось в следующих областях:

Обучающие компьютерные программы с нулевым выстрелом, некоторые используют Википедию для представления векторов категорий. Программа анализирует статьи вики и формирует числа на основе слов, найденных в этом файле - слова выбираются и образуют категории для сортировки тестовых данных в машинном обучении. ^[21]

Ссылки [ править ]

^ Сянь, Юнцинь; Lampert, Christoph H .; Шиле, Бернт; Аката, Зейнеп (2020-09-23). «Обучение с нулевым выстрелом - всесторонняя оценка хорошего, плохого и уродливого». arXiv : 1707.00600 [ cs.CV ].
^ Сянь, Юнцинь; Шиле, Бернт; Аката, Зейнеп (2017). «Обучение с нулевым выстрелом - хорошее, плохое и уродливое». Труды конференции IEEE по компьютерному зрению и распознаванию образов : 4582–4591. arXiv : 1703.04394 . Bibcode : 2017arXiv170304394X .
^ a b c Чанг, MW (2008). «Важность семантического представления: классификация без данных» (PDF) . AAAI .
^ Ларошель, Хьюго (2008). «Изучение новых задач с нулевыми данными» (PDF) .
^ а б Ламперт, CH (2009). «Обучение обнаружению невидимых классов объектов путем передачи атрибутов между классами» . Конференция IEEE по компьютерному зрению и распознаванию образов : 951–958. CiteSeerX 10.1.1.165.9750 .
Перейти ↑ Miller, EG (2000). «Изучение одного примера через общие плотности преобразований» (PDF) . CVPR .
^ Песня, Янцю (2019). «К классификации тем текстовых документов на любом языке» . Искусственный интеллект . 274 : 133–150. DOI : 10.1016 / j.artint.2019.02.002 .
^ Песня, Янцю (2016). «Межъязыковая классификация без данных для многих языков» (PDF) . IJCAI .
^ а б Чжоу, Бен (2018). "Zero-Shot Open Entity Typing как тип-совместимое заземление" (PDF) . ЕМНЛП . arXiv : 1907.03228 .
^ Инь, Wenpeng (2019). «Бенчмаркинг Zero-shot Text Classification: Datasets, Evaluation and Entailment Approach» (PDF) . ЕМНЛП . arXiv : 1909.00161 .
^ Леви, Омер (2017). «Извлечение отношения нулевого кадра через понимание прочитанного» (PDF) . CoNLL . arXiv : 1706.04115 .
^ Ромера-Паредес, Бернардино; Торр, Филипп (2015). «Невероятно простой подход к беспроблемному обучению» (PDF) . Международная конференция по машинному обучению : 2152–2161.
^ Ацмон, Юваль; Чечик, Гал (2018). «Вероятностная группировка атрибутов И-ИЛИ для обучения с нулевым выстрелом» (PDF) . Неопределенность в искусственном интеллекте . arXiv : 1806.02664 . Bibcode : 2018arXiv180602664A .
Перейти ↑ Roth, Dan (2009). «Аспектная категоризация текста с ненаблюдаемыми ярлыками» . ICDM . CiteSeerX 10.1.1.148.9946 .
^ Ху, Р. Лили; Xiong, Caiming; Сохер, Ричард (2018). «Классификация изображений с нулевым выстрелом на основе описаний классов на естественном языке: подход к метаобучению» (PDF) . NeurIPS .
^ Шривастава, Шашанк; Лабутов, Игорь; Митчел, Том (2018). «Изучение классификаторов с нулевым выстрелом из количественной оценки естественного языка» . ACL . Труды 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные документы): 306–316. DOI : 10.18653 / v1 / P18-1029 .
^ Фром, Андреа; и др. (2013). «Разработка: модель глубокого визуально-семантического встраивания» (PDF) . Достижения в системах обработки нейронной информации : 2121–2129.
^ Socher, R; Ганджу, М. Manning, CD; Нг, А. (2013). «Обучение с нулевым выстрелом через кросс-модальный перенос». Системы обработки нейронной информации . arXiv : 1301,3666 . Bibcode : 2013arXiv1301.3666S .
^ Ацмон, Юваль (2019). «Адаптивное сглаживание уверенности для обобщенного обучения с нулевым выстрелом». Конференция IEEE по компьютерному зрению и распознаванию образов : 11671–11680. arXiv : 1812.09903 . Bibcode : 2018arXiv181209903A .
^ Феликс, R; и др. (2018). «Мультимодальное согласованное с циклом обобщенное обучение без выстрела» Труды Европейской конференции по компьютерному зрению : 21–37. arXiv : 1808.00136 . Bibcode : 2018arXiv180800136F .
^ https://www.youtube.com/watch?v=jBnCcr-3bXc

[1] Сянь, Юнцинь; Lampert, Christoph H .; Шиле, Бернт; Аката, Зейнеп (2020-09-23). «Обучение с нулевым выстрелом - всесторонняя оценка хорошего, плохого и уродливого». arXiv : 1707.00600 [ cs.CV ].

[2] Сянь, Юнцинь; Шиле, Бернт; Аката, Зейнеп (2017). «Обучение с нулевым выстрелом - хорошее, плохое и уродливое». Труды конференции IEEE по компьютерному зрению и распознаванию образов : 4582–4591. arXiv : 1703.04394 . Bibcode : 2017arXiv170304394X .

[:0-3] Чанг, MW (2008). «Важность семантического представления: классификация без данных» (PDF) . AAAI .

[4] Ларошель, Хьюго (2008). «Изучение новых задач с нулевыми данными» (PDF) .

[:1-5] а б Ламперт, CH (2009). «Обучение обнаружению невидимых классов объектов путем передачи атрибутов между классами» . Конференция IEEE по компьютерному зрению и распознаванию образов : 951–958. CiteSeerX 10.1.1.165.9750 .

[6] Перейти ↑ Miller, EG (2000). «Изучение одного примера через общие плотности преобразований» (PDF) . CVPR .

[7] Песня, Янцю (2019). «К классификации тем текстовых документов на любом языке» . Искусственный интеллект . 274 : 133–150. DOI : 10.1016 / j.artint.2019.02.002 .

[8] Песня, Янцю (2016). «Межъязыковая классификация без данных для многих языков» (PDF) . IJCAI .

[:2-9] а б Чжоу, Бен (2018). "Zero-Shot Open Entity Typing как тип-совместимое заземление" (PDF) . ЕМНЛП . arXiv : 1907.03228 .

[10] Инь, Wenpeng (2019). «Бенчмаркинг Zero-shot Text Classification: Datasets, Evaluation and Entailment Approach» (PDF) . ЕМНЛП . arXiv : 1909.00161 .

[11] Леви, Омер (2017). «Извлечение отношения нулевого кадра через понимание прочитанного» (PDF) . CoNLL . arXiv : 1706.04115 .

[12] Ромера-Паредес, Бернардино; Торр, Филипп (2015). «Невероятно простой подход к беспроблемному обучению» (PDF) . Международная конференция по машинному обучению : 2152–2161.

[13] Ацмон, Юваль; Чечик, Гал (2018). «Вероятностная группировка атрибутов И-ИЛИ для обучения с нулевым выстрелом» (PDF) . Неопределенность в искусственном интеллекте . arXiv : 1806.02664 . Bibcode : 2018arXiv180602664A .

[14] Перейти ↑ Roth, Dan (2009). «Аспектная категоризация текста с ненаблюдаемыми ярлыками» . ICDM . CiteSeerX 10.1.1.148.9946 .

[15] Ху, Р. Лили; Xiong, Caiming; Сохер, Ричард (2018). «Классификация изображений с нулевым выстрелом на основе описаний классов на естественном языке: подход к метаобучению» (PDF) . NeurIPS .

[16] Шривастава, Шашанк; Лабутов, Игорь; Митчел, Том (2018). «Изучение классификаторов с нулевым выстрелом из количественной оценки естественного языка» . ACL . Труды 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные документы): 306–316. DOI : 10.18653 / v1 / P18-1029 .

[17] Фром, Андреа; и др. (2013). «Разработка: модель глубокого визуально-семантического встраивания» (PDF) . Достижения в системах обработки нейронной информации : 2121–2129.

[18] Socher, R; Ганджу, М. Manning, CD; Нг, А. (2013). «Обучение с нулевым выстрелом через кросс-модальный перенос». Системы обработки нейронной информации . arXiv : 1301,3666 . Bibcode : 2013arXiv1301.3666S .

[19] Ацмон, Юваль (2019). «Адаптивное сглаживание уверенности для обобщенного обучения с нулевым выстрелом». Конференция IEEE по компьютерному зрению и распознаванию образов : 11671–11680. arXiv : 1812.09903 . Bibcode : 2018arXiv181209903A .

[20] Феликс, R; и др. (2018). «Мультимодальное согласованное с циклом обобщенное обучение без выстрела» Труды Европейской конференции по компьютерному зрению : 21–37. arXiv : 1808.00136 . Bibcode : 2018arXiv180800136F .

[21] ttps://www.youtube.com/watch?v=jBnCcr-3bXc

[1]