BERT (языковая модель)

Двунаправленные представления кодировщика от Transformers ( BERT ) - это основанный на Transformer метод машинного обучения для предварительного обучения обработке естественного языка (NLP), разработанный Google . BERT был создан и опубликован в 2018 году Якобом Девлином и его коллегами из Google. ^[1]^[2] С 2019 ^{[Обновить]}года Google использует BERT, чтобы лучше понимать запросы пользователей. ^[3]

Оригинальный англоязычный BERT имеет две модели: ^[1] (1) BERT _BASE : 12 энкодеров с 12 двунаправленными головками самовнимания и (2) BERT _LARGE : 24 энкодера с 24 двунаправленными головками самовнимания. Обе модели предварительно обучены на основе немаркированных данных, извлеченных из BooksCorpus ^[4] с 800 млн слов и английской Википедии с 2500 млн слов. ^[5]

Производительность [ править ]

Когда BERT был опубликован, он достиг высочайшего уровня производительности по ряду задач понимания естественного языка : ^[1]

Набор задач GLUE ( General Language Understanding Evaluation ) (состоит из 9 задач)
SQuAD ( Стэнфордский набор данных с ответами на вопросы ) v1.1 и v2.0
SWAG ( ситуации с состязательными поколениями )

Анализ [ править ]

Причины Берта внедренного исполнения на этих естественном языке понимание задач еще не изучены. ^[6]^[7] Текущее исследование было сосредоточено на изучении взаимосвязи между выходными данными BERT в результате тщательно выбранных входных последовательностей, ^[8]^[9] анализа внутренних векторных представлений с помощью зондирующих классификаторов ^[10]^[11] и взаимосвязей представлены весами внимания . ^[6]^[7]

История [ править ]

BERT берет свое начало из предтренировочных контекстных представлений, включая полу-контролируемое последовательное обучение , ^[12] генеративное предварительное обучение , ELMo , ^[13] и ULMFit . ^[14] В отличие от предыдущих моделей, BERT - это глубоко двунаправленное неконтролируемое языковое представление, предварительно обученное с использованием только простого текстового корпуса. Бесконтекстные модели, такие как word2vec или GloVeгенерировать представление встраивания одного слова для каждого слова в словаре, где BERT принимает во внимание контекст для каждого вхождения данного слова. Например, в то время как вектор для "бега" будет иметь одно и то же векторное представление word2vec для обоих его вхождений в предложениях "Он управляет компанией" и "Он бежит марафон", BERT предоставит контекстуализированное встраивание, которое будет разные в зависимости от предложения.

25 октября 2019 года Google Search объявил, что они начали применять модели BERT для поисковых запросов на английском языке в США . ^[15] 9 декабря 2019 г. сообщалось, что BERT был принят поиском Google для более чем 70 языков. ^[16] В октябре 2020 года почти все запросы на английском языке обрабатывались BERT. ^[17]

Признание [ править ]

BERT получил награду за лучший объемный доклад на Ежегодной конференции Североамериканского отделения Ассоциации компьютерной лингвистики (NAACL) в 2019 году . ^[18]

См. Также [ править ]

Трансформер (модель машинного обучения)
Word2vec
Автоэнкодер
Матрица документов-терминов
Извлечение признаков
Особенности обучения
Языковые модели нейронных сетей
Векторная модель пространства
Вектор мысли
fastText
Перчатка
TensorFlow

Ссылки [ править ]

^ a b c Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (11 октября 2018 г.). «BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805v2 [ cs.CL ].
^ "Открытый исходный код BERT: Современное предварительное обучение для обработки естественного языка" . Блог Google AI . Проверено 27 ноября 2019 .
^ «Понимание поисковых запросов лучше, чем когда-либо прежде» . Google . 2019-10-25 . Проверено 27 ноября 2019 .
^ Чжу, Юкун; Кирос, Райан; Земель, Рич; Салахутдинов Руслан; Уртасун, Ракель; Торральба, Антонио; Фидлер, Саня (2015). «Согласование книг и фильмов: к историческим визуальным объяснениям при просмотре фильмов и чтении книг». С. 19–27. arXiv : 1506.06724 [ cs.CV ].
^ Annamoradnejad, Исса (2020-04-27). "ColBERT: Использование вложения предложений BERT для обнаружения юмора". arXiv : 2004.12765 [ cs.CL ].
^ а б Ковалёва Ольга; Романов, Алексей; Роджерс, Анна; Румшиски, Анна (ноябрь 2019). «Раскрытие темных секретов BERT» . Материалы конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP) . С. 4364–4373. DOI : 10.18653 / v1 / D19-1445 . S2CID 201645145 .
^ a b Кларк, Кевин; Ханделвал, Урваши; Леви, Омер; Мэннинг, Кристофер Д. (2019). «На что смотрит BERT? Анализ внимания BERT» . Материалы семинара по ACL 2019 BlackboxNLP: Анализ и интерпретация нейронных сетей для NLP . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 276–286. DOI : 10.18653 / v1 / w19-4828 .
^ Khandelwal, Urvashi; Он, Он; Ци, Пэн; Джурафски, Дэн (2018). «Sharp Nearby, Fuzzy Far Away: как модели нейронного языка используют контекст». Труды 56-го Ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 284–294. arXiv : 1805.04623 . Bibcode : 2018arXiv180504623K . DOI : 10.18653 / v1 / p18-1027 . S2CID 21700944 .
^ Gulordava, Кристина; Бояновский, Петр; Могила, Эдуард; Линзен, Таль; Барони, Марко (2018). «Бесцветные зеленые рекуррентные сети мечтают об иерархии». Труды конференции 2018 г. Североамериканского отделения Ассоциации компьютерной лингвистики: технологии человеческого языка, том 1 (длинные статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1195–1205. arXiv : 1803.11138 . Bibcode : 2018arXiv180311138G . DOI : 10.18653 / v1 / n18-1108 . S2CID 4460159 .
^ Джулианелли, Марио; Хардинг, Джек; Mohnert, Флориан; Hupkes, Dieuwke; Зуидема, Виллем (2018). «Под капотом: использование диагностических классификаторов для исследования и улучшения того, как языковые модели отслеживают информацию о соглашении». Труды семинара EMNLP 2018 BlackboxNLP: Анализ и интерпретация нейронных сетей для NLP . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 240–248. arXiv : 1808.08079 . Bibcode : 2018arXiv180808079G . DOI : 10.18653 / v1 / w18-5426 . S2CID 52090220 .
^ Чжан, Келли; Боуман, Сэмюэл (2018). «Языковое моделирование учит вас большему, чем перевод: уроки, извлеченные из анализа вспомогательных синтаксических задач» . Труды семинара EMNLP 2018 BlackboxNLP: Анализ и интерпретация нейронных сетей для NLP . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 359–361. DOI : 10.18653 / v1 / w18-5448 .
^ Дай, Эндрю; Ле, Куок (4 ноября 2015 г.). «Полу-контролируемое последовательное обучение». arXiv : 1511.01432 [ cs.LG ].
^ Петерс, Мэтью; Нойман, Марк; Айер, Мохит; Гарднер, Мэтт; Кларк, Кристофер; Ли, Кентон; Люк, Зеттлемойер (15 февраля 2018 г.). «Глубокие контекстуализированные представления слов». arXiv : 1802.05365v2 [ cs.CL ].
^ Ховард, Джереми; Рудер, Себастьян (18 января 2018 г.). «Тонкая настройка универсальной языковой модели для классификации текста». arXiv : 1801.06146v5 [ cs.CL ].
^ Найяк Панду (25 октября 2019). «Понимание поисковых запросов лучше, чем когда-либо прежде» . Блог Google . Проверено 10 декабря 2019 .
^ Montti, Роджер (10 декабря 2019). "Google BERT распространяется по всему миру" . Журнал поисковых систем . Журнал поисковых систем . Проверено 10 декабря 2019 .
^ «Google: BERT теперь используется почти во всех английских запросах» . Земля поисковой машины . 2020-10-15 . Проверено 24 ноября 2020 .
^ "Best Paper Awards" . NAACL . 2019 . Проверено 28 марта 2020 года .

Дальнейшее чтение [ править ]

Роджерс, Анна; Ковалева, Ольга; Румшиски, Анна (2020). «Учебник по BERTology: что мы знаем о том, как работает BERT». arXiv : 2002.12327 .

Внешние ссылки [ править ]

Официальный репозиторий GitHub

[:0-1] Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (11 октября 2018 г.). «BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805v2 [ cs.CL ].

[2] "Открытый исходный код BERT: Современное предварительное обучение для обработки естественного языка" . Блог Google AI . Проверено 27 ноября 2019 .

[3] «Понимание поисковых запросов лучше, чем когда-либо прежде» . Google . 2019-10-25 . Проверено 27 ноября 2019 .

[4] Чжу, Юкун; Кирос, Райан; Земель, Рич; Салахутдинов Руслан; Уртасун, Ракель; Торральба, Антонио; Фидлер, Саня (2015). «Согласование книг и фильмов: к историческим визуальным объяснениям при просмотре фильмов и чтении книг». С. 19–27. arXiv : 1506.06724 [ cs.CV ].

[5] Annamoradnejad, Исса (2020-04-27). "ColBERT: Использование вложения предложений BERT для обнаружения юмора". arXiv : 2004.12765 [ cs.CL ].

[:1-6] а б Ковалёва Ольга; Романов, Алексей; Роджерс, Анна; Румшиски, Анна (ноябрь 2019). «Раскрытие темных секретов BERT» . Материалы конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP) . С. 4364–4373. DOI : 10.18653 / v1 / D19-1445 . S2CID 201645145 .

[:2-7] Кларк, Кевин; Ханделвал, Урваши; Леви, Омер; Мэннинг, Кристофер Д. (2019). «На что смотрит BERT? Анализ внимания BERT» . Материалы семинара по ACL 2019 BlackboxNLP: Анализ и интерпретация нейронных сетей для NLP . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 276–286. DOI : 10.18653 / v1 / w19-4828 .

[8] Khandelwal, Urvashi; Он, Он; Ци, Пэн; Джурафски, Дэн (2018). «Sharp Nearby, Fuzzy Far Away: как модели нейронного языка используют контекст». Труды 56-го Ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 284–294. arXiv : 1805.04623 . Bibcode : 2018arXiv180504623K . DOI : 10.18653 / v1 / p18-1027 . S2CID 21700944 .

[9] Gulordava, Кристина; Бояновский, Петр; Могила, Эдуард; Линзен, Таль; Барони, Марко (2018). «Бесцветные зеленые рекуррентные сети мечтают об иерархии». Труды конференции 2018 г. Североамериканского отделения Ассоциации компьютерной лингвистики: технологии человеческого языка, том 1 (длинные статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1195–1205. arXiv : 1803.11138 . Bibcode : 2018arXiv180311138G . DOI : 10.18653 / v1 / n18-1108 . S2CID 4460159 .

[10] Джулианелли, Марио; Хардинг, Джек; Mohnert, Флориан; Hupkes, Dieuwke; Зуидема, Виллем (2018). «Под капотом: использование диагностических классификаторов для исследования и улучшения того, как языковые модели отслеживают информацию о соглашении». Труды семинара EMNLP 2018 BlackboxNLP: Анализ и интерпретация нейронных сетей для NLP . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 240–248. arXiv : 1808.08079 . Bibcode : 2018arXiv180808079G . DOI : 10.18653 / v1 / w18-5426 . S2CID 52090220 .

[11] Чжан, Келли; Боуман, Сэмюэл (2018). «Языковое моделирование учит вас большему, чем перевод: уроки, извлеченные из анализа вспомогательных синтаксических задач» . Труды семинара EMNLP 2018 BlackboxNLP: Анализ и интерпретация нейронных сетей для NLP . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 359–361. DOI : 10.18653 / v1 / w18-5448 .

[12] Дай, Эндрю; Ле, Куок (4 ноября 2015 г.). «Полу-контролируемое последовательное обучение». arXiv : 1511.01432 [ cs.LG ].

[13] Петерс, Мэтью; Нойман, Марк; Айер, Мохит; Гарднер, Мэтт; Кларк, Кристофер; Ли, Кентон; Люк, Зеттлемойер (15 февраля 2018 г.). «Глубокие контекстуализированные представления слов». arXiv : 1802.05365v2 [ cs.CL ].

[14] Ховард, Джереми; Рудер, Себастьян (18 января 2018 г.). «Тонкая настройка универсальной языковой модели для классификации текста». arXiv : 1801.06146v5 [ cs.CL ].

[15] Найяк Панду (25 октября 2019). «Понимание поисковых запросов лучше, чем когда-либо прежде» . Блог Google . Проверено 10 декабря 2019 .

[16] Montti, Роджер (10 декабря 2019). "Google BERT распространяется по всему миру" . Журнал поисковых систем . Журнал поисковых систем . Проверено 10 декабря 2019 .

[17] «Google: BERT теперь используется почти во всех английских запросах» . Земля поисковой машины . 2020-10-15 . Проверено 24 ноября 2020 .

[18] "Best Paper Awards" . NAACL . 2019 . Проверено 28 марта 2020 года .

[1]

vтеОбработка естественного языка
Общие условия	AI-полный Мешок слов н-грамм Биграмма Триграмма Понимание естественного языка Речевой корпус Stopwords Текстовый корпус
Анализ текста	Извлечение словосочетаний Концепция майнинга Обработка сложных терминов Разрешение Coreference Лемматизация Признание именной организации Изучение онтологий Парсинг Пометка части речи Семантическое сходство Анализ настроений Стемминг Извлечение терминологии Фрагменты текста Сегментация текста Сегментация предложения Сегментация слов Текстовое следствие Truecasing Устранение смысловой неоднозначности
Автоматическое суммирование	Резюме из нескольких документов Извлечение приговора Упрощение текста
Машинный перевод	Компьютерная На основе примера Основанный на правилах Нейронный
Автоматическая идентификация и сбор данных	Распознавание речи Сегментация речи Синтез речи Генерация естественного языка Оптическое распознавание символов
Тематическая модель	Скрытое размещение Дирихле Скрытый семантический анализ Распределение патинко
Компьютерное рецензирование	Автоматическая оценка эссе Конкордансер Проверка грамматики Интеллектуального ввода текста Программа проверки орфографии Угадывание синтаксиса
Пользовательский интерфейс на естественном языке	Чат-бот Интерактивная фантастика Ответ на вопрос Виртуальный помощник Голосовой пользовательский интерфейс