Двунаправленные представления кодировщика от Transformers ( BERT ) - это основанный на Transformer метод машинного обучения для предварительного обучения обработке естественного языка (NLP), разработанный Google . BERT был создан и опубликован в 2018 году Якобом Девлином и его коллегами из Google. [1] [2] С 2019 [Обновить]года Google использует BERT, чтобы лучше понимать запросы пользователей. [3]
Оригинальный англоязычный BERT имеет две модели: [1] (1) BERT BASE : 12 энкодеров с 12 двунаправленными головками самовнимания и (2) BERT LARGE : 24 энкодера с 24 двунаправленными головками самовнимания. Обе модели предварительно обучены на основе немаркированных данных, извлеченных из BooksCorpus [4] с 800 млн слов и английской Википедии с 2500 млн слов. [5]
Производительность [ править ]
Когда BERT был опубликован, он достиг высочайшего уровня производительности по ряду задач понимания естественного языка : [1]
- Набор задач GLUE ( General Language Understanding Evaluation ) (состоит из 9 задач)
- SQuAD ( Стэнфордский набор данных с ответами на вопросы ) v1.1 и v2.0
- SWAG ( ситуации с состязательными поколениями )
Анализ [ править ]
Причины Берта внедренного исполнения на этих естественном языке понимание задач еще не изучены. [6] [7] Текущее исследование было сосредоточено на изучении взаимосвязи между выходными данными BERT в результате тщательно выбранных входных последовательностей, [8] [9] анализа внутренних векторных представлений с помощью зондирующих классификаторов [10] [11] и взаимосвязей представлены весами внимания . [6] [7]
История [ править ]
BERT берет свое начало из предтренировочных контекстных представлений, включая полу-контролируемое последовательное обучение , [12] генеративное предварительное обучение , ELMo , [13] и ULMFit . [14] В отличие от предыдущих моделей, BERT - это глубоко двунаправленное неконтролируемое языковое представление, предварительно обученное с использованием только простого текстового корпуса. Бесконтекстные модели, такие как word2vec или GloVeгенерировать представление встраивания одного слова для каждого слова в словаре, где BERT принимает во внимание контекст для каждого вхождения данного слова. Например, в то время как вектор для "бега" будет иметь одно и то же векторное представление word2vec для обоих его вхождений в предложениях "Он управляет компанией" и "Он бежит марафон", BERT предоставит контекстуализированное встраивание, которое будет разные в зависимости от предложения.
25 октября 2019 года Google Search объявил, что они начали применять модели BERT для поисковых запросов на английском языке в США . [15] 9 декабря 2019 г. сообщалось, что BERT был принят поиском Google для более чем 70 языков. [16] В октябре 2020 года почти все запросы на английском языке обрабатывались BERT. [17]
Признание [ править ]
BERT получил награду за лучший объемный доклад на Ежегодной конференции Североамериканского отделения Ассоциации компьютерной лингвистики (NAACL) в 2019 году . [18]
См. Также [ править ]
- Трансформер (модель машинного обучения)
- Word2vec
- Автоэнкодер
- Матрица документов-терминов
- Извлечение признаков
- Особенности обучения
- Языковые модели нейронных сетей
- Векторная модель пространства
- Вектор мысли
- fastText
- Перчатка
- TensorFlow
Ссылки [ править ]
- ^ a b c Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (11 октября 2018 г.). «BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805v2 [ cs.CL ].
- ^ "Открытый исходный код BERT: Современное предварительное обучение для обработки естественного языка" . Блог Google AI . Проверено 27 ноября 2019 .
- ^ «Понимание поисковых запросов лучше, чем когда-либо прежде» . Google . 2019-10-25 . Проверено 27 ноября 2019 .
- ^ Чжу, Юкун; Кирос, Райан; Земель, Рич; Салахутдинов Руслан; Уртасун, Ракель; Торральба, Антонио; Фидлер, Саня (2015). «Согласование книг и фильмов: к историческим визуальным объяснениям при просмотре фильмов и чтении книг». С. 19–27. arXiv : 1506.06724 [ cs.CV ].
- ^ Annamoradnejad, Исса (2020-04-27). "ColBERT: Использование вложения предложений BERT для обнаружения юмора". arXiv : 2004.12765 [ cs.CL ].
- ^ а б Ковалёва Ольга; Романов, Алексей; Роджерс, Анна; Румшиски, Анна (ноябрь 2019). «Раскрытие темных секретов BERT» . Материалы конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP) . С. 4364–4373. DOI : 10.18653 / v1 / D19-1445 . S2CID 201645145 .
- ^ a b Кларк, Кевин; Ханделвал, Урваши; Леви, Омер; Мэннинг, Кристофер Д. (2019). «На что смотрит BERT? Анализ внимания BERT» . Материалы семинара по ACL 2019 BlackboxNLP: Анализ и интерпретация нейронных сетей для NLP . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 276–286. DOI : 10.18653 / v1 / w19-4828 .
- ^ Khandelwal, Urvashi; Он, Он; Ци, Пэн; Джурафски, Дэн (2018). «Sharp Nearby, Fuzzy Far Away: как модели нейронного языка используют контекст». Труды 56-го Ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 284–294. arXiv : 1805.04623 . Bibcode : 2018arXiv180504623K . DOI : 10.18653 / v1 / p18-1027 . S2CID 21700944 .
- ^ Gulordava, Кристина; Бояновский, Петр; Могила, Эдуард; Линзен, Таль; Барони, Марко (2018). «Бесцветные зеленые рекуррентные сети мечтают об иерархии». Труды конференции 2018 г. Североамериканского отделения Ассоциации компьютерной лингвистики: технологии человеческого языка, том 1 (длинные статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1195–1205. arXiv : 1803.11138 . Bibcode : 2018arXiv180311138G . DOI : 10.18653 / v1 / n18-1108 . S2CID 4460159 .
- ^ Джулианелли, Марио; Хардинг, Джек; Mohnert, Флориан; Hupkes, Dieuwke; Зуидема, Виллем (2018). «Под капотом: использование диагностических классификаторов для исследования и улучшения того, как языковые модели отслеживают информацию о соглашении». Труды семинара EMNLP 2018 BlackboxNLP: Анализ и интерпретация нейронных сетей для NLP . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 240–248. arXiv : 1808.08079 . Bibcode : 2018arXiv180808079G . DOI : 10.18653 / v1 / w18-5426 . S2CID 52090220 .
- ^ Чжан, Келли; Боуман, Сэмюэл (2018). «Языковое моделирование учит вас большему, чем перевод: уроки, извлеченные из анализа вспомогательных синтаксических задач» . Труды семинара EMNLP 2018 BlackboxNLP: Анализ и интерпретация нейронных сетей для NLP . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 359–361. DOI : 10.18653 / v1 / w18-5448 .
- ^ Дай, Эндрю; Ле, Куок (4 ноября 2015 г.). «Полу-контролируемое последовательное обучение». arXiv : 1511.01432 [ cs.LG ].
- ^ Петерс, Мэтью; Нойман, Марк; Айер, Мохит; Гарднер, Мэтт; Кларк, Кристофер; Ли, Кентон; Люк, Зеттлемойер (15 февраля 2018 г.). «Глубокие контекстуализированные представления слов». arXiv : 1802.05365v2 [ cs.CL ].
- ^ Ховард, Джереми; Рудер, Себастьян (18 января 2018 г.). «Тонкая настройка универсальной языковой модели для классификации текста». arXiv : 1801.06146v5 [ cs.CL ].
- ^ Найяк Панду (25 октября 2019). «Понимание поисковых запросов лучше, чем когда-либо прежде» . Блог Google . Проверено 10 декабря 2019 .
- ^ Montti, Роджер (10 декабря 2019). "Google BERT распространяется по всему миру" . Журнал поисковых систем . Журнал поисковых систем . Проверено 10 декабря 2019 .
- ^ «Google: BERT теперь используется почти во всех английских запросах» . Земля поисковой машины . 2020-10-15 . Проверено 24 ноября 2020 .
- ^ "Best Paper Awards" . NAACL . 2019 . Проверено 28 марта 2020 года .
Дальнейшее чтение [ править ]
- Роджерс, Анна; Ковалева, Ольга; Румшиски, Анна (2020). «Учебник по BERTology: что мы знаем о том, как работает BERT». arXiv : 2002.12327 .
Внешние ссылки [ править ]
- Официальный репозиторий GitHub