Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Двунаправленные представления кодировщика от Transformers ( BERT ) - это основанный на Transformer метод машинного обучения для предварительного обучения обработке естественного языка (NLP), разработанный Google . BERT был создан и опубликован в 2018 году Якобом Девлином и его коллегами из Google. [1] [2] С 2019 года Google использует BERT, чтобы лучше понимать запросы пользователей. [3]

Оригинальный англоязычный BERT имеет две модели: [1] (1) BERT BASE : 12 энкодеров с 12 двунаправленными головками самовнимания и (2) BERT LARGE : 24 энкодера с 24 двунаправленными головками самовнимания. Обе модели предварительно обучены на основе немаркированных данных, извлеченных из BooksCorpus [4] с 800 млн слов и английской Википедии с 2500 млн слов. [5]

Производительность [ править ]

Когда BERT был опубликован, он достиг высочайшего уровня производительности по ряду задач понимания естественного языка : [1]

Анализ [ править ]

Причины Берта внедренного исполнения на этих естественном языке понимание задач еще не изучены. [6] [7] Текущее исследование было сосредоточено на изучении взаимосвязи между выходными данными BERT в результате тщательно выбранных входных последовательностей, [8] [9] анализа внутренних векторных представлений с помощью зондирующих классификаторов [10] [11] и взаимосвязей представлены весами внимания . [6] [7]

История [ править ]

BERT берет свое начало из предтренировочных контекстных представлений, включая полу-контролируемое последовательное обучение , [12] генеративное предварительное обучение , ELMo , [13] и ULMFit . [14] В отличие от предыдущих моделей, BERT - это глубоко двунаправленное неконтролируемое языковое представление, предварительно обученное с использованием только простого текстового корпуса. Бесконтекстные модели, такие как word2vec или GloVeгенерировать представление встраивания одного слова для каждого слова в словаре, где BERT принимает во внимание контекст для каждого вхождения данного слова. Например, в то время как вектор для "бега" будет иметь одно и то же векторное представление word2vec для обоих его вхождений в предложениях "Он управляет компанией" и "Он бежит марафон", BERT предоставит контекстуализированное встраивание, которое будет разные в зависимости от предложения.

25 октября 2019 года Google Search объявил, что они начали применять модели BERT для поисковых запросов на английском языке в США . [15] 9 декабря 2019 г. сообщалось, что BERT был принят поиском Google для более чем 70 языков. [16] В октябре 2020 года почти все запросы на английском языке обрабатывались BERT. [17]

Признание [ править ]

BERT получил награду за лучший объемный доклад на Ежегодной конференции Североамериканского отделения Ассоциации компьютерной лингвистики (NAACL) в 2019 году . [18]

См. Также [ править ]

  • Трансформер (модель машинного обучения)
  • Word2vec
  • Автоэнкодер
  • Матрица документов-терминов
  • Извлечение признаков
  • Особенности обучения
  • Языковые модели нейронных сетей
  • Векторная модель пространства
  • Вектор мысли
  • fastText
  • Перчатка
  • TensorFlow

Ссылки [ править ]

  1. ^ a b c Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (11 октября 2018 г.). «BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805v2 [ cs.CL ].
  2. ^ "Открытый исходный код BERT: Современное предварительное обучение для обработки естественного языка" . Блог Google AI . Проверено 27 ноября 2019 .
  3. ^ «Понимание поисковых запросов лучше, чем когда-либо прежде» . Google . 2019-10-25 . Проверено 27 ноября 2019 .
  4. ^ Чжу, Юкун; Кирос, Райан; Земель, Рич; Салахутдинов Руслан; Уртасун, Ракель; Торральба, Антонио; Фидлер, Саня (2015). «Согласование книг и фильмов: к историческим визуальным объяснениям при просмотре фильмов и чтении книг». С. 19–27. arXiv : 1506.06724 [ cs.CV ].
  5. ^ Annamoradnejad, Исса (2020-04-27). "ColBERT: Использование вложения предложений BERT для обнаружения юмора". arXiv : 2004.12765 [ cs.CL ].
  6. ^ а б Ковалёва Ольга; Романов, Алексей; Роджерс, Анна; Румшиски, Анна (ноябрь 2019). «Раскрытие темных секретов BERT» . Материалы конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP) . С. 4364–4373. DOI : 10.18653 / v1 / D19-1445 . S2CID 201645145 . 
  7. ^ a b Кларк, Кевин; Ханделвал, Урваши; Леви, Омер; Мэннинг, Кристофер Д. (2019). «На что смотрит BERT? Анализ внимания BERT» . Материалы семинара по ACL 2019 BlackboxNLP: Анализ и интерпретация нейронных сетей для NLP . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 276–286. DOI : 10.18653 / v1 / w19-4828 .
  8. ^ Khandelwal, Urvashi; Он, Он; Ци, Пэн; Джурафски, Дэн (2018). «Sharp Nearby, Fuzzy Far Away: как модели нейронного языка используют контекст». Труды 56-го Ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 284–294. arXiv : 1805.04623 . Bibcode : 2018arXiv180504623K . DOI : 10.18653 / v1 / p18-1027 . S2CID 21700944 . 
  9. ^ Gulordava, Кристина; Бояновский, Петр; Могила, Эдуард; Линзен, Таль; Барони, Марко (2018). «Бесцветные зеленые рекуррентные сети мечтают об иерархии». Труды конференции 2018 г. Североамериканского отделения Ассоциации компьютерной лингвистики: технологии человеческого языка, том 1 (длинные статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1195–1205. arXiv : 1803.11138 . Bibcode : 2018arXiv180311138G . DOI : 10.18653 / v1 / n18-1108 . S2CID 4460159 . 
  10. ^ Джулианелли, Марио; Хардинг, Джек; Mohnert, Флориан; Hupkes, Dieuwke; Зуидема, Виллем (2018). «Под капотом: использование диагностических классификаторов для исследования и улучшения того, как языковые модели отслеживают информацию о соглашении». Труды семинара EMNLP 2018 BlackboxNLP: Анализ и интерпретация нейронных сетей для NLP . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 240–248. arXiv : 1808.08079 . Bibcode : 2018arXiv180808079G . DOI : 10.18653 / v1 / w18-5426 . S2CID 52090220 . 
  11. ^ Чжан, Келли; Боуман, Сэмюэл (2018). «Языковое моделирование учит вас большему, чем перевод: уроки, извлеченные из анализа вспомогательных синтаксических задач» . Труды семинара EMNLP 2018 BlackboxNLP: Анализ и интерпретация нейронных сетей для NLP . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 359–361. DOI : 10.18653 / v1 / w18-5448 .
  12. ^ Дай, Эндрю; Ле, Куок (4 ноября 2015 г.). «Полу-контролируемое последовательное обучение». arXiv : 1511.01432 [ cs.LG ].
  13. ^ Петерс, Мэтью; Нойман, Марк; Айер, Мохит; Гарднер, Мэтт; Кларк, Кристофер; Ли, Кентон; Люк, Зеттлемойер (15 февраля 2018 г.). «Глубокие контекстуализированные представления слов». arXiv : 1802.05365v2 [ cs.CL ].
  14. ^ Ховард, Джереми; Рудер, Себастьян (18 января 2018 г.). «Тонкая настройка универсальной языковой модели для классификации текста». arXiv : 1801.06146v5 [ cs.CL ].
  15. ^ Найяк Панду (25 октября 2019). «Понимание поисковых запросов лучше, чем когда-либо прежде» . Блог Google . Проверено 10 декабря 2019 .
  16. ^ Montti, Роджер (10 декабря 2019). "Google BERT распространяется по всему миру" . Журнал поисковых систем . Журнал поисковых систем . Проверено 10 декабря 2019 .
  17. ^ «Google: BERT теперь используется почти во всех английских запросах» . Земля поисковой машины . 2020-10-15 . Проверено 24 ноября 2020 .
  18. ^ "Best Paper Awards" . NAACL . 2019 . Проверено 28 марта 2020 года .

Дальнейшее чтение [ править ]

  • Роджерс, Анна; Ковалева, Ольга; Румшиски, Анна (2020). «Учебник по BERTology: что мы знаем о том, как работает BERT». arXiv : 2002.12327 .

Внешние ссылки [ править ]

  • Официальный репозиторий GitHub