БЛУМ (языковая модель)


BigScience Large Open-science Multilingual Language Model с открытым доступом ( BLOOM [1] ) — это модель большого языка на основе трансформера . Он был создан более чем 1000 исследователями ИИ, чтобы предоставить бесплатную большую языковую модель для всех, кто хочет попробовать. Обученный примерно на 366 миллиардах токенов с марта по июль 2022 года, он считается альтернативой OpenAI GPT -3 с его 176 миллиардами параметров. BLOOM использует архитектуру модели трансформатора только для декодера, модифицированную от Megatron-LM GPT-2 .

Проект BLOOM [2] был запущен соучредителем Hugging Face . Было задействовано шесть основных групп людей, в том числе команда BigScience HuggingFace, команда Microsoft DeepSpeed, команда NVIDIA Megatron-LM, команда IDRIS/GENCI, команда PyTorch и добровольцы из рабочей группы BigScience Engineering. [ нужна ссылка ]

BLOOM обучался на данных 46 естественных языков и 13 языков программирования. В общей сложности 1,6 терабайт предварительно обработанного текста было преобразовано в 350 миллиардов уникальных токенов в качестве обучающих наборов данных BLOOM. [3]