Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

Генеративный предварительно обученный преобразователь 2 ( GPT-2 ) - это искусственный интеллект с открытым исходным кодом, созданный OpenAI в феврале 2019 года. [1] [2] [3] [4] [5] [6] [7] [8] GPT -2 переводит текст, отвечают на вопросы, резюмируют проходы, [9] и генерирует вывод текста на уровне , что, в то время как иногда неотличимы от людей , [10] может стать повторяющимся или бессмысленным при генерации длинных проходов. [1] Это универсальный ученик.; он не был специально обучен для выполнения какой-либо из этих задач, и его способность выполнять их является расширением его общей способности точно синтезировать следующий элемент в произвольной последовательности. [7] [9] GPT-2 был создан как «прямое масштабирование» модели GPT OpenAI 2018 года [11] с десятикратным увеличением как количества параметров, так и размера обучающего набора данных. [8]

Архитектура GPT реализует глубокую нейронную сеть , в которой входные данные обрабатываются несколькими уровнями «нейронов», «веса» которых определяют шаблоны активации последующих слоев, а последний слой нейронов составляет выход сети. Существует множество типов глубоких нейронных сетей, от перцептронов [12] до рекуррентных (RNN), [13] [14] сверточных (CNN) [15] и сетей с долговременной краткосрочной памятью (LSTM). [16] GPT - это модель « преобразователя », [11] в которой используется « внимание"вместо прежних архитектур на основе рекурсии и свертки. [17] [18] Механизмы внимания позволяют модели выборочно фокусироваться на сегментах входного текста, которые, по ее прогнозам, будут наиболее актуальными. [14] [19] Эта модель позволяет для значительно увеличено распараллеливание и превосходит предыдущие тесты для моделей на основе RNN / CNN / LSTM. [11]

OpenAI выпустил полную версию языковой модели GPT-2 (с 1,5 миллиардами параметров) в ноябре 2019 года. [20] За GPT-2 должен был последовать GPT-3 с 175 миллиардами параметров , [21] открытый публике. в 2020 году [22] (чей исходный код никогда не был доступен). Доступ к GPT-3 предоставляется исключительно через API, предлагаемый Microsoft . [23]

Фон [ править ]

С момента зарождения вычислений искусственный интеллект был объектом изучения; « Игра в имитацию », постулированная Аланом Тьюрингом в 1950 году (и часто называемая «тестом Тьюринга»), предлагала установить способность электронной или механической системы к интеллектуальным действиям с помощью способности оценщика отличать ее поведение от поведения человека. [24] Термин « машинное обучение » впервые был использован для описания возможного подхода к искусственному интеллекту еще в 1959 году исследователем IBM Артуром Самуэлем ; [25] нынешнее использование этого термина охватывает широкий спектрстатистическое обучение , наука о данных и нейросетевые подходы к вычислительным задачам (часто подпадающие под эгиду искусственного интеллекта ).

Компьютерная лингвистика [ править ]

Обработка естественного языка с помощью компьютеров - задача, изначально задуманная как подполе вычислительной лингвистики , - была предпринята, как только у вычислительного оборудования появились возможности; Первое приложение справочной таблицы по словарю было разработано в Биркбек-колледже в Лондоне в 1948 году. [26] Джорджтаунский эксперимент 1954 года был демонстрацией полностью автоматизированного машинного перевода , в котором шестьдесят русских предложений были переведены на английский язык (в основном путем замены слова слова с их английскими синонимами). [27] [28] Переводы часто были грубыми; в системе было всего 6 грамматических правил и словарный запас из 250 слов, [29]и не было предпринято никаких попыток проанализировать или перевести синтаксическую структуру . [30] Однако эксперимент доказал общественности, что компьютеры могут интерпретировать и обрабатывать естественный язык, [31] и обеспечил финансирование ЦРУ для дальнейших исследований. [27] Прямая подстановка остается стандартом, по которому оцениваются программы машинного перевода.

Системы для использования естественного языка во взаимодействии человека с компьютером (HCI) также начали появляться в середине 20-го века. Программа SHRDLU , разработанная в Массачусетском технологическом институте в 1968–1970 гг., Состояла из виртуальной среды из нескольких объектов, с которыми пользователь взаимодействовал с помощью команд на естественном языке (например, «Найдите блок, который выше, чем тот, который вы держите в руках, и поместите его в коробка"). [32] [33] ELIZA , болтун, написанный в 1966 году, проанализировал текст собеседника-человека на предмет ключевых слов и дал подходящие для разговора ответы. [34]Хотя многие испытуемые заявляли о неспособности отличить разговор ELIZA от разговора человека, вопрос о том, является ли это интеллектом, оказался спорным (самый известный сценарий пародировал психотерапевта , в основном повторяя то, что пользователь сказал им в ответ). [35]

В то время как первоначальные попытки машинного перевода были чисто вычислительными, к 1950-м годам преобладающим подходом к компьютерной лингвистике стал акцент на концепции универсальной грамматики Ноама Хомского ; [26] Исследования НЛП в ту эпоху, соответственно, состояли в основном из попыток свести утверждения на произвольных языках к предполагаемым базовым логическим структурам, не зависящим от языка. В 1970-х годах семантические системы НЛП начали отказываться от синтаксических кодировок в пользу более общих семантических кодировок. [36] Однако до появления нейронных сетей, большинство систем продолжали полагаться на большие (и все более громоздкие) наборы правил, запрограммированных вручную, которые не смогли масштабироваться, как первоначально прогнозировалось. [26]

В конце 20 века область искусственного интеллекта продолжала развиваться, но время от времени случались периоды застоя, известные как « зимы искусственного интеллекта ». Различные источники утверждают, что зимы AI происходили в разное время; в 1994 году Хоу описал один как начавшийся в 1973 году и продолжавшийся десять лет [37], в то время как Russell & Norvig в 2003 году описал другой как начинающийся вскоре после 1988 года [38].

Нейронные сети [ править ]

Ранняя концепция искусственного интеллекта, коннекционизм , стремилась создать разумное поведение с помощью искусственных нейронных сетей, предназначенных для моделирования поведения нейронов в биологическом мозге. Первый пример искусственной нейронной сети была SNARC , построенная в 1951 году The персептрона (тип бинарного классификатора ) был введен в 1957 году психолог Розенблатт ; [39] его машина была разработана для распознавания изображений с использованием 400 фотоэлементов, подключенных к «нейронам», с весами, определяемыми потенциометрами.(и настраивается с помощью электродвигателей в процессе обучения). [40] Системы персептронов стали предметом большого интереса; В статье New York Times перцептрон описывается как «эмбрион электронного компьютера, который [ВМФ] ожидает, что он сможет ходить, говорить, видеть, писать, воспроизводить себя и осознавать свое существование». [12] Системы персептронов, однако, потеряли популярность на десятилетия после выхода книги 1969 года Марвина Мински и Сеймура Паперта ( Персептроны: введение в вычислительную геометрию ) [41], в которой указывалось на несколько недостатков современного состояния системы. искусство(однослойные перцептроны), включая невозможность кодирования функции исключающего ИЛИ (XOR). В то время книга считалась дискредитирующей перцептронный подход (как и нейронные сети в целом) как многообещающую область исследований. [12]

Нейронные сети получают возможность классифицировать различные входные данные (то есть сортировать их по отдельным категориям) посредством процесса, известного как «обучение». Это начинается с того, что веса сети (величина, на которую «активация» каждого нейрона влияет на активацию каждого конкретного нейрона в последующем слое) инициализируются случайными величинами; в этом состоянии выход сети также является случайным. Целевая функция , как функции потерь, определяются, которая способна количественное измерения , насколько близко выход сети является ее желаемой производительностью (например, как часто вход , состоящий из рукописных результатов чисел в единственной активации выходной нейрон, соответствующий этому номеру). [13]Исходя из этого, а также исходя из производительности сети, веса могут быть скорректированы, чтобы улучшить ее производительность. [42]

Обратное распространение , контролируемый алгоритм, впервые примененный к системам машинного обучения в диссертации Пола Вербоса 1974 года [43], эффективно вычисляет «градиенты», которые представляют собой векторные поля, описывающие оптимальную настройку всех весов во всей сети для данного примера ввода / вывода. [42] [13] Использование этих градиентов для обучения нейронных сетей, практика, известная как градиентный спуск , позволило создать гораздо более сложные системы, и широкомасштабное применение нейронных сетей для обработки естественного языка произойдет в 1980-х годах . [44] [38]В 1985 году Д. Б. Паркер заново открыл для себя метод Вербоса; [45] в 1986 году Рамелхарт, Хинтон и Уильямс применили бы его для создания внутренних представлений входящих данных в нейронных сетях со скрытыми слоями [46], называемых сетями « глубокого обучения »; это исследование позже станет основой для повторяющихся нейронных сетей .

Традиционные нейронные сети с прямой связью (FFNN) названы так потому, что каждый уровень принимает выходные данные предыдущего уровня и передает их следующему; структура FFNN не содержит « циклов », по которым информация течет в обратном направлении. Напротив, рекуррентная нейронная сеть (RNN) имеет по крайней мере один цикл потока активации. [13] RNN часто используются для обработки последовательностей данных (и прогнозирования будущих элементов последовательности), поскольку сеть может обрабатывать каждый элемент, используя как сам элемент, так и собственные выходные данные обработки предыдущего элемента. [13]

Неокогнитрон , предложенный Кунихико~d Фукусиме в 1979 году [47] на основе моделей нейронной архитектуры в млекопитающих зрительной коры , послужила основу для сверточных нейронных сетей (CNNs), [15] часто используется при обработке изображений. Путем «скольжения» небольшого слоя по входу большего размера CNN может выполнять более глубокую обработку с меньшими вычислениями. Например, изображение размером 100 × 100 имеет 10 000 пикселей, что потребует 10 000 весов для обработки с полностью подключенным слоем; сверточный слой, состоящий из «окна» 5 × 5, скользящего по изображению, может выполнять обнаружение краевиспользуя всего 25 обучаемых параметров. Сверточные слои объединяются путем «объединения слоев» и обрабатываются «полностью связанными» слоями (которые обычно являются многослойными перцептронами ).

Машинное обучение для обработки естественного языка [ править ]

Благодаря своей способности обрабатывать последовательную информацию, рекуррентные нейронные сети нашли применение во многих приложениях НЛП; в отличие от FFNN, они способны кодировать разные веса (и давать разные выходные данные) для идентичных элементов в зависимости от их окружения в последовательности - то есть система RNN, которая анализирует одно слово за раз, все еще может ассоциировать « черную собаку » с пушистыми лапами, « корн-дог » с кетчупом и « солнечный пес » с преломлением. Более того, поскольку сохранение информации из предыдущих элементов последовательности может выполняться рекурсивно, Системы RNN могут быть спроектированы так, чтобы произвольно вспоминать предметы из далекого прошлого в последовательности: например, имея возможность продолжить последовательности «Том посмотрел на черную собаку», «Том посмотрел на кукурузную собаку» и «Том посмотрел на солнце. dog "с" нежно "," жадно "и" косвенно "соответственно. [48] [18]

Несмотря на то, что многослойные FFNN и RNN способны предлагать впечатляющие решения, обе оказались уязвимыми для проблемы исчезающего градиента : поскольку градиенты (закодированные как числа конечной точности ) требуются для обратного распространения по всем уровням модели, они могут «исчезнуть» до нуля ( или «взорваться» до бесконечности) на достаточно большом количестве слоев. Сеть долговременной кратковременной памяти (LSTM), впервые предложенная Зеппом Хохрайтером и Юргеном Шмидхубером в 1995–1997 годах [16] [49] [50], стремилась решить эту проблему путем введения новой архитектуры, состоящей из нескольких различных «ячеек». с воротами «вход», «выход» и «забыть». В 2009,модель на основе LSTM, представленнаяКоманда Алекса Грейвса выиграла конкурс ICDAR на распознавание почерка ; [51] другая модель была самой точной в конкурсе, а третья была самой быстрой. [52]

Другая проблема, с которой сталкиваются RNN и LSTM, заключается в том, что они могут учитывать только контекст предыдущих элементов последовательности. [48] [53] Это может вызвать проблемы при синтаксическом анализе предложений вроде «Том приехал на велосипеде в магазин, поставил подножку и выключил двигатель», в которых раскрывается необходимый контекст того, что « байк » - это мотоцикл. только в конце. Одним из методов решения подобных проблем является двунаправленный LSTM , который работает в обоих направлениях одновременно, предоставляя доступ как к «прошлым», так и «будущим» функциям ввода. [48] Условные случайные поля используют теги для прямого соединения входов с выходами. [48]Существуют комбинации вышеуказанных подходов, таких как сеть LSTM-CRF и сеть BI-LSTM-CRF . [48] Другие улучшения в модели RNN включают нейронные машины Тьюринга , адаптивное время вычислений , нейронные программисты и механизмы внимания , последние из которых составляют основу GPT-2 и связанных технологий. [18]

Выборочная фокусировка [ править ]

К началу 2010-х лучшая производительность нейронного машинного перевода была достигнута с моделью кодер-декодер, в которой «сеть кодировщиков» RNN или LSTM кодировала исходные предложения в векторы, а «сеть декодеров» аналогичной архитектуры обрабатывала эти векторы в переведенный вывод. [14] В 2014 году были введены значительно более сложные механизмы « внимания », которые значительно повысили эффективность этих моделей. Механизмы внимания дали этим моделям возможность адаптивно фокусировать «внимание» их декодирующих сетей на определенных аспектах исходного текста, вместо того, чтобы заставлять их анализировать весь текст как один вектор. [14] [19]

Затем в 2017 году были представлены модели « трансформеров », которые пошли еще дальше, использовав механизмы внимания для полной замены архитектуры RNN / LSTM. [17] [18]

Механизмы внимания [ править ]

Одним из ограничений моделей кодировщика-декодера была сложность сжатия кодировок более крупных предложений в векторы фиксированной длины; производительность часто ухудшалась на больших входах. В 2014 году Bahdanau et al. [14] представили расширение модели кодер-декодер, которое могло «согласовывать и преобразовывать совместно». [19] Для каждого слова исходного предложения, которое было переведено, кодировщик модели Bahdanau (двунаправленная RNN с 1000 скрытых единиц в каждом направлении) искал всю остальную часть этого предложения в поисках позиций релевантной информации. Вместо того, чтобы давать декодеру векторное кодирование фиксированной длины всей входной последовательности (как в предыдущих моделях), он создавал «векторы контекста», связанные с этими позициями, а также с ранее сгенерированными целевыми словами.[14]Декодер (который также имел 1000 скрытых единиц) затем использовал эти контекстные векторы, чтобы решить, на чем сосредоточить свое «внимание». [14] [19] [18]

Исследования механизмов «внимания» продолжили Luong et al. в статье 2015 года. [19] Была предпринята попытка «глобального» подхода, основанного на статье Бахданау, а также «местного» подхода, при котором только подмножество исходных слов «рассматривалось» одновременно; локальный подход, хотя и более сложный с архитектурной точки зрения, был менее затратным в вычислительном отношении и его легче было обучить. [19] Потребовалось 7–10 дней, чтобы полностью обучить модель перевода с английского на немецкий, которая была специально разработана для перевода 1000 целевых слов в секунду; его точность была проверена по ACL 2014 г.Семинар по машинному переводу (WMT'14) для английско-немецких пар предложений и получил результат 23,0 BLEU - улучшение на 2,1 BLEU по сравнению с предыдущим лучшим результатом, достигнутым в предыдущих попытках, языковой модели на основе фраз от Buck et al. 2014. [54] [19]

Трансформеры [ править ]

Хотя механизмы внимания были эффективны в повышении производительности при использовании для расширения существующих сверточных и рекуррентных архитектур нейронных сетей, вскоре было обнаружено, что эффективные модели могут быть построены с использованием механизмов внимания сами по себе, без чего-либо другого, лежащего в их основе. [17]

В июне 2017 года трансформатором архитектура была впервые представлена в документе , опубликованном Google «s DeepMind . [17] Трансформеры - это тип модели, основанный исключительно на механизмах внимания, полностью отбрасывающих свертку и повторение . В отличие от предыдущих моделей на основе RNN, преобразователи могут обрабатывать последовательный ввод без необходимости выполнять вычисления для каждого элемента в последовательности; это означает, что их можно массово распараллелить . [17] В французско-английской задаче WMT'14 специально обученная модель перевода с французского на английский, использующая архитектуру преобразователя, смогла установить новый эталонный тест для одной модели - 41,8 BLEU. [17]С момента своего появления трансформаторы нашли применение во многих приложениях НЛП. [55]

Генеративный предварительно обученный трансформатор [ править ]

11 июня 2018 года OpenAI выпустила документ под названием «Улучшение понимания языка с помощью генеративного предварительного обучения», в котором они представили генеративный предварительно обученный преобразователь (GPT). [11] На данный момент наиболее эффективные нейронные модели НЛП в основном использовали контролируемое обучение на больших объемах помеченных вручную данных. Эта зависимость от обучения с учителем ограничивала их использование наборами данных, которые не были хорошо аннотированы, в дополнение к тому, что обучение чрезвычайно больших моделей делалось чрезмерно дорогим и трудоемким; [11] [56] многие языки (например, суахили или гаитянский креольский) трудно переводить и интерпретировать с использованием таких моделей из-за отсутствия текста для построения корпуса. [56] Напротив, «полу-контролируемый» подход GPT включал два этапа: этап неконтролируемого генеративного «предварительного обучения», на котором цель языкового моделирования использовалась для установки начальных параметров, и контролируемый дискриминационный этап «точной настройки» в которые эти параметры были адаптированы под целевую задачу. [11]

Использование трансформаторной архитектуры, в отличие от предыдущих методов, включающих RNN с повышенным вниманием, обеспечило GPT более структурированной памятью, чем можно было бы достичь с помощью повторяющихся механизмов; это привело к «стабильной передаче данных при выполнении разнообразных задач». [11]

Во время передачи мы используем адаптацию ввода для конкретных задач, основанную на подходах в стиле обхода, которые обрабатывают ввод структурированного текста как единую непрерывную последовательность токенов. [11]

Корпус [ править ]

Неконтролируемая перед тренировкой проводили с использованием BooksCorpus , [57] набор данных из более чем 7000 неопубликованных художественных книг разных жанров; в то время как для других моделей этот набор данных был выбран отчасти потому, что в нем длинные отрывки непрерывного текста заставляли модель обрабатывать информацию большого диапазона. Другие доступные наборы данных, хотя и были более крупными, были отклонены на том основании, что в них отсутствовала эта долгосрочная структура («перемешивание» на уровне предложения). [11] ftfy библиотека была использована для очистки текста BooksCorpus (Стандартизируй пунктуации и пробелов); он был токенизирован с помощью spaCy . [11]

Архитектура [ править ]

Сама архитектура GPT представляла собой двенадцатислойный преобразователь, предназначенный только для декодирования, с использованием двенадцати замаскированных головок самовнимания с 64-мерными состояниями каждая (всего 768). Вместо простого стохастического градиентного спуска использовался алгоритм оптимизации Адама ; скорость обучения увеличивалась линейно от нуля в течение первых 2000 обновлений до максимального значения 2,5 × 10 -4 и отжигалась до 0 с использованием косинусного графика. [11]

Мы тренируемся в течение 100 эпох на мини-пакетах из 64 случайно выбранных непрерывных последовательностей из 512 токенов. Поскольку layernorm широко используется во всей модели, достаточно простой инициализации веса N (0,0.02). Мы использовали словарь кодирования пар байтов (BPE) с 40 000 слияниями [53] и остаточными, встраиваемыми и выпадениями внимания со скоростью 0,1 для регуляризации. Мы также использовали модифицированную версию L2-регуляризации, предложенную в работе Лощилова и др. 2017 г., с w = 0,01 для всех значений, не связанных с смещением или приростом.

[...]
Мы использовали заученные вложения позиций вместо синусоидальной версии, предложенной в оригинальной работе.

[...]
Если не указано иное, мы повторно используем настройки гиперпараметров из неконтролируемого предварительного обучения. Добавляем отсев в классификатор со ставкой 0,1. Для большинства задач мы используем скорость обучения 6,25 e-5 и размер пакета 32. Наша модель настраивается быстро, и для большинства случаев было достаточно 3 эпох обучения. Мы используем линейный график снижения скорости обучения с разминкой более 0,2% тренировки. λ был установлен на 0,5. [11]

Хотя точная настройка GPT была адаптирована к конкретным задачам, предварительная подготовка - нет; для выполнения различных задач в базовую архитектуру модели, не зависящей от задач, были внесены минимальные изменения. [11] Несмотря на это, GPT по-прежнему улучшил предыдущие тесты в нескольких задачах языковой обработки, превзойдя модели с дискриминационным обучением с ориентированной на задачи архитектурой по ряду разнообразных задач. [11]

Производительность [ править ]

В задачах вывода на естественном языке (также известных как текстовое следствие ) модели оцениваются по их способности интерпретировать пары предложений из различных наборов данных и классифицировать отношения между ними как «следствие», «противоречие» или «нейтральность». [11] Примеры таких наборов данных включают QNLI ( статьи в Википедии ) и MultiNLI (расшифровку речи, популярную художественную литературу и правительственные отчеты, среди других источников); [58] по этим GPT достигли улучшения, соответственно, на 5,8% и 1,5% по сравнению с предыдущими лучшими результатами. [11] Он так же превзошел предыдущие модели по двум задачам, связанным с ответами на вопросы и здравым смыслом - на 5,7% по RACE, [59]набор данных пар вопросов-ответов на экзаменах в средней и старшей школе и на 8,9% по тесту Story Cloze. [60]

Другая задача, семантическое сходство (или обнаружение перефразирования ), оценивает, может ли модель предсказать, являются ли два предложения перефразированием друг друга; в наборе данных Quora Question Pairs (QQP) GPT улучшился по сравнению с предыдущими наиболее эффективными моделями на 4,2%. [11] В задаче классификации текста с использованием корпуса лингвистической приемлемости (CoLA) GPT получил 45,4 балла по сравнению с предыдущим лучшим результатом в 35,0. Наконец, в многозадачном тесте GLUE [61] GPT набрал 72,8 балла (по сравнению с предыдущим рекордом 68,9). [11]

Увеличение [ править ]

GPT-2 был создан как прямое расширение GPT, при этом количество его параметров и размер набора данных увеличены в 10 раз. [7] [11] [8] Обе модели неконтролируемых преобразователей, обученные генерировать текст путем прогнозирования следующее слово в последовательности токенов . Модель GPT-2 имеет 1,5 миллиарда параметров и была обучена на наборе данных из 8 миллионов веб-страниц. [7] Хотя GPT-2 был усилен по очень простым критериям (интерпретация последовательности слов в образце текста и прогнозирование наиболее вероятного следующего слова), он создает полные предложения и абзацы, продолжая предсказывать дополнительные слова, создавая полностью понятные (и семантическиосмысленные) высказывания на естественном языке . [7] Примечательно, что GPT-2 оценивался по его производительности при выполнении задач в условиях нулевого выстрела .

Обучение [ править ]

Поскольку архитектура преобразователя обеспечивала массовое распараллеливание , модели серии GPT можно было обучать на более крупных корпусах, чем предыдущие модели NLP. В то время как первоначальная модель GPT продемонстрировала жизнеспособность этого подхода, GPT-2 продолжит изучение новых свойств сетей, обученных на чрезвычайно больших корпусах. CommonCrawl , большой корпус, созданный с помощью веб-сканирования и ранее использовавшийся при обучении систем НЛП, [62] рассматривался из-за его большого размера, но был отклонен после того, как дальнейшая проверка показала большое количество непонятного содержания. [7] [62] Вместо этого OpenAI разработал новый корпус, известный как WebText ; вместо того, чтобы без разбора извлекать контент изWorld Wide Web , WebText был создан путем очистки только тех страниц, на которые ссылаются сообщения Reddit , получившие не менее трех голосов до декабря 2017 года. Корпус впоследствии был очищен; HTML- документы были преобразованы в обычный текст, повторяющиеся страницы были удалены, а страницы Википедии были удалены (поскольку их присутствие во многих других наборах данных могло вызвать переобучение ). [7]

Хотя известно, что стоимость обучения GPT-2 составляла 256 долларов в час, [63] [64] количество часов, которое потребовалось для завершения обучения, неизвестно; поэтому общая стоимость обучения не может быть точно оценена. [65] Однако стоимость сопоставимых больших языковых моделей, использующих архитектуры преобразователей, была задокументирована более подробно; на обучение для BERT и XLNet было потрачено , соответственно, 6 912 и 245 000 долларов. [64]

Производительность [ править ]

GPT-2 пишет вымышленную новостную статью о действиях Эдварда Сноудена после победы на президентских выборах в США в 2020 году (весь выделенный текст сгенерирован машиной). Хотя Сноуден (на момент создания) никогда не избирался на государственные должности, созданный образец грамматически и стилистически действителен.

Благодаря широте набора данных и широкому подходу GPT-2 стал способен выполнять широкий спектр задач, помимо простого создания текста: отвечать на вопросы, подводить итоги и даже переводить с одного языка на другой в различных конкретных областях , без получить инструкции во всем, кроме того, как предсказать следующее слово в последовательности. [2] [3]

Одним из примеров обобщенного обучения является способность GPT-2 выполнять машинный перевод между французским и английским языками, для которой производительность GPT-2 оценивалась с помощью задач перевода WMT-14. В учебном корпусе GPT-2 практически не было текста на французском языке; неанглоязычный текст был намеренно удален при очистке набора данных перед обучением, и, как следствие, только 10 МБ французского из оставшихся 40000 МБ были доступны модели для обучения (в основном из цитат на иностранных языках в сообщениях и статьях на английском языке) . [7]Несмотря на это, GPT-2 получил 5 BLEU по набору тестов WMT-14 для перевода с английского на французский (немного ниже оценки перевода с помощью дословной замены). Он также смог превзойти несколько современных (2017 г.) базовых показателей неконтролируемого машинного перевода на тестовом наборе с французского на английский, где GPT-2 достиг 11,5 BLEU. Это оставалось ниже самого эффективного современного подхода без учителя (2019 г.), который достиг 33,5 BLEU. [7] Однако в других моделях для достижения этих результатов использовалось большое количество французского текста; По оценкам, в GPT-2 использовался моноязычный корпус французского языка примерно в 1/500 размера сопоставимых подходов. [7]

Выпуск [ править ]

Впервые о GPT-2 было объявлено 14 февраля 2019 года. В статье Джеймса Винсента в The Verge, опубликованной в феврале 2019 года, говорилось, что, хотя «[] создаваемый им текст обычно легко идентифицируется как нечеловеческий», он остается «одним из самых захватывающих примеры еще »программ генерации языков: [2]

Дайте ему фальшивый заголовок, и он напишет остальную часть статьи с фальшивыми цитатами и статистикой. Подайте ему первую строчку рассказа, и он расскажет вам, что происходит с вашим персонажем дальше. Он может даже писать фанфики при правильной подсказке. [2]

The Guardian охарактеризовала этот результат как «правдоподобную газетную прозу»; [1] Келси Пайпер из Vox сказала, что «одна из самых крутых систем искусственного интеллекта, которые я когда-либо видел, может быть той, которая вытеснит меня с работы». [3] The Verge описал гибкость GPT-2 как «впечатляющую»; в частности,была отмеченаего способность переводить текст с одного языка на другой, резюмировать длинные статьи и отвечать на мелкие вопросы. [2]

Исследование Амстердамского университета с использованием модифицированного теста Тьюринга показало, что по крайней мере в некоторых сценариях участники не могли отличить стихи, созданные GPT-2, от стихов, написанных людьми. [66]

Ограничения и частичное освобождение [ править ]

Хотя «Skub» не является настоящим продуктом, даже модель уменьшенного размера, используемая в DistilGPT2, способна привести веские аргументы как за, так и против него.

В то время как предыдущие модели OpenAI были немедленно сделаны доступными для общественности, OpenAI изначально отказалась сделать общедоступную версию исходного кода GPT-2, анонсируя его в феврале, сославшись на риск злонамеренного использования; [1] ограниченный доступ к модели (т. Е. К интерфейсу, который позволял вводить и обеспечивать вывод, а не к самому исходному коду) был разрешен для выбранных изданий по объявлению. [1] Одно из часто цитируемых оправданий заключалось в том, что, поскольку сгенерированный текст обычно был полностью новым, его могли использовать спамеры для обхода автоматических фильтров ; OpenAI продемонстрировал версию GPT-2, настроенную для «создания бесконечного количества положительных или отрицательных отзывов о продуктах». [1]Другой заключался в том, что, поскольку GPT-2 позволял людям создавать текст, люди могли использовать его для создания текста непристойного или расистского характера . Такие исследователи, как Джереми Ховард, предупредили о «технологии, позволяющей полностью заполнить Твиттер, электронную почту и Интернет разумно звучащей, соответствующей контексту прозой, которая заглушила бы всю остальную речь и ее было бы невозможно отфильтровать». [2] Аллен институт искусственного интеллекта , в ответ на GPT-2, объявил инструмент для обнаружения «нейронных новостей фальшивых». [67]

Однако мнения разделились. статья в The Verge за февраль 2019 года утверждала, что угроза, исходящая от GPT-2, была преувеличена; [68] Анима Анандкумар , профессор Калифорнийского технологического института и директор по исследованиям в области машинного обучения в Nvidia , сказала, что нет никаких доказательств того, что GPT-2 обладает способностью создавать угрозы, описанные OpenAI, и что то, что они сделали, было "противоположностью open », охарактеризовав отказ от выпуска полной модели как« злостную чушь ». [68] The Gradient опубликовал открытое письмо к OpenAI с просьбой опубликовать модель публично, сравнивая угрозу, исходящую от ИИ, генерирующего текст, с угрозой, исходящей от печатного станка.и приводя Photoshop в качестве примера «технологии, которая (к счастью) не разрушила современное общество, несмотря на его потенциал для хаоса»: [69]

Тридцать лет спустя общество осталось относительно невредимым, несмотря на то, что Photoshop был достаточно простым для использования школьниками и достаточно распространенным, чтобы завладеть своим собственным глаголом. Почему? Именно потому, что о фотошопе знают все. [69]

Выпуск 774M [ править ]

Хотя OpenAI не выпустила полностью обученную модель или корпуса, на которых она была обучена, описание их методов в предыдущих публикациях (и бесплатная доступность базовой технологии) сделало возможным тиражирование GPT-2 другими в качестве бесплатного программного обеспечения ; одна такая репликация, OpenGPT-2, была выпущена в августе 2019 года вместе со свободно лицензированной версией WebText под названием OpenWebText. Затраты на облачные вычисления для OpenGPT-2 составили примерно 50 000 долларов. [70]

20 августа 2019 года OpenAI выпустила частичную версию GPT-2 с 774 миллионами параметров (примерно половину размера полной модели с 1,5 миллиардами параметров). [5]

Полная версия 1.5B [ править ]

Первоначальные опасения, что GPT-2 может широко использоваться не по назначению, не оправдались; The Verge заявила, что «есть причины скептически относиться к заявлениям о том, что технология искусственного интеллекта откроет своего рода« инфопокалипсис ». Для начала, у нас уже есть программы, которые могут генерировать правдоподобный текст в большом объеме за небольшую плату: люди ". [71] К ноябрю 2019 года OpenAI заявила, что «пока не обнаружила убедительных доказательств злоупотребления», и 5 ноября 2019 года была выпущена полная версия с 1,5 миллиардами параметров. [6] [20]

Ограничения [ править ]

GPT-2 может генерировать тематически соответствующий текст для ряда сценариев, даже сюрреалистических, таких как статья CNN о Дональде Трампе, произносящем речь, восхваляющую аниме-персонажа Аску Лэнгли Сорью . Здесь можно увидеть тенденцию генерировать бессмысленный и повторяющийся текст с увеличением длины вывода (даже в полной модели 1.5B); во втором абзаце грамматика начинает ухудшаться, и на выходе получается одно бессвязное предложение, повторяющееся снова и снова.

Хотя способность GPT-2 генерировать правдоподобные отрывки текста на естественном языке в целом была отмечена положительно, его недостатки также были отмечены, особенно при создании текстов длиннее пары абзацев; Вокс сказал, что «проза довольно грубая, иногда бывает непоследовательность, и статьи становятся менее связными, чем длиннее они». [3] The Verge также отметила, что более длинные образцы текста GPT-2 имели тенденцию «отклоняться от темы» и не иметь общей согласованности; [2] The Register высказал мнение, что «человек, читающий его, должен через короткое время понять, что что-то не так», и отметил, что «GPT-2 не отвечает на вопросы, как и другие системы, которые полагаются на алгоритмы для извлечения и извлечения информации. . "[63]

Развертывание GPT-2 требует значительных ресурсов; полная версия модели имеет размер более пяти гигабайт, что затрудняет локальное встраивание в приложения и потребляет большой объем оперативной памяти. Кроме того, выполнение одного прогноза «может занять ЦП при 100% загрузке в течение нескольких минут», и даже при обработке графическим процессором «одно прогнозирование может занять секунды». [10] Чтобы решить эти проблемы, компания HuggingFace создала DistilGPT2 , используя дистилляцию знаний для создания модели меньшего размера, которая «набирает несколько баллов ниже в некоторых тестах качества», но «на 33% меньше и в два раза быстрее». [10]

Реализации и последующие исследования [ править ]

Возможные применения GPT-2, описанные журналистами, включают помощь людям в написании текста, например новостных статей. [1] Еще до выпуска полной версии GPT-2 использовался для множества приложений и сервисов, а также для развлечения. В июне 2019 года, subreddit по имени г / SubSimulatorGPT2 был создан , в котором множество GPT-2 случаях обучение по различным subreddits из сообщения и ответил друг другу комментарии, создавая ситуацию , в которой можно было наблюдать «персонификации ИИ г / Bitcoin утверждают в духе машинного обучения r / ShittyFoodPorn "; [71] к июлю того же года была выпущена программа на основе GPT-2 с функцией автозаполнения.строки кода на различных языках программирования. был охарактеризован как "пользователи, изменившие правила игры". [72]

В 2019 году была запущена AI Dungeon , которая использовала GPT-2 для создания динамических текстовых приключений на основе пользовательского ввода. [73] В то время как AI Dungeon теперь предлагает доступ к GPT-3 API в качестве дополнительного платного обновления, в бесплатной версии сайта по-прежнему используется GPT-2. [74] Latitude, компания, основанная на AI Dungeon, в 2021 году привлекла 3,3 миллиона долларов в виде начального финансирования. [75]

В феврале 2021 года кризисный центр для проблемных подростков объявил, что они начнут использовать чат-бота на основе GPT-2, чтобы помочь обучать консультантов, позволяя им разговаривать с симулированными подростками (это использование было чисто для внутренних целей и не предполагало наличия GPT-2 общаются с самими подростками). [76]

Ссылки [ править ]

  1. ↑ a b c d e f g Херн, Алекс (14 февраля 2019 г.). «Новый генератор поддельного текста AI может быть слишком опасным для выпуска, говорят создатели» . Хранитель . Архивировано 14 февраля 2019 года . Проверено 19 декабря 2020 .
  2. ^ a b c d e f g Винсент, Джеймс (14 февраля 2019 г.). «Новый разносторонний ИИ OpenAI пишет, переводит и клевещет» . Грань . Архивировано 18 декабря 2020 года . Проверено 19 декабря 2020 .
  3. ^ a b c d Пайпер, Келси (14 февраля 2019 г.). «AI помог нам написать эту статью» . Vox . Архивировано 8 ноября 2020 года . Проверено 19 декабря 2020 .
  4. Пайпер, Келси (15 мая 2019 г.). «Только что был представлен ИИ для написания стихов. Он ... довольно хорош» . Vox . Архивировано 7 ноября 2020 года . Проверено 19 декабря 2020 .
  5. ^ a b Джонсон, Хари (20 августа 2019 г.). «OpenAI выпускает урезанную версию языковой модели GPT-2» . VentureBeat . Архивировано 18 декабря 2020 года . Проверено 19 декабря 2020 .
  6. ^ a b Винсент, Джеймс (7 ноября 2019 г.). «OpenAI опубликовал искусственный интеллект, генерирующий текст, который, по его словам, был слишком опасен для использования» . Грань . Архивировано 11 июня 2020 года . Проверено 19 декабря 2020 .
  7. ^ a b c d e f g h i j Рэдфорд, Алек; Ву, Джеффри; Ребенок, Ревон; Луан, Дэвид; Амодеи, Дарио; Суцкевер, Илуа (14 февраля 2019 г.). «Языковые модели предназначены для многозадачного обучения без учителя» (PDF) . 1 (8). Архивировано 6 февраля 2021 года (PDF) . Проверено 19 декабря 2020 . Цитировать журнал требует |journal=( помощь )
  8. ^ a b c «Лучшие языковые модели и их значение» . OpenAI . 14 февраля 2019. Архивировано 19 декабря 2020 года . Проверено 19 декабря 2020 .
  9. ^ а б Хегде, Чайтра; Патил, Шрикумар (9 июня 2020 г.). «Неконтролируемое создание парафраз с использованием предварительно обученных языковых моделей». arXiv : 2006.05477 [ cs.CL ].
  10. ^ a b c Кайзер, Калеб (31 января 2020 г.). «Слишком велик для развертывания: как GPT-2 ломает серверы» . К науке о данных . Архивировано 15 февраля 2020 года . Проверено 27 февраля 2021 года .
  11. ^ a b c d e f g h i j k l m n o p q r s Рэдфорд, Алек; Нарасимхан, Картик; Салиманс, Тим; Суцкевер, Илья (11 июня 2018 г.). «Улучшение понимания языка с помощью генеративного предварительного обучения» (PDF) . OpenAI . п. 12. Архивировано (PDF) из оригинала 26 января 2021 года . Проверено 23 января 2021 года .
  12. ^ a b c Олазаран, Микель (1996). «Социологическое исследование официальной истории спора о персептронах». Общественные науки . 26 (3): 611–659. DOI : 10.1177 / 030631296026003005 . JSTOR 285702 . S2CID 16786738 .  
  13. ^ a b c d e Уилсон, Билл (24 июня 2012 г.). «Словарь машинного обучения» . www.cse.unsw.edu.au . Архивировано из оригинального 26 августа 2018 года . Проверено 19 января 2021 года .
  14. ^ a b c d e f g Богданов Дмитрий; Чо, Кёнхён; Бенхио, Йошуа (1 сентября 2014 г.). «Нейронный машинный перевод путем совместного обучения выравниванию и переводу». arXiv : 1409.0473 [ cs.CL ].
  15. ^ а б ЛеКун, Янн; Бенхио, Йошуа; Хинтон, Джеффри (2015). «Глубокое обучение». Природа . 521 (7553): 436–444. Bibcode : 2015Natur.521..436L . DOI : 10,1038 / природа14539 . PMID 26017442 . S2CID 3074096 .  
  16. ^ a b Зепп Хохрайтер ; Юрген Шмидхубер (21 августа 1995 г.), Долгосрочная память , Wikidata Q98967430 
  17. ^ a b c d e f Полосухин Илья; Кайзер, Лукаш; Gomez, Aidan N .; Джонс, Ллион; Uszkoreit, Jakob; Пармар, Ники; Шазир, Ноам; Васвани, Ашиш (12.06.2017). «Внимание - все, что вам нужно». arXiv : 1706.03762 [ cs.CL ].
  18. ^ a b c d e Олах, Крис; Картер, Шан (8 сентября 2016 г.). «Внимание и расширенные рекуррентные нейронные сети» . Дистиллировать . Архивировано 22 декабря 2020 года . Проверено 22 января 2021 года .
  19. ^ a b c d e f g Луонг, Минь-Тханг; Фам, Хиеу; Мэннинг, Кристофер Д. (17 августа 2015 г.). «Эффективные подходы к нейронному машинному переводу на основе внимания». arXiv : 1508.04025 [ cs.CL ].
  20. ^ a b "GPT-2: версия 1.5B" . OpenAI . 2019-11-05. Архивировано 14 ноября 2019 года . Проверено 14 ноября 2019 .
  21. ^ Браун, Том Б .; Манн, Бенджамин; Райдер, Ник; Суббия, Мелания; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састры, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Ребенок, Ревон; Рамеш, Адитья; Ziegler, Daniel M .; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; Маккэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодеи, Дарио (22 июля 2020 г.). «Языковые модели - немногие изучающие» . arXiv : 2005.14165 [ cs.CL ].
  22. ^ Arram (9 июля 2020). «GPT-3: AI, который устрашающе хорош в написании почти всего» . Аррам Сабети . Архивировано 20 июля 2020 года . Проверено 31 июля 2020 года .
  23. Хао, Карен (23 сентября 2020 г.). «OpenAI предоставляет Microsoft эксклюзивный доступ к своей языковой модели GPT-3» . Обзор технологий Массачусетского технологического института . Проверено 25 сентября 2020 . Компании заявляют, что OpenAI продолжит предлагать свой общедоступный API, который позволяет выбранным пользователям отправлять текст в GPT-3 или другие модели OpenAI и получать его выходные данные. Однако только Microsoft будет иметь доступ к базовому коду GPT-3, что позволит ему встраивать, перепрофилировать и изменять модель по своему усмотрению.
  24. ^ Тьюринг, Алан (октябрь 1950), «Вычислительные машины и интеллект», Mind , LIX (236): 433–460, DOI : 10.1093 / mind / LIX.236.433 , ISSN 0026-4423 
  25. ^ Самуэль, Артур (1959). «Некоторые исследования машинного обучения с использованием игры в шашки». Журнал исследований и разработок IBM . 3 (3): 210–229. CiteSeerX 10.1.1.368.2254 . DOI : 10.1147 / rd.33.0210 . 
  26. ^ a b c Hancox, PJ (26 января 1996 г.). «SEM1A5 - Часть 1 - Краткая история НЛП» . Бирмингемский университет. Архивировано 13 января 2021 года . Проверено 12 января 2021 года .
  27. ^ a b Най, Мэри Джо (2016). «Говоря на языках: многовековая охота науки за общим языком» . Дистилляции . 2 (1): 40–43. Архивировано 3 августа 2020 года . Проверено 22 марта 2018 .
  28. ^ Гордин, Майкл Д. (2015). Научный Бабель: Как была создана наука до и после Global English . Чикаго, Иллинойс: Издательство Чикагского университета. ISBN 9780226000299.
  29. ^ Джон Хатчинс. «Первая публичная демонстрация машинного перевода: система Джорджтаун-IBM, 7 января 1954 года». S2CID 132677 .  Цитировать журнал требует |journal=( помощь )
  30. ^ Reifler, Эрвин (2-5 февраля 1960). «Решение лингвистических задач МП с помощью лексикографии». Материалы национального симпозиума по машинному переводу .
  31. ^ Хатчинс, Джон (1997). «От первой концепции до первой демонстрации: зарождающиеся годы машинного перевода, 1947–1954. Хронология». Машинный перевод 12, 195–252 . 12 (3): 195–252. DOI : 10,1023 / A: 1007969630568 . S2CID 197591 . 
  32. ^ Виноград, Терри (1971-01-01). «Процедуры как представление данных в компьютерной программе для понимания естественного языка» . ЛВП : 1721,1 / 7095 . Архивировано 13 января 2021 года . Проверено 12 января 20 . Цитировать журнал требует |journal=( помощь )
  33. ^ "ШРДЛУ" . Стэнфордская группа взаимодействия человека и компьютера (HCI) . Архивировано 16 августа 2020 года . Проверено 12 января 20 .
  34. ^ Weizenbaum, Джозеф (январь 1966), «Элиза - Компьютерная программа для изучения естественного языка коммуникации между человеком и машиной», коммуникации АСМА , 9 (1): 36-45, DOI : 10,1145 / 365153,365168 , S2CID 1896290 
  35. ^ Бассет, Кэролайн (2019). «Вычислительная терапия: изучение ELIZA Вейценбаума как истории настоящего» . AI и общество . 34 (4): 803–812. DOI : 10.1007 / s00146-018-0825-9 .
  36. ^ Хэнкокс, PJ (26 января 1996). «SEM1A5 - Часть 1 - Современное состояние» . Бирмингемский университет. Архивировано 16 января 2021 года . Проверено 12 января 2021 года .
  37. ^ Хау, Дж. (Ноябрь 1994 г.). «Искусственный интеллект в Эдинбургском университете: перспектива» . Архивировано 17 августа 2007 года . Проверено 30 августа 2007 года . Отчет Лайтхилла [1973] спровоцировал массовую утрату доверия к ИИ академическим истеблишментом в Великобритании (и в меньшей степени в США). Это продолжалось десять лет - так называемая «зима искусственного интеллекта»
  38. ^ a b Рассел, Стюарт Дж .; Норвиг, Питер (2003), Искусственный интеллект: современный подход (2-е изд.), Верхняя Сэдл-Ривер, Нью-Джерси: Прентис Холл, стр. 24, ISBN 0-13-790395-2, заархивировано из оригинала 28 февраля 2011 г. , извлечено 12 января 2021 г. В целом индустрия искусственного интеллекта выросла с нескольких миллионов долларов в 1980 году до миллиардов долларов в 1988 году. '
  39. ^ Розенблатт, Франк (1957). «Персептрон - воспринимающий и распознающий автомат». Отчет 85-460-1 . Корнельская авиационная лаборатория.
  40. Епископ, Кристофер М. (2006). Распознавание образов и машинное обучение . Springer. ISBN 0-387-31073-8.
  41. ^ Минский, Марвин; Паперт, Сеймур (1969), Персептроны: Введение в вычислительную геометрию , MIT Press, ISBN 0-262-63022-2
  42. ^ a b Гудфеллоу, Ян ; Бенхио, Йошуа ; Курвиль, Аарон (2016). «6.5 Обратное распространение и другие алгоритмы дифференцирования» . Глубокое обучение . MIT Press. С. 200–220. ISBN 9780262035613. Архивировано 27 января 2018 года . Проверено 14 марта 2021 .
  43. ^ Werbos, Paul J. (1994). Корни обратного распространения: от упорядоченных производных к нейронным сетям и политическому прогнозированию . Нью-Йорк: Джон Вили и сыновья. ISBN 0-471-59897-6.
  44. ^ Кревье, Даниэль (1993), AI: Бурный поиск искусственного интеллекта , Нью-Йорк, Нью-Йорк: BasicBooks, ISBN 0-465-02997-3 
  45. Перейти ↑ Parker, DB (1985). «Изучение логики». Центр вычислительных исследований в области экономики и менеджмента. Кембридж, Массачусетс: Массачусетский технологический институт. Цитировать журнал требует |journal=( помощь )
  46. ^ Румелхарт, Дэвид Э .; Хинтон, Джеффри Э .; Уильямс, Рональд Дж. (1986a). «Изучение представлений путем обратного распространения ошибок». Природа . 323 (6088): 533–536. Bibcode : 1986Natur.323..533R . DOI : 10.1038 / 323533a0 . S2CID 205001834 . 
  47. Фукусима, Кунихико (октябрь 1979 г.). «位置 ず れ に 影響 さ な い パ 認識 機構 の 神 経 回路 の ル --- ネ オ コ グ ニ ト ---» [Модель нейронной сети для механизма распознавания образов, не подверженного изменению положения - Neocognitron -]. Пер. IECE (на японском языке). J62-A (10): 658–665. Архивировано 28 января 2021 года . Источник 2021-01-20 .
  48. ↑ a b c d e Баджпай, Акаш (23 февраля 2019 г.). «Рекуррентные нейронные сети: глубокое обучение для НЛП» . К науке о данных . Проверено 19 января 2021 года .
  49. ^ Зепп Хохрайтер ; Юрген Шмидхубер (1997). «LSTM может решить серьезные проблемы с длительным запаздыванием» (PDF) . Достижения в системах обработки нейронной информации 9 . Достижения в системах обработки нейронной информации. Викиданные Q77698282 .  
  50. ^ Зепп Хохрайтер ; Юрген Шмидхубер (1997). «Долговременная кратковременная память» . Нейронные вычисления . 9 (8): 1735–1780. DOI : 10.1162 / neco.1997.9.8.1735 . PMID 9377276 . S2CID 1915014 . Архивировано 22 января 2021 года . Источник 2021-01-20 .  
  51. ^ Graves, A .; Liwicki, M .; Fernández, S .; Bertolami, R .; Bunke, H .; Шмидхубер, Дж. (Май 2009 г.). «Новая система коннекционистов для неограниченного распознавания почерка». IEEE Transactions по анализу шаблонов и машинному анализу . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . DOI : 10.1109 / tpami.2008.137 . ISSN 0162-8828 . PMID 19299860 . S2CID 14635907 .    
  52. ^ Märgner, Volker; Абед, Хайкал Эль (июль 2009 г.). «Конкурс распознавания арабского почерка ICDAR 2009». 2009 10-я Международная конференция по анализу и распознаванию документов : 1383–1387. CiteSeerX 10.1.1.212.602 . DOI : 10.1109 / ICDAR.2009.256 . ISBN  978-1-4244-4500-4. S2CID  52851337 .
  53. ^ Олы, Крис (27 августа 2015). «Понимание сетей LSTM» . Архивировано 1 августа 2017 года . Проверено 22 января 2021 года .
  54. ^ Бак, Кристиан; Хифилд, Кеннет; van Ooyen, Bas. «Подсчет N-грамм и языковые модели из общего обхода» . Архивировано 28 января 2021 года . Проверено 22 января 2021 года .
  55. ^ Вольф, Томас; Дебют, Лисандра; Сан, Виктор; Шомон, Жюльен; Деланг, Клемент; Мои, Энтони; Цистак, Пьеррик; Раулт, Тим; Луф, Реми; Фунтович, Морган; Дэвисон, Джо; Шлейфер, Сэм; фон Платен, Патрик; Ма, Клара; Иернит, Ясин; Плу, Жюльен; Сюй, Канвен; Ле Скао, Тевен; Гуггер, Сильвен; Драме, Мариама; Лхоэст, Квентин; Раш, Александр (2020). «Трансформеры: современная обработка естественного языка». Труды конференции 2020 года по эмпирическим методам обработки естественного языка: системные демонстрации . С. 38–45. DOI : 10.18653 / v1 / 2020.emnlp-demos.6 . S2CID 208117506 . 
  56. ^ a b Цветкова, Юлия (22 июня 2017 г.). «Возможности и проблемы при работе с языками с низким уровнем ресурсов» (PDF) . Университет Карнеги Меллон. Архивировано 31 марта 2020 года (PDF) . Проверено 23 января 2021 года .
  57. ^ Чжу, Юкун; Кирос, Райан; Земель, Ричард; Салахутдинов Руслан; Уртасун, Ракель; Торральба, Антонио; Фидлер, Саня (22 июня 2015 г.). «Согласование книг и фильмов: к визуальным объяснениям, подобным рассказам, при просмотре фильмов и чтении книг». arXiv : 1506.06724 [ cs.CV ]. Количество книг: 11038 / количество предложений: 74 004 228 / количество слов: 984 846 357 / среднее количество слов в предложении: 13 / среднее количество слов в предложении: 11
  58. ^ Уильямс, Адина; Нангиа, Никита; Боуман, Сэмюэл (1 июня 2018 г.). «Корпус проблем с широким охватом для понимания предложения посредством вывода» (PDF) . Ассоциация компьютерной лингвистики. Архивировано 11 февраля 2020 года (PDF) . Проверено 23 января 2021 года . Этот ресурс, насчитывающий 433 тыс. Примеров, является одним из крупнейших корпусов, доступных для логического вывода на естественном языке (также известного, как распознавание текстового следования), [...] предлагая данные из десяти различных жанров письменного и устного [...] английского языка, предоставляя при этом явные настройки для оценки межжанровой доменной адаптации.
  59. ^ Лай, Гуокун; Се, Цичжэ; Ханьсяо, Лю; Ян, Иминь; Хови, Эдуард (15 апреля 2017 г.). «RACE: крупномасштабный набор данных для понимания прочитанного по результатам экзаменов». arXiv : 1704.04683 [ cs.CL ].
  60. ^ Мостафазаде, Насрин; Рот, Майкл; Луи, Энни; Чемберс, Нафанаил; Аллен, Джеймс Ф. (3 апреля 2017 г.). «LSDSem 2017 Shared Task: The Story Cloze Test» (PDF) . Ассоциация компьютерной лингвистики. Архивировано 22 ноября 2020 года (PDF) . Проверено 23 января 2021 года . Общая задача LSDSem'17 - это Story Cloze Test, новая оценка для понимания истории и изучения сценария. Этот тест предоставляет систему с историей из четырех предложений и двумя возможными окончаниями, и система должна выбрать правильный конец истории. Успешное понимание повествования (приближающееся к 100% производительности человека) требует, чтобы системы связывали различные уровни семантики с здравым смыслом.
  61. ^ Ван, Алекс; Сингх, Аманприт; Майкл, Джулиан; Хилл, Феликс; Леви, Омар; Боуман, Сэмюэл Р. (20 апреля 2018 г.). «GLUE: многозадачная платформа для тестирования и анализа естественного языка». arXiv : 1804.07461 [ cs.CL ].
  62. ^ a b Trinh, Trieu H .; Ле, Куок В. (7 июня 2018 г.). «Простой метод здравого смысла». arXiv : 1806.02847 [ cs.CL ].
  63. ^ a b Квач, Катяна (14 февраля 2019 г.). «Розы красные, это грандиозно: мы накормили последнего чат-бота OpenAI классическим заголовком Reg» . Реестр . Архивировано 9 марта 2021 года . Проверено 27 февраля 2021 года .
  64. ^ a b «Ошеломляющая стоимость обучения моделей SOTA AI» . Синхронизировано . 27 июня 2019. Архивировано 24 ноября 2020 года . Проверено 27 февраля 2021 года .
  65. ^ Wiggers, Кайл (23 марта 2020). «Фреймворк Google с открытым исходным кодом, который снижает затраты на обучение ИИ до 80%» . VentureBeat . Архивировано 26 ноября 2020 года . Проверено 27 февраля 2021 года .
  66. ^ Köbis, Нильс; Моссинк, Лука Д. (1 января 2021 г.). «Искусственный интеллект против Майи Анджелоу: экспериментальное доказательство того, что люди не могут отличить поэзию, созданную искусственным интеллектом, от стихов, написанных людьми» . Компьютеры в поведении человека . 114 : 106553. DOI : 10.1016 / j.chb.2020.106553 .
  67. Шварц, Оскар (4 июля 2019 г.). «Может ли« фальшивый текст »стать следующей глобальной политической угрозой?» . Хранитель . Архивировано 16 июля 2019 года . Проверено 16 июля 2019 .
  68. ^ a b Винсент, Джеймс (21 февраля 2019 г.). «Исследователи искусственного интеллекта обсуждают этику распространения потенциально вредоносных программ» . Грань. Архивировано 9 февраля 2021 года . Проверено 27 февраля 2021 года .
  69. ^ a b Чжан, Хью (19 февраля 2019 г.). «OpenAI: пожалуйста, откройте исходный код вашей языковой модели» . Градиент. Архивировано 28 января 2021 года . Проверено 28 февраля 2021 года .
  70. ^ Gokaslan, Аарон; Коэн, Ваня; Павлик, Элли; Теллекс, Стефани (22 августа 2019 г.). «OpenGPT-2: мы реплицировали GPT-2, потому что вы тоже можете» . Примечательно . Проверено 27 февраля 2021 года .
  71. ^ a b Винсент, Джеймс (6 июня 2019 г.). «Есть сабреддит, полностью заполненный персонификациями других сабреддитов ИИ» . Грань . Архивировано 21 февраля 2021 года . Проверено 27 февраля 2021 года .
  72. Винсент, Джеймс (24 июля 2019 г.). «Это программное обеспечение для автозаполнения на базе искусственного интеллекта - это умный ввод Gmail для кодеров» . Грань . Архивировано 9 марта 2021 года . Проверено 27 февраля 2021 года .
  73. Олсон, Мэтью (17 декабря 2019 г.). «AI Dungeon 2, текстовое приключение, в котором вы можете делать почти все, теперь и на мобильных устройствах» . Архивировано 20 сентября 2020 года . Проверено 27 февраля 2021 года .
  74. ^ Nelius, Joanna (3 августа 2020). «Эта текстовая игра на основе искусственного интеллекта« Выбери свое приключение »очень увлекательна и бессмысленна» . Gizmodo . Архивировано 28 февраля 2021 года . Проверено 27 февраля 2021 года .
  75. Ха, Энтони (4 февраля 2021 г.). «Создатель AI Dungeon Latitude собирает 3,3 миллиона долларов для создания игр с« бесконечными »сюжетными возможностями» . TechCrunch. Архивировано 21 февраля 2021 года . Проверено 27 февраля 2021 года .
  76. ^ Олхайзер, Эбби; Хао, Карен (26 февраля 2021 г.). «ИИ обучает консультантов работе с подростками в кризисной ситуации» . Обзор технологий Массачусетского технологического института. Архивировано 27 февраля 2021 года . Проверено 27 февраля 2021 года .