80 миллионов крошечных изображений - это набор данных, предназначенный для обучения систем машинного обучения . [1] Он содержит 79 302 017 цветных изображений 32 × 32 пикселя, уменьшенных в масштабе из изображений, извлеченных из Всемирной паутины в 2008 году с использованием автоматизированных поисковых запросов по набору из 75 062 не абстрактных существительных, полученных из WordNet . Затем слова в условиях поиска использовались как метки для изображений. [2] Для этой цели исследователи использовали семь ресурсов веб-поиска: Altavista , Ask.com , Flickr , Cydral , Google , Picsearch иВебшоты . [2]
Набор данных 80 миллионов крошечных изображений был исключен из использования его создателями в 2020 году [3] после того, как в статье исследователей Абебы Бирхейна и Виная Прабху было обнаружено, что некоторые из маркировки нескольких общедоступных наборов данных изображений, в том числе 80 миллионов крошечных изображений, вызывают натренированные на них модели демонстрируют расовые и сексуальные предубеждения. [4] [5] Они попросили других исследователей не использовать его для дальнейших исследований и удалить свои копии набора данных. [3]
CIFAR-10 набора данных использует подмножество изображений в этом наборе данных, но с независимо друг от друга , генерируемых меток. [6]
Смотрите также
Рекомендации
- ^ Quach, Katyanna (1 июля 2020). «Массачусетский технологический институт приносит свои извинения, постоянно извлекает из сети огромный массив данных, который научил системы ИИ использовать расистские, женоненавистнические оскорбления» . www.theregister.com . Проверено 2 июля 2020 .
- ^ а б Торральба, Антонио; Фергус, Роб; Фриман, Уильям Т. (ноябрь 2008 г.). «80 миллионов крошечных изображений: большой набор данных для распознавания непараметрических объектов и сцен» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 30 (11): 1958–1970. DOI : 10.1109 / TPAMI.2008.128 . ISSN 1939-3539 . PMID 18787244 . S2CID 7487588 .
- ^ а б «80 миллионов крошечных изображений» . groups.csail.mit.edu . Проверено 2 июля 2020 .
- ^ Устик, Джорджина (01.07.2020). «Массачусетский технологический институт удаляет огромный набор данных, который учит системы ИИ использовать расистские, женоненавистнические оскорбления» . Нейронный | Следующая Сеть . Проверено 2 июля 2020 .
- ^ Прабху, Винай Удай; Бирхане, Абеба (24.06.2020). «Большие наборы данных изображений: пиррова победа для компьютерного зрения?». arXiv : 2006.16923 [ cs.CY ].
- ↑ А. Крижевский. Изучение нескольких слоев функций из крошечных изображений . Технический отчет, 2009 г. Университет Торонто