Часть серии по |
Машинное обучение и интеллектуальный анализ данных |
---|
Эти наборы данных применяются для исследований в области машинного обучения и цитируются в рецензируемых академических журналах. Наборы данных являются неотъемлемой частью машинного обучения. Значительный прогресс в этой области может быть достигнут за счет достижений в алгоритмах обучения (таких как глубокое обучение ), компьютерном оборудовании и, что менее интуитивно, в доступности высококачественных наборов данных для обучения. [1] Высококачественные маркированные наборы обучающих данных для контролируемых и частично контролируемыхАлгоритмы машинного обучения, как правило, сложно и дорого производить из-за большого количества времени, необходимого для разметки данных. Хотя их не нужно маркировать, создание высококачественных наборов данных для обучения без учителя также может быть трудным и дорогостоящим. [2] [3] [4] [5]
Данные изображения [ редактировать ]
Наборы данных, состоящие в основном из изображений или видео, для таких задач, как обнаружение объектов , распознавание лиц и классификация по нескольким меткам .
Распознавание лиц [ править ]
В компьютерном зрении , лицевые изображения были широко используются для разработки лицевых систем распознавания , обнаружение лица , и много других проектов , которые используют изображения лиц.
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Aff-Wild | 298 видео с 200 людьми, ~ 1 250 000 изображений, аннотированных вручную: аннотированные с точки зрения пространственного аффекта (валентное возбуждение); в дикой природе; база цветов; различные разрешения (среднее = 640x360) | обнаруженные лица, лицевые ориентиры и аннотации валентного возбуждения | ~ 1 250 000 изображений с ручными аннотациями | видео (визуальные + аудио) | аффект распознавания (оценка валентности-возбуждения) | 2017 г. | CVPR [6] IJCV [7] | D.Kollias et al. |
Aff-Wild2 | 558 видеороликов 458 человек, ~ 2 800 000 изображений с ручными аннотациями: аннотированные с точки зрения i) категориального аффекта (7 основных выражений: нейтральный, счастье, печаль, удивление, страх, отвращение, гнев); б) размерный аффект (валентное возбуждение); iii) единицы действия (1, 2, 4, 6, 12, 15, 20, 25 а.е.); в дикой природе; база цветов; различные разрешения (среднее = 1030x630) | обнаруженные лица, обнаруженные и выровненные лица и аннотации | ~ 2 800 000 изображений с ручными аннотациями | видео (визуальные + аудио) | распознавание аффекта (оценка валентности-возбуждения, классификация основных выражений, обнаружение единиц действия) | 2019 г. | BMVC [8] FG [9] | D.Kollias et al. |
FERET (технология распознавания лиц) | 11338 изображений 1199 человек в разных положениях и в разное время. | Никто. | 11 338 | Изображений | Классификация, распознавание лиц | 2003 г. | [10] [11] | Министерство обороны США |
Аудиовизуальная база данных эмоциональной речи и песни Ryerson (RAVDESS) | 7356 видео- и аудиозаписей 24 профессиональных актеров. 8 эмоций с двумя уровнями интенсивности каждая. | Файлы, помеченные выражением. Оценки перцепционной валидации предоставлены 319 оценщиками. | 7 356 | Видео, звуковые файлы | Классификация, распознавание лиц, распознавание голоса | 2018 г. | [12] [13] | С.Р. Ливингстон и Ф.А. Руссо |
SCFace | Цветные изображения лиц под разными углами. | Расположение извлеченных черт лица. Приведены координаты объектов. | 4 160 | Изображения, текст | Классификация , распознавание лиц | 2011 г. | [14] [15] | M. Grgic et al. |
Йельская база данных лиц | Лица 15 человек в 11 различных выражениях. | Ярлыки выражений. | 165 | Изображений | Распознавание лица | 1997 г. | [16] [17] | J. Yang et al. |
Cohn-Kanade База данных выражений, кодируемая AU | Большая база изображений с надписями к выражениям. | Отслеживание определенных черт лица. | 500+ последовательностей | Изображения, текст | Анализ мимики | 2000 г. | [18] [19] | T. Kanade et al. |
База данных выражений лица JAFFE | 213 изображений 7 выражений лица (6 основных выражений лица + 1 нейтральное), представленных 10 японскими женщинами-моделями. | Изображения обрезаются до лицевой области. Включает данные семантических оценок для ярлыков эмоций. | 213 | Изображения, текст | Познание выражения лица | 1998 г. | [20] [21] | Лион, Камачи, Гьоба |
Скраб для лица | Изображения общественных деятелей удалены из результатов поиска. | Название и м / ж аннотация. | 107 818 | Изображения, текст | Распознавание лица | 2014 г. | [22] [23] | H. Ng et al. |
База данных лиц BioID | Изображения лиц с отмеченным положением глаз. | Установите положение глаз вручную. | 1521 | Изображения, текст | Распознавание лица | 2001 г. | [24] [25] | BioID |
Набор данных сегментации кожи | Случайно выбранные значения цвета из изображений лиц. | B, G, R, значения извлечены. | 245 057 | Текст | Сегментация, классификация | 2012 г. | [26] [27] | Р. Бхатт. |
Босфор | База данных трехмерных изображений лиц. | Отмечены 34 единицы действий и 6 выражений; Обозначены 24 лицевых ориентира. | 4652 | Изображения, текст | Распознавание лиц, классификация | 2008 г. | [28] [29] | А. Савран и др. |
UOY 3D-лицо | нейтральное лицо, 5 выражений: гнев, счастье, печаль, глаза закрыты, брови подняты. | маркировка. | 5250 | Изображения, текст | Распознавание лиц, классификация | 2004 г. | [30] [31] | Йоркский университет |
База данных лиц CASIA 3D | Выражения: гнев, улыбка, смех, удивление, закрытые глаза. | Никто. | 4624 | Изображения, текст | Распознавание лиц, классификация | 2007 г. | [32] [33] | Институт автоматики Китайской академии наук |
КАЗИЯ НИР | Выражения: Гнев Отвращение Страх Счастье Печаль Сюрприз | Никто. | 480 | Запись видео в видимом спектре и ближнем инфракрасном диапазоне с аннотациями со скоростью 25 кадров в секунду | Распознавание лиц, классификация | 2011 г. | [34] | Zhao, G. et al. |
BU-3DFE | нейтральное лицо и 6 выражений: гнев, счастье, печаль, удивление, отвращение, страх (4 уровня). 3D изображения извлечены. | Никто. | 2500 | Изображения, текст | Распознавание мимики, классификация | 2006 г. | [35] | Бингемтонский университет |
Набор данных Grand Challenge для распознавания лиц | До 22 образцов по каждому предмету. Выражения: гнев, счастье, печаль, удивление, отвращение, одутловатость. 3D-данные. | Никто. | 4007 | Изображения, текст | Распознавание лиц, классификация | 2004 г. | [36] [37] | Национальный институт стандартов и технологий |
Гавабдб | До 61 образца по каждому предмету. Выражения лица нейтральное, улыбка, фронтальный акцентированный смех, фронтальный случайный жест. 3D изображения. | Никто. | 549 | Изображения, текст | Распознавание лиц, классификация | 2008 г. | [38] [39] | Университет короля Хуана Карлоса |
3D-RMA | До 100 субъектов, выражения в основном нейтральные. Также несколько поз. | Никто. | 9971 | Изображения, текст | Распознавание лиц, классификация | 2004 г. | [40] [41] | Королевская военная академия (Бельгия) |
SoF | 112 человек (66 мужчин и 46 женщин) носят очки при различных условиях освещения. | Набор синтетических фильтров (размытие, окклюзия, шум и постеризация) с разным уровнем сложности. | 42,592 (2,662 исходных изображения × 16 синтетических изображений) | Изображения, Мат файл | Гендерная классификация, обнаружение лиц, распознавание лиц, оценка возраста и обнаружение очков | 2017 г. | [42] [43] | Афифи М. и др. |
IMDB-WIKI | IMDB и Википедия сталкиваются с изображениями с отметками пола и возраста. | Никто | 523 051 | Изображений | Гендерная классификация, распознавание лиц, распознавание лиц, оценка возраста | 2015 г. | [44] | Р. Рот, Р. Тимофте, Л. В. Гул |
Распознавание действий [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о взаимодействии с людьми на телевидении | Видео из 20 различных телешоу для прогнозирования социальных действий: рукопожатие, дай пять, объятия, поцелуй и т. Д. | Никто. | 6766 видеоклипов | видеоклипы | Прогноз действий | 2013 | [45] | Патрон-Перес, А. и др. |
База данных мультимодальных действий человека в Беркли (MHAD) | Записи одного человека, выполняющего 12 действий | Предварительная обработка MoCap | 660 сэмплов действий | 8 PhaseSpace Motion Capture, 2 стерео камеры, 4 Quad камеры, 6 акселерометров, 4 микрофона | Классификация действий | 2013 | [46] | Ofli, F. et al. |
Набор данных THUMOS | Большой набор видеоданных для классификации действий. | Действия классифицированы и помечены. | 45 млн кадров видео | Видео, изображения, текст | Классификация, обнаружение действий | 2013 | [47] [48] | Y. Jiang et al. |
MEXAction2 | Набор видеоданных для локализации и обнаружения действий | Действия классифицированы и помечены. | 1000 | видео | Обнаружение действия | 2014 г. | [49] | Stoian et al. |
Обнаружение и распознавание объектов [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Визуальный геном | Изображения и их описание | 108 000 | изображения, текст | Подписи к изображениям | 2016 г. | [50] | Р. Кришна и др. | |
Набор данных трехмерных объектов Беркли | 849 изображений, снятых в 75 различных сценах. Отмечено около 50 различных классов объектов. | Ограничивающие рамки и маркировка объектов. | 849 | помеченные изображения, текст | Распознавание объекта | 2014 г. | [51] [52] | A. Janoch et al. |
Набор данных сегментации Berkeley и контрольные показатели 500 (BSDS500) | 500 естественных изображений, явно разделенных на непересекающиеся подмножества обучающих, проверочных и тестовых + тестовый код. На основе BSDS300. | Каждое изображение сегментировано в среднем по пяти различным предметам. | 500 | Сегментированные изображения | Обнаружение контуров и иерархическая сегментация изображений | 2011 г. | [53] | Калифорнийский университет в Беркли |
Общие объекты Microsoft в контексте (COCO) | сложные повседневные сцены обычных предметов в их естественном контексте. | Подсветка, маркировка и классификация объектов по 91 типу объектов. | 2 500 000 | Помеченные изображения, текст | Распознавание объекта | 2015 г. | [54] [55] | T. Lin et al. |
База данных SUN | Очень большая база данных по распознаванию сцен и объектов. | Маркируются места и объекты. Объекты сегментированы. | 131 067 | Изображения, текст | Распознавание объектов, распознавание сцен | 2014 г. | [56] [57] | J. Xiao et al. |
ImageNet | База данных изображений помеченных объектов, используемая в конкурсе ImageNet Large Scale Visual Recognition Challenge | Помеченные объекты, ограничивающие рамки, описательные слова, функции SIFT | 14 197 122 | Изображения, текст | Распознавание объектов, распознавание сцен | 2009 (2014) | [58] [59] [60] | J. Deng et al. |
Открытые изображения | Большой набор изображений, имеющих лицензию CC BY 2.0, с метками уровня изображения и ограничивающими рамками, охватывающими тысячи классов. | Метки уровня изображения, ограничивающие рамки | 9 178 275 | Изображения, текст | Классификация, Распознавание объектов | 2017 г. | [61] | |
Набор данных обнаружения коммерческих новостных телеканалов | Телевизионные рекламные ролики и выпуск новостей. | Аудио и видео функции, извлеченные из неподвижных изображений. | 129 685 | Текст | Кластеризация, классификация | 2015 г. | [62] [63] | P. Guha et al. |
Набор данных Statlog (Image Segmentation) | Экземпляры были отобраны случайным образом из базы данных из 7 наружных изображений и сегментированы вручную для создания классификации для каждого пикселя. | Многие функции просчитаны. | 2310 | Текст | Классификация | 1990 г. | [64] | Массачусетский университет |
Калтех 101 | Картинки предметов. | Обозначены подробные очертания объекта. | 9146 | Изображений | Классификация, распознавание объектов. | 2003 г. | [65] [66] | F. Li et al. |
Калтех-256 | Большой набор изображений для классификации объектов. | Изображения категоризированы и отсортированы вручную. | 30 607 | Изображения, текст | Классификация, обнаружение объекта | 2007 г. | [67] [68] | G. Griffin et al. |
Набор данных SIFT10M | Особенности SIFT набора данных Caltech-256. | Расширенное извлечение функций SIFT. | 11 164 866 | Текст | Классификация, обнаружение объекта | 2016 г. | [69] | X. Fu et al. |
LabelMe | Аннотированные изображения сцен. | Обозначены объекты. | 187 240 | Изображения, текст | Классификация, обнаружение объекта | 2005 г. | [70] | Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института |
Набор данных "Городские пейзажи" | Стерео видеопоследовательности, записанные в уличных сценах, с аннотациями на уровне пикселей. Также включены метаданные. | Сегментация и маркировка на уровне пикселей | 25 000 | Изображения, текст | Классификация, обнаружение объекта | 2016 г. | [71] | Daimler AG et al. |
Набор данных PASCAL VOC | Большое количество изображений для задач классификации. | Маркировка, ограничительная рамка в комплекте | 500 000 | Изображения, текст | Классификация, обнаружение объекта | 2010 г. | [72] [73] | M. Everingham et al. |
Набор данных CIFAR-10 | Множество небольших изображений с низким разрешением 10 классов объектов. | Размечены классы, созданы разбиения обучающих наборов. | 60 000 | Изображений | Классификация | 2009 г. | [59] [74] | А. Крижевский и др. |
Набор данных CIFAR-100 | Подобно CIFAR-10, выше, но дано 100 классов объектов. | Размечены классы, созданы разбиения обучающих наборов. | 60 000 | Изображений | Классификация | 2009 г. | [59] [74] | А. Крижевский и др. |
Набор данных CINIC-10 | Объединенный вклад CIFAR-10 и Imagenet с 10 классами и 3 разделениями. Больше, чем CIFAR-10. | Размечены классы, обучение, проверка, созданы разбиения тестовых наборов. | 270 000 | Изображений | Классификация | 2018 г. | [75] | Люк Н. Дарлоу, Эллиот Дж. Кроули, Антреас Антониу, Амос Дж. Сторки |
Fashion-MNIST | База данных модных товаров в стиле MNIST | Размечены классы, созданы разбиения обучающих наборов. | 60 000 | Изображений | Классификация | 2017 г. | [76] | Zalando SE |
notMNIST | Некоторые общедоступные шрифты и извлеченные из них глифы, чтобы сделать набор данных похожим на MNIST. Всего существует 10 классов, буквы AJ взяты из разных шрифтов. | Размечены классы, созданы разбиения обучающих наборов. | 500 000 | Изображений | Классификация | 2011 г. | [77] | Ярослав Булатов |
Набор данных по обнаружению дорожных знаков в Германии | Изображения с автомобилей дорожных знаков на немецких дорогах. Эти знаки соответствуют стандартам ООН и поэтому такие же, как в других странах. | Знаки, помеченные вручную | 900 | Изображений | Классификация | 2013 | [78] [79] | S Houben et al. |
Набор данных KITTI Vision Benchmark | Автономные автомобили, проезжающие по городу среднего размера, снимали изображения различных областей с помощью камер и лазерных сканеров. | Многие тесты взяты из данных. | > 100 ГБ данных | Изображения, текст | Классификация, обнаружение объекта | 2012 г. | [80] [81] | А. Гейгер и др. |
Набор данных Linnaeus 5 | Изображения 5 классов предметов. | Размечены классы, созданы разбиения обучающих наборов. | 8000 | Изображений | Классификация | 2017 г. | [82] | Чаладзе и Калатозишвили |
FieldSAFE | Мультимодальный набор данных для обнаружения препятствий в сельском хозяйстве, включая стереокамеру, тепловизор, веб-камеру, камеру 360 градусов, лидар, радар и точную локализацию. | Классы с географической маркировкой. | > 400 ГБ данных | Изображения и трехмерные облака точек | Классификация, обнаружение объекта, локализация объекта | 2017 г. | [83] | M. Kragh et al. |
11K рук | 11076 изображений рук (1600 x 1200 пикселей) 190 субъектов разного возраста от 18 до 75 лет для распознавания пола и биометрической идентификации. | Никто | 11076 изображений рук | Изображения и файлы меток (.mat, .txt и .csv) | Распознавание пола и биометрическая идентификация | 2017 г. | [84] | М Афифи |
CORe50 | Специально разработанный для непрерывного / непрерывного обучения и распознавания объектов, представляет собой сборник из более чем 500 видеороликов (30 кадров в секунду) с 50 домашними объектами, принадлежащими к 10 различным категориям. | Размеченные классы, разбиение обучающего набора, созданное на основе трехстороннего многозадачного теста. | 164866 изображений RBG-D | изображения (.png или .pkl) и файлы меток (.pkl, .txt, .tsv) | Классификация, Распознавание объектов | 2017 г. | [85] | В. Ломонако и Д. Мальтони |
OpenLORIS-Объект | Набор данных пожизненного / непрерывного роботизированного зрения (OpenLORIS-Object), собранный настоящими роботами, установленными с несколькими датчиками высокого разрешения, включает коллекцию из 121 экземпляра объекта (1-я версия набора данных, 40 категорий предметов первой необходимости в пределах 20 сцен). В наборе данных тщательно учтены 4 фактора окружающей среды в разных сценах, включая освещение, загораживание, размер пикселя объекта и беспорядок, и явно определены уровни сложности каждого фактора. | Обозначенные классы, набор для обучения / проверки / тестирования, созданный с помощью сценариев тестирования. | 1 106 424 изображения RBG-D | изображения (.png и .pkl) и файлы этикеток (.pkl) | Классификация, Распознавание объектов на протяжении всей жизни, Роботизированное зрение | 2019 г. | [86] | Q. She et al. |
Набор данных ТГц и теплового видео | Этот набор мультиспектральных данных включает в себя терагерцовое, тепловое, визуальное, ближнее инфракрасное и трехмерное видео объектов, скрытых под одеждой людей. | Предусмотрены таблицы поиска 3D, которые позволяют проецировать изображения на облака точек 3D. | Более 20 видео. Продолжительность каждого видео составляет около 85 секунд (около 345 кадров). | AP2J | Эксперименты с обнаружением скрытых объектов | 2019 г. | [87] [88] | Алексей А. Морозов и Ольга С. Сушкова |
Рукописный ввод и распознавание символов [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных искусственных персонажей | Искусственно сгенерированные данные, описывающие структуру 10 заглавных букв английского алфавита. | Координаты нарисованных линий даны в виде целых чисел. Различные другие функции. | 6000 | Текст | Распознавание почерка, классификация | 1992 г. | [89] | H. Guvenir et al. |
Набор данных букв | Печатные буквы верхнего регистра. | 17 функций извлечены из всех изображений. | 20 000 | Текст | OCR, классификация | 1991 г. | [90] [91] | D. Slate et al. |
CASIA-HWDB | Автономная база данных рукописных китайских иероглифов . 3755 классов в наборе символов GB 2312 . | Изображения в оттенках серого с фоновыми пикселями, обозначенными как 255. | 1,172,907 | Изображения, текст | Распознавание почерка, классификация | 2009 г. | [92] | КАЗИЯ |
CASIA-OLHWDB | Онлайн-база данных рукописных китайских иероглифов, собранных с помощью ручки Anoto на бумаге. 3755 классов в наборе символов GB 2312 . | Предоставляет последовательности координат штрихов. | 1,174,364 | Изображения, текст | Распознавание почерка, классификация | 2009 г. | [93] [92] | КАЗИЯ |
Набор данных траекторий персонажей | Маркированные образцы траекторий кончика пера для людей, пишущих простые символы. | Трехмерная матрица траекторий скорости кончика пера для каждого образца | 2858 | Текст | Распознавание почерка, классификация | 2008 г. | [94] [95] | Б. Уильямс |
Набор данных Chars74K | Распознавание символов в естественных изображениях символов, используемых как в английском, так и в каннаде | 74 107 | Распознавание символов, распознавание почерка, OCR, классификация | 2009 г. | [96] | Т. де Кампос | ||
Набор данных символов пера UJI | Изолированные рукописные символы | Приведены координаты положения пера по мере написания. | 11 640 | Текст | Распознавание почерка, классификация | 2009 г. | [97] [98] | F. Prat et al. |
Набор данных Gisette | Образцы почерка из часто путающих 4 и 9 знаков. | Функции, извлеченные из изображений, разделенные на поезд / тест, изображения рукописного ввода нормализованы по размеру. | 13 500 | Изображения, текст | Распознавание почерка, классификация | 2003 г. | [99] | Ян ЛеКун и др. |
Набор данных Omniglot | 1623 разных рукописных символа из 50 разных алфавитов. | Маркированы вручную. | 38 300 | Изображения, текст, штрихи | Классификация, однократное обучение | 2015 г. | [100] [101] | Американская ассоциация развития науки |
База данных MNIST | База данных рукописных цифр. | Маркированы вручную. | 60 000 | Изображения, текст | Классификация | 1998 г. | [102] [103] | Национальный институт стандартов и технологий |
Оптическое распознавание набора данных рукописных цифр | Нормализованные растровые изображения рукописных данных. | Размер нормализован и сопоставлен с растровыми изображениями. | 5620 | Изображения, текст | Распознавание почерка, классификация | 1998 г. | [104] | Э. Алпайдин и др. |
Распознавание набора рукописных цифр с помощью пера | Рукописные цифры на электронном планшете. | Векторы признаков, извлеченные для равномерного распределения. | 10 992 | Изображения, текст | Распознавание почерка, классификация | 1998 г. | [105] [106] | Э. Алпайдин и др. |
Набор рукописных цифр Semeion | Рукописные цифры от 80 человек. | Все рукописные цифры нормализованы по размеру и сопоставлены с той же сеткой. | 1593 | Изображения, текст | Распознавание почерка, классификация | 2008 г. | [107] | T. Srl |
HASYv2 | Рукописные математические символы | Все символы расположены по центру и имеют размер 32 x 32 пикселя. | 168233 | Изображения, текст | Классификация | 2017 г. | [108] | Мартин Тома |
Шумный рукописный набор данных Bangla | Включает набор данных рукописных цифр (10 классов) и базовый набор данных символов (50 классов), каждый набор данных имеет три типа шума: белый гауссовский, размытие при движении и пониженный контраст. | Все изображения расположены по центру и имеют размер 32x32. | Числовой набор данных: 23330, г. Набор данных символов: 76000 | Изображений, текст | Распознавание почерка, классификация | 2017 г. | [109] [110] | M. Karki et al. |
Аэрофотоснимки [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных сегментации аэрофотоснимков | 80 аэрофотоснимков высокого разрешения с пространственным разрешением от 0,3 до 1,0. | Изображения сегментированы вручную. | 80 | Изображений | Классификация по воздуху, обнаружение объектов | 2013 | [111] [112] | J. Yuan et al. |
Комплект данных KIT AIS | Множественные помеченные наборы данных для обучения и оценки аэрофотоснимков толпы. | Изображения помечены вручную, чтобы показать пути людей через толпу. | ~ 150 | Изображения с путями | Отслеживание людей, воздушное отслеживание | 2012 г. | [113] [114] | M. Butenuth et al. |
Набор данных Уилта | Данные дистанционного зондирования больных деревьев и другого растительного покрова. | Извлечены различные функции. | 4899 | Изображений | Классификация, обнаружение воздушных объектов | 2014 г. | [115] [116] | Б. Джонсон |
Набор данных MASATI | Морские сцены из оптических аэрофотоснимков видимого спектра. Он содержит цветные изображения в динамической морской среде, каждое изображение может содержать одну или несколько целей в разных погодных условиях и условиях освещения. | Ограничивающие рамки и маркировка объектов. | 7389 | Изображений | Классификация, обнаружение воздушных объектов | 2018 г. | [117] [118] | А.-Дж. Gallego et al. |
Набор данных сопоставления типов леса | Спутниковые снимки лесов Японии. | Полосы длин волн изображения извлечены. | 326 | Текст | Классификация | 2015 г. | [119] [120] | Б. Джонсон |
Набор данных исследования накладных изображений | Аннотированные изображения над головой. Изображения с несколькими объектами. | Более 30 аннотаций и более 60 статистических данных, описывающих цель в контексте изображения. | 1000 | Изображения, текст | Классификация | 2009 г. | [121] [122] | F. Tanner et al. |
SpaceNet | SpaceNet - это совокупность коммерческих спутниковых снимков и маркированных тренировочных данных. | Файлы GeoTiff и GeoJSON, содержащие контуры зданий. | > 17533 | Изображений | Классификация, идентификация объекта | 2017 г. | [123] [124] [125] | DigitalGlobe, Inc. |
Набор данных о землепользовании UC Merced | Эти изображения были вручную извлечены из больших изображений из коллекции изображений городских районов USGS National Map для различных городских районов США. | Это набор данных изображений землепользования 21 класса, предназначенный для исследовательских целей. Для каждого класса есть 100 изображений. | 2100 | Чипы изображения 256x256, GSD 30 см (1 фут) | Классификация земного покрова | 2010 г. | [126] | И Ян и Шон Ньюсэм |
Набор бортовых данных SAT-4 | Изображения были извлечены из набора данных Национальной программы обработки изображений сельского хозяйства (NAIP). | SAT-4 имеет четыре широких класса земного покрова, включая бесплодные земли, деревья, луга и класс, который состоит из всех классов земного покрова, кроме трех вышеупомянутых. | 500 000 | Изображений | Классификация | 2015 г. | [127] [128] | S. Basu et al. |
Набор бортовых данных SAT-6 | Изображения были извлечены из набора данных Национальной программы обработки изображений сельского хозяйства (NAIP). | SAT-6 имеет шесть широких классов земного покрова, включая бесплодные земли, деревья, луга, дороги, здания и водоемы. | 405 000 | Изображений | Классификация | 2015 г. | [127] [128] | S. Basu et al. |
Другие изображения [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Теория функционала плотности квантовое моделирование графена | Помеченные изображения сырых входных данных для моделирования графена | Исходные данные (в формате HDF5) и выходные метки из квантового моделирования теории функционала плотности | 60744 тестовых и 501473 и обучающих файлов | Помеченные изображения | Регресс | 2019 г. | [129] | К. Миллс и И. Тэмблин |
Квантовое моделирование электрона в двумерной потенциальной яме | Помеченные изображения исходных данных для моделирования 2-й квантовой механики | Исходные данные (в формате HDF5) и выходные метки из квантового моделирования | 1,3 миллиона изображений | Помеченные изображения | Регресс | 2017 г. | [130] | К. Миллс, М.А. Шпаннер, И. Тэмблин |
Набор данных о кулинарии MPII | Видео и изображения различных кулинарных мероприятий. | Пути и направления действий, метки, мелкозернистая маркировка движения, класс активности, извлечение и маркировка неподвижных изображений. | 881755 кадров | Помеченное видео, изображения, текст | Классификация | 2012 г. | [131] [132] | M. Rohrbach et al. |
Набор данных FAMOS | 5000 уникальных микроструктур, все образцы были получены 3 раза с помощью двух разных камер. | Исходные файлы PNG, отсортированные по камерам, а затем по получению. Файлы данных MATLAB с одной матрицей 16384 × 5000 на камеру за одно получение. | 30 000 | Изображения и файлы .mat | Аутентификация | 2012 г. | [133] | С. Волошиновский и др. |
Набор данных PharmaPack | 1000 уникальных классов с 54 изображениями в классе. | Маркировка классов, множество локальных дескрипторов, таких как SIFT и aKaZE, и локальные агенты функций, такие как Fisher Vector (FV). | 54 000 | Изображения и файлы .mat | Классификация мелкого зерна | 2017 г. | [134] | О. Таран, С. Резаифар и др. |
Набор данных Stanford Dogs | Изображения 120 пород собак со всего мира. | Предоставляются разделение на обучение / тестирование и аннотации ImageNet. | 20 580 | Изображения, текст | Классификация мелкого зерна | 2011 г. | [135] [136] | A. Khosla et al. |
StanfordExtra Dataset | 2D ключевые точки и сегментации для набора данных Stanford Dogs. | Предусмотрены 2D характерные точки и сегментация. | 12 035 | Помеченные изображения | 3D-реконструкция / оценка позы | 2020 г. | [137] | Б. Биггс и др. |
Набор данных домашних животных Oxford-IIIT | 37 категорий домашних животных, примерно по 200 изображений каждой. | Породы помечены, жесткая ограничивающая рамка, сегментация переднего и заднего плана. | ~ 7 400 | Изображения, текст | Классификация, обнаружение объекта | 2012 г. | [136] [138] | О. Пархи и др. |
Набор данных Corel Image Features | База данных изображений с извлеченными функциями. | Множество функций, включая гистограмму цвета, текстуру совместного появления и цвета, | 68 040 | Текст | Классификация, обнаружение объекта | 1999 г. | [139] [140] | M. Ortega-Bindenberger et al. |
Характеристики онлайн-видео и набор временных данных для транскодирования. | Время перекодирования для различных видео и свойств видео. | Приведены особенности видео. | 168 286 | Текст | Регресс | 2015 г. | [141] | T. Deneke et al. |
Набор данных повествования последовательного изображения Microsoft (SIND) | Набор данных для последовательного перехода от видения к языку | Описательная подпись и повествование даны для каждой фотографии, а фотографии расположены в последовательности. | 81 743 | Изображения, текст | Визуальное повествование | 2016 г. | [142] | Microsoft Research |
Набор данных Caltech-UCSD Birds-200-2011 | Большой набор изображений птиц. | Расположение деталей для птиц, ограничивающие рамки, задано 312 двоичных атрибутов | 11 788 | Изображения, текст | Классификация | 2011 г. | [143] [144] | C. Wah et al. |
Ютуб-8М | Большой и разнообразный маркированный набор видеоданных | Идентификаторы видео YouTube и связанные с ними ярлыки из разнообразного словаря из 4800 визуальных объектов. | 8 миллионов | Видео, текст | Классификация видео | 2016 г. | [145] [146] | S. Abu-El-Haija et al. |
YFCC100M | Большой и разнообразный маркированный набор изображений и видео | Видео и изображения Flickr и соответствующее описание, заголовки, теги и другие метаданные (например, EXIF и геотеги) | 100 миллионов | Видео, изображение, текст | Классификация видео и изображений | 2016 г. | [147] [148] | B. Thomee et al. |
Дискретный ЛИРИС-АКСЕДЕ | Короткие видеоролики с комментариями о валентности и возбуждении. | Ярлыки валентности и возбуждения. | 9800 | видео | Обнаружение видеоэмоций | 2015 г. | [149] | Y. Baveye et al. |
Непрерывный ЛИРИС-АКСЕДЕ | Длинные видеоролики с аннотациями для валентности и возбуждения, а также сбора данных о кожно-гальванической реакции. | Ярлыки валентности и возбуждения. | 30 | видео | Обнаружение видеоэмоций | 2015 г. | [150] | Y. Baveye et al. |
Средневековый LIRIS-ACCEDE | Расширение Discrete LIRIS-ACCEDE, включая аннотации уровней насилия в фильмах. | Ярлыки насилия, валентности и возбуждения. | 10900 | видео | Обнаружение видеоэмоций | 2015 г. | [151] | Y. Baveye et al. |
Спортивная поза Лидса | Сочлененные аннотации позы человека в 2000 изображениях естественных видов спорта с Flickr. | Необработанный урожай вокруг одного человека, представляющего интерес, с 14 совместными этикетками | 2000 г. | Изображения плюс метки файлов .mat | Оценка позы человека | 2010 г. | [152] | С. Джонсон и М. Эверингем |
Расширенная тренировка позы Leeds Sports Pose | Сочлененные аннотации позы человека на 10 000 изображений естественных видов спорта с Flickr. | 14 совместных лейблов через краудсорсинг | 10000 | Изображения плюс метки файлов .mat | Оценка позы человека | 2011 г. | [153] | С. Джонсон и М. Эверингем |
Набор данных MCQ | 6 различных реальных экзаменов на основе множественного выбора (735 листов ответов и 33 540 блоков для ответов) для оценки методов и систем компьютерного зрения, разработанных для систем оценки тестов с множественным выбором. | Никто | 735 листов для ответов и 33 540 ящиков для ответов | Ярлыки изображений и файлов .mat | Разработка систем оценки тестов с множественным выбором | 2017 г. | [154] [155] | Афифи М. и др. |
Видео наблюдения | Реальные видео наблюдения охватывают длительное время наблюдения (7 дней по 24 часа каждый). | Никто | 19 видео наблюдения (7 дней по 24 часа). | Видео | Сжатие данных | 2016 г. | [156] | Тадж-Эддин, IATF et al. |
ЛИЛА БК | Маркированная информационная библиотека Александрии: биология и сохранение. Помеченные изображения, поддерживающие исследования машинного обучения в области экологии и науки об окружающей среде. | Никто | ~ 10 млн изображений | Изображений | Классификация | 2019 г. | [157] | LILA рабочая группа |
Можем ли мы увидеть фотосинтез? | 32 видео для восьми живых и восьми мертвых листьев, записанных как при постоянном, так и при переменном освещении. | Никто | 32 видео | Видео | Определение живучести растений | 2017 г. | [158] | Тадж-Эддин, IATF et al. |
Текстовые данные [ редактировать ]
Наборы данных, состоящие в основном из текста, для таких задач, как обработка естественного языка , анализ тональности , перевод и кластерный анализ .
Обзоры [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Обзоры Amazon | Обзоры продуктов в США с Amazon.com . | Никто. | ~ 82 млн | Текст | Классификация, анализ настроений | 2015 г. | [159] | McAuley et al. |
Набор данных обзора OpinRank | Обзоры автомобилей и отелей соответственно на сайтах Edmunds.com и TripAdvisor . | Никто. | 42,230 / ~ 259,000 соответственно | Текст | Анализ настроений, кластеризация | 2011 г. | [160] [161] | K. Ganesan et al. |
MovieLens | 22 000 000 оценок и 580 000 тегов, примененных к 33 000 фильмам 240 000 пользователей. | Никто. | ~ 22 млн | Текст | Регрессия, кластеризация, классификация | 2016 г. | [162] | GroupLens Research |
Yahoo! Рейтинги музыкальных пользователей музыкальных исполнителей | Пользователи Yahoo оценили более 10 миллионов художников. | Ничего не описано. | ~ 10 млн | Текст | Кластеризация, регрессия | 2004 г. | [163] [164] | Yahoo! |
Набор данных оценки автомобиля | Свойства автомобилей и их приемлемость в целом. | Дано шесть категориальных признаков. | 1728 | Текст | Классификация | 1997 г. | [165] [166] | М. Боханец |
Набор данных о предпочтениях в YouTube Comedy Slam | Данные о голосовании пользователей для пар видео, показываемых на YouTube. Пользователи голосовали за более смешные видео. | Приведены метаданные видео. | 1 138 562 | Текст | Классификация | 2012 г. | [167] [168] | |
Набор данных отзывов пользователей Skytrax | Отзывы пользователей об авиакомпаниях, аэропортах, местах и залах ожидания Skytrax. | Рейтинги точны и включают многие аспекты опыта работы в аэропорту. | 41396 | Текст | Классификация, регрессия | 2015 г. | [169] | К. Нгуен |
Набор данных оценки помощника учителя | Отзывы о помощниках учителя. | Приведены характеристики каждого экземпляра, такие как класс, размер класса и преподаватель. | 151 | Текст | Классификация | 1997 г. | [170] [171] | W. Loh et al. |
Корпус отзывов вьетнамских студентов (UIT-VSFC) | Отзывы студентов. | Комментарии | 16 000 | Текст | Классификация | 1997 г. | [172] | Nguyen et al. |
Корпус вьетнамских социальных сетей Emotion Corpus (UIT-VSMEC) | Комментарии пользователей в Facebook. | Комментарии | 6 927 | Текст | Классификация | 1997 г. | [173] | Nguyen et al. |
Новостные статьи [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных NYSK | Статьи на английском языке о деле, касающемся обвинений в сексуальном посягательстве на бывшего директора МВФ Доминика Стросс-Кана . | Отфильтровано и представлено в формате XML. | 10 421 | XML, текст | Анализ тональности, извлечение темы | 2013 | [174] | Dermouche, M. et al. |
Корпус Reuters, том 1 | Большой корпус новостей Reuters на английском языке. | Детальная категоризация и тематические коды. | 810 000 | Текст | Классификация, кластеризация, обобщение | 2002 г. | [175] | Рейтер |
Корпус Reuters, том 2 | Большой корпус новостей Reuters на нескольких языках. | Детальная категоризация и тематические коды. | 487 000 | Текст | Классификация, кластеризация, обобщение | 2005 г. | [176] | Рейтер |
Сборник текстовых исследований Thomson Reuters | Большой корпус новостей. | Подробности не описаны. | 1 800 370 | Текст | Классификация, кластеризация, обобщение | 2009 г. | [177] | T. Rose et al. |
Корпус саудовских газет | 31 030 газетных статей на арабском языке. | Метаданные извлечены. | 31 030 | JSON | Обобщение, кластеризация | 2015 г. | [178] | М. Альхагри |
RE3D (набор данных оценки извлечения взаимосвязей и сущностей) | Entity and Relation отметили данные из различных новостных и государственных источников. При поддержке Dstl | Отфильтровано, категоризация с использованием типов Baleen | Неизвестный | JSON | Классификация, признание сущности и отношения | 2017 г. | [179] | Dstl |
Каталог кликбейтов Examiner Spam | Clickbait, спам, краудсорсинговые заголовки с 2010 по 2015 год | Дата публикации и заголовки | 3 089 781 | CSV | Кластеризация, События, Настроения | 2016 г. | [180] | Р. Кулкарни |
Корпус новостей ABC Australia | Весь новостной корпус ABC Australia с 2003 по 2019 год | Дата публикации и заголовки | 1,186,018 | CSV | Кластеризация, События, Настроения | 2020 г. | [181] | Р. Кулкарни |
Мировые новости - 20 тыс. Фидов | Снимок всех онлайн-заголовков на более чем 20 языках за неделю | Время публикации, URL и заголовки | 1,398,431 | CSV | Кластеризация, события, определение языка | 2018 г. | [182] | Р. Кулкарни |
Заголовок сообщения Reuters News Wire | 11 лет событий с указанием времени, опубликованных в ленте новостей | Время публикации, текст заголовка | 16 121 310 | CSV | НЛП, Компьютерная лингвистика, События | 2018 г. | [183] | Р. Кулкарни |
The Irish Times Ireland News Corpus | 24 года новостей Ирландии с 1996 по 2019 год | Время публикации, категория заголовка и текст | 1,484,340 | CSV | НЛП, Компьютерная лингвистика, События | 2020 г. | [184] | Р. Кулкарни |
Набор данных заголовков новостей для обнаружения сарказма | Высококачественный набор данных с саркастическими и несаркастичными заголовками новостей. | Чистый, нормализованный текст | 26 709 | JSON | НЛП, Классификация, Лингвистика | 2018 г. | [185] | Ришаб Мишра |
Сообщения [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных электронной почты Enron | Электронные письма от сотрудников Enron, упорядоченные по папкам. | Вложения удалены, неверные адреса электронной почты преобразованы в [email protected] или [email protected]. | ~ 500 000 | Текст | Сетевой анализ , анализ настроений | 2004 (2015) | [186] [187] | Климт, Б. и Ю. Ян |
Набор данных Ling-Spam | Корпус, содержащий как законные, так и спам- сообщения. | Четыре версии корпуса с указанием того, был ли включен лемматайзер или стоп-лист. | 2,412 Ham 481 Спам | Текст | Классификация | 2000 г. | [188] [189] | Androutsopoulos, J. et al. |
Набор данных сбора SMS-спама | Собранные SMS-спам-сообщения. | Никто. | 5 574 | Текст | Классификация | 2011 г. | [190] [191] | T. Almeida et al. |
Набор данных "Двадцать групп новостей" | Сообщения из 20 разных групп новостей. | Никто. | 20 000 | Текст | Обработка естественного языка | 1999 г. | [192] | T. Mitchell et al. |
Набор данных Spambase | Спам-письма. | Извлечено много текстовых функций. | 4 601 | Текст | Обнаружение спама, классификация | 1999 г. | [193] | M. Hopkins et al. |
Набор данных ColBERT | Короткие анекдоты. | Выбросы удалены. | 200 000 | Текст | Обнаружение юмора, классификация | 2020 г. | [194] | I. Annamoradnejad. |
Твиттер и твиты [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Фильм Твиты | Набор данных рейтинга фильмов на основе публичных и хорошо структурированных твитов | ~ 710 000 | Текст | Классификация, регрессия | 2018 г. | [195] | С. Дума | |
Twitter100k | Пары изображений и твитов | 100 000 | Текст и изображения | Кросс-медиа поиск | 2017 г. | [196] [197] | Y. Hu, et al. | |
Настроение140 | Данные твита за 2009 год, включая исходный текст, отметку времени, пользователя и настроения. | Классифицируется с помощью дистанционного наблюдения из-за наличия смайлика в твите. | 1 578 627 | Твиты, запятая, значения с разделителями | Анализ настроений | 2009 г. | [198] [199] | A. Go et al. |
Набор данных Twitter ASU | Сетевые данные Twitter, а не настоящие твиты. Показывает связи между большим количеством пользователей. | Никто. | 11316811 пользователей, 85 331 846 подключений | Текст | Кластеризация, анализ графиков | 2009 г. | [200] [201] | R. Zafarani et al. |
Социальные круги SNAP: база данных Twitter | Большие сетевые данные Twitter. | Особенности узлов, круги и сети эго. | 1,768,149 | Текст | Кластеризация, анализ графиков | 2012 г. | [202] [203] | J. McAuley et al. |
Набор данных Twitter для анализа настроений арабов | Арабские твиты. | Образцы помечаются вручную как положительные или отрицательные. | 2000 г. | Текст | Классификация | 2014 г. | [204] [205] | Н. Абдулла |
Жужжание в наборе данных социальных сетей | Данные из Twitter и Tom's Hardware. Этот набор данных посвящен конкретным темам, обсуждаемым на этих сайтах. | Данные отображаются в виде окон, чтобы пользователь мог попытаться предсказать события, приведшие к ажиотажу в социальных сетях. | 140 000 | Текст | Регрессия, Классификация | 2013 | [206] [207] | F. Kawala et al. |
Парафраз и семантическое сходство в Twitter (PIT) | Этот набор данных фокусируется на том, имеют ли твиты (почти) одинаковое значение / информацию или нет. Отмечено вручную. | токенизация, теги части речи и именованных сущностей | 18 762 | Текст | Регрессия, Классификация | 2015 г. | [208] [209] | Xu et al. |
Набор данных Geoparse для Twitter | Этот набор данных содержит твиты во время различных новостных событий в разных странах. Упоминания местоположения, помеченные вручную. | аннотации местоположения добавлены в метаданные JSON | 6 386 | Твиты, JSON | Классификация, извлечение информации | 2014 г. | [210] [211] | SE Middleton et al. |
Коллекция голландских социальных сетей | Этот набор данных содержит твиты о Covid-19, сделанные носителями голландского языка или пользователями из Нидерландов. Данные были машинно-аннотированы | классифицируется по настроениям, текст твита и описание пользователя переведены на английский язык. Упоминания отрасли извлечены | 271 342 | JSONL | Тональность, классификация по нескольким меткам, машинный перевод | 2020 г. | [212] [213] [214] | Ааакш Гупта, Корона |
Диалоги [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Корпус чата NPS | Сообщения из онлайн-чатов для разных возрастных категорий. | Конфиденциальность рук замаскирована, помечена для части речи и диалогового акта. | ~ 500 000 | XML | НЛП, программирование, лингвистика | 2007 г. | [215] | Форсайт, Э., Лин, Дж., И Мартелл, К. |
Twitter Triple Corpus | ABA троек, извлеченных из Twitter. | 4232 | Текст | НЛП | 2016 г. | [216] | Сордини, А. и др. | |
UseNet Corpus | Сообщения на форуме UseNet. | Анонимные электронные письма и URL-адреса. Пропущенные документы с длиной <500 слов или> 500 000 слов, или которые были <90% на английском языке. | 7 миллиардов | Текст | 2011 г. | [217] | Шауль К. и Уэстбери К. | |
NUS SMS Corpus | SMS-сообщения, собранные между двумя пользователями, с временным анализом. | ~ 10 000 | XML | НЛП | 2011 г. | [218] | КАН, М | |
Reddit Корпус всех комментариев | Все комментарии Reddit (по состоянию на 2015 год). | ~ 1,7 миллиарда | JSON | НЛП, исследования | 2015 г. | [219] | Застрявший в матрице | |
Корпус диалогов Ubuntu | Диалоги, извлеченные из потока чата Ubuntu в IRC. | CSV | Исследование диалоговых систем | 2015 г. | [220] | Lowe, R. et al. | ||
Задача отслеживания состояния диалога | Задачи отслеживания состояния диалогов 2 и 3 (DSTC2 и 3) были исследовательскими задачами, направленными на улучшение современного состояния отслеживания состояния речевых диалоговых систем. | Транскрипция разговорных диалогов с пометкой | DSTC2 содержит ~ 3,2 тыс. Вызовов - DSTC3 содержит ~ 2,3 тыс. Вызовов | Json | Отслеживание состояния диалога | 2014 г. | [221] | Хендерсон, Мэтью и Томсон, Блейз и Уильямс, Джейсон Д. |
Другой текст [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Web of Science | Иерархические наборы данных для классификации текста | Никто. | 46985 | Текст | Классификация, Категоризация | 2017 г. | [222] [223] | K. Kowsari et al. |
Отчеты по судебным делам | Федеральный суд Австралии по делам с 2006 по 2009 год. | Никто. | 4 000 | Текст | Обобщение, анализ цитирования | 2012 г. | [224] [225] | F. Galgani et al. |
Корпус авторов Blogger | Записи в блогах 19 320 человек с blogger.com. | Блогер сам указал пол, возраст, отрасль и знак зодиака. | 681 288 | Текст | Анализ тональности, обобщение, классификация | 2006 г. | [226] [227] | J. Schler et al. |
Социальная структура сетей Facebook | Большой набор данных социальной структуры Facebook. | Никто. | 100 колледжей покрыты | Текст | Сетевой анализ, кластеризация | 2012 г. | [228] [229] | A. Traud et al. |
Набор данных для машинного понимания текста | Рассказы и связанные вопросы для проверки понимания текста. | Никто. | 660 | Текст | Обработка естественного языка, машинное понимание | 2013 | [230] [231] | M. Richardson et al. |
Проект Penn Treebank | Естественный текст с аннотациями для лингвистической структуры. | Текст разбирается на семантические деревья. | ~ 1 млн слов | Текст | Обработка естественного языка, реферирование | 1995 г. | [232] [233] | M. Marcus et al. |
Набор данных DEXTER | Данная задача состоит в том, чтобы определить по приведенным характеристикам, какие статьи посвящены корпоративным поглощениям. | Извлеченные элементы включают основы слов. Включены функции дистрактора. | 2600 | Текст | Классификация | 2008 г. | [234] | Рейтер |
N-граммы Google Книги | N-граммы из очень большого корпуса книг | Никто. | 2,2 ТБ текста | Текст | Классификация, кластеризация, регрессия | 2011 г. | [235] [236] | |
Personae Corpus | Собрано для экспериментов по атрибуции авторства и прогнозированию личности. Состоит из 145 эссе на голландском языке. | Помимо обычных текстов даются синтаксически аннотированные тексты. | 145 | Текст | Классификация, регрессия | 2008 г. | [237] [238] | K. Luyckx et al. |
Набор данных CNAE-9 | Задача категоризации для произвольных текстовых описаний бразильских компаний. | Частота слова была извлечена. | 1080 | Текст | Классификация | 2012 г. | [239] [240] | P. Ciarelli et al. |
Набор данных предложений с пометкой | 3000 сантиментов помечены предложениями. | Тональность каждого предложения была помечена вручную как положительная или отрицательная. | 3000 | Текст | Классификация, анализ настроений | 2015 г. | [241] [242] | Д. Котзиас |
BlogFeedback Dataset | Набор данных для прогнозирования количества комментариев к сообщению на основе характеристик этого сообщения. | Извлечены многие особенности каждого сообщения. | 60 021 | Текст | Регресс | 2014 г. | [243] [244] | К. Буза |
Корпус Stanford Natural Language Inference (SNLI) Corpus | Подписи к изображениям, сопоставленные с вновь построенными предложениями, образуют следствие, противоречие или нейтральные пары. | Метки класса Entailment, синтаксический анализ парсером Stanford PCFG | 570 000 | Текст | Логический вывод на естественном языке / распознавание текстового следования | 2015 г. | [245] | S. Bowman et al. |
Коллекция DSL Corpus (DSLCC) | Многоязычный сборник коротких отрывков журналистских текстов на схожих языках и диалектах. | Никто | 294 000 фраз | Текст | Различение похожих языков | 2017 г. | [246] | Тан, Лилинг и др. |
Набор данных городского словаря | Корпус слов, голосов и определений | Имена пользователей анонимны | 2 580 925 | CSV | НЛП, Машинное понимание | 2016 май | [247] | Анонимный |
T-REx | Резюме Википедии, согласованные с объектами Викиданных | Согласование троек Викиданных с выдержками из Википедии | 11M троек совмещенных | JSON и NIF [2] | НЛП, Извлечение отношений | 2018 г. | [248] | H. Elsahar et al. |
Оценка общего понимания языка (GLUE) | Бенчмарк из девяти задач | Разные | ~ 1 млн предложений и пар предложений | NLU | 2018 г. | [249] [250] | Wang et al. | |
Contract Understanding Atticus Dataset (CUAD) (ранее известный как Atticus Open Contract Dataset (AOK)) | Набор юридических договоров с обширными экспертными аннотациями | ~ 13 000 этикеток | CSV и PDF | Обработка естественного языка, QnA | 2021 г. | Проект Аттикус | ||
Набор данных вьетнамских подписей к изображениям (UIT-ViIC) | Набор данных вьетнамских подписей к изображениям | 19250 подписей к 3850 изображениям | CSV и PDF | Обработка естественного языка, Компьютерное зрение | 2020 г. | [251] | Лам и др. | |
Вьетнамские имена с указанием пола (UIT-ViNames) | Вьетнамские имена с указанием пола | 26850 вьетнамских полных имен с указанием пола | CSV | Обработка естественного языка | 2020 г. | [252] | To et al. | |
Вьетнамский набор данных по обнаружению конструктивной и токсичной речи (UIT-ViCTSD) | Вьетнамский набор данных по обнаружению конструктивной и токсичной речи | 10 000 комментариев вьетнамских пользователей к онлайн-газетам на 10 доменах | CSV | Обработка естественного языка | 2021 г. | [253] | Nguyen et al. |
Звуковые данные [ править ]
Наборы звуков и звуковых характеристик.
Речь [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Вызов речи с нулевым ресурсом 2015 | Спонтанная речь (английский), Речь чтения (Xitsonga). | необработанный WAV | Английский язык: 5 часов, 12 говорящих; Сицонга: 2:30; 24 спикера | звук | Неконтролируемое обнаружение речевых характеристик / подсловных единиц / словарных единиц | 2015 г. | [254] [255] | Versteegh et al. |
Набор данных о речи Паркинсона | Множественные записи людей с болезнью Паркинсона и без нее. | Голосовые функции извлечены, болезнь оценивается врачом с использованием единой шкалы оценки болезни Паркинсона. | 1,040 | Текст | Классификация, регрессия | 2013 | [256] [257] | BE Sakar et al. |
Разговорные арабские цифры | Разговорные арабские цифры от 44 мужчин и 44 женщин. | Временные ряды коэффициентов мел-частотного кепстра . | 8 800 | Текст | Классификация | 2010 г. | [258] [259] | M. Bedda et al. |
Набор данных ISOLET | Разговорные имена букв. | Особенности извлечены из звуков. | 7797 | Текст | Классификация | 1994 г. | [260] [261] | R. Cole et al. |
Набор данных японских гласных | Девять говорящих-мужчин произнесли последовательно по две гласные на японском языке. | Применил к нему 12-градусный линейный прогнозный анализ, чтобы получить дискретный временной ряд с 12 коэффициентами кепстра. | 640 | Текст | Классификация | 1999 г. | [262] [263] | M. Kudo et al. |
Набор данных телемониторинга Паркинсона | Множественные записи людей с болезнью Паркинсона и без нее. | Звуковые особенности извлечены. | 5875 | Текст | Классификация | 2009 г. | [264] [265] | A. Tsanas et al. |
ТИМИТ | Записи 630 человек, говорящих на восьми основных диалектах американского английского, каждый из которых читает десять предложений с богатым фонетическим звучанием. | Речь транскрибируется лексически и фонематически. | 6300 | Текст | Распознавание речи, классификация. | 1986 г. | [266] [267] | J. Garofolo et al. |
Корпус арабской речи | Речевой корпус на современном стандартном арабском языке (MSA) с одним говорящим и фонетическими и орфографическими расшифровками, выровненными на уровне фонем. | Речь орфографически и фонетически расшифровывается с ударением. | ~ 1900 | Текст, WAV | Синтез речи, распознавание речи, выравнивание корпуса, логопедия, образование. | 2016 г. | [268] | Н. Халаби |
Общий голос | Общедоступная база данных краудсорсинговых данных по широкому спектру диалектов. | Проверка другими пользователями | Английский: 1118 часов | MP3 с соответствующими текстовыми файлами | Распознавание речи | Июнь 2017 (декабрь 2019) | [269] | Mozilla |
Музыка [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Географическое происхождение набора музыкальных данных | Аудио особенности музыкальных образцов из разных мест. | Аудио функции, извлеченные с помощью программного обеспечения MARSYAS. | 1,059 | Текст | Географическая классификация, кластеризация | 2014 г. | [270] [271] | F. Zhou et al. |
Набор данных "Миллион песен" | Аудио особенности из миллиона различных песен. | Аудио функции извлечены. | 1 млн | Текст | Классификация, кластеризация | 2011 г. | [272] [273] | T. Bertin-Mahieux et al. |
MUSDB18 | Многодорожечные записи популярной музыки | Необработанный звук | 150 | MP4, WAV | Разделение источников | 2017 г. | [274] | Z. Rafii et al. |
Бесплатный Музыкальный Архив | Аудио по лицензии Creative Commons из 100 тыс. Песен (343 дня, 1 ТиБ) с иерархией из 161 жанра, метаданных, пользовательских данных, текста произвольной формы. | Необработанный звук и аудио особенности. | 106 574 | Текст, MP3 | Классификация, рекомендации | 2017 г. | [275] | M. Defferrard et al. |
Набор данных хоровой гармонии Баха | Бах хоральные аккорды. | Аудио функции извлечены. | 5665 | Текст | Классификация | 2014 г. | [276] [277] | D. Radicioni et al. |
Другие звуки [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
UrbanSound | Маркированные звукозаписи звуков кондиционеров, автомобильных гудков и игр детей. | Сортировка по папкам по классу событий, а также по метаданным в файле JSON и аннотациям в файле CSV. | 1,059 | Звук ( WAV ) | Классификация | 2014 г. | [278] [279] | J. Salamon et al. |
AudioSet | 10-секундные звуковые фрагменты из видеороликов YouTube и онтология более 500 лейблов. | 128-d PCA'd VGG-ish показывает каждую 1 секунду. | 2,084,320 | Текстовые (CSV) и файлы записей TensorFlow | Классификация | 2017 г. | [280] | Дж. Геммеке и др., Google |
Задача по обнаружению звука птиц | Аудио со станций мониторинга окружающей среды, а также записи из краудсорсинга | 17 000+ | Классификация | 2016 (2018) | [281] [282] | Университет Королевы Марии и Общество обработки сигналов IEEE | ||
Смеси для хипстеров WSJ0 Ambient | Звук с WSJ0 смешанный с шумом, записанный в районе залива Сан-Франциско | Шумовые клипы соответствуют клипам WSJ0 | 28 000 | Звук ( WAV ) | Разделение источников звука | 2019 г. | [283] | Wichern, G., et al., Whisper and MERL |
Clotho | 4981 аудиосэмпл продолжительностью от 15 до 30 секунд, каждый аудиосэмпл имеет пять различных заголовков длиной от 8 до 20 слов. | 24 905 | Звук ( WAV ) и текст ( CSV ) | Автоматические субтитры | 2020 г. | [284] [285] | К. Дроссос, С. Липпинг, Т. Виртанен |
Данные сигнала [ редактировать ]
Наборы данных, содержащие информацию об электрическом сигнале, требующую некоторой обработки сигнала для дальнейшего анализа.
Электрооборудование [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных остроумного червя | Набор данных с подробным описанием распространения червя Witty и зараженных компьютеров. | Разделить на общедоступный набор и ограниченный набор, содержащий более конфиденциальную информацию, такую как заголовки IP и UDP. | 55 909 IP-адресов | Текст | Классификация | 2004 г. | [286] [287] | Центр прикладного анализа интернет-данных |
Набор данных для оценки артериального давления без манжеты | Очищенные жизненные сигналы пациентов-людей, которые можно использовать для оценки артериального давления. | Очищены показатели жизненно важных функций 125 Гц. | 12 000 | Текст | Классификация, регрессия | 2015 г. | [288] [289] | M. Kachuee et al. |
Набор данных дрейфа матрицы газовых сенсоров | Измерения от 16 химических датчиков, используемых в моделировании для компенсации дрейфа. | Предоставляется большое количество функций. | 13 910 | Текст | Классификация | 2012 г. | [290] [291] | А. Вергара |
Набор сервоприводов | Данные, охватывающие нелинейные отношения, наблюдаемые в цепи сервоусилителя. | Приведены уровни различных компонентов в зависимости от других компонентов. | 167 | Текст | Регресс | 1993 г. | [292] [293] | К. Ульрих |
Набор данных UJIIndoorLoc-Mag | База данных локализации в помещении для тестирования систем позиционирования в помещении. Данные основаны на магнитном поле. | Даны тренировочные и тестовые шпагаты. | 40 000 | Текст | Классификация, регрессия, кластеризация | 2015 г. | [294] [295] | D. Rambla et al. |
Набор данных диагностики бессенсорного привода | Электрические сигналы от двигателей с неисправными компонентами. | Статистические характеристики извлечены. | 58 508 | Текст | Классификация | 2015 г. | [296] [297] | М. Батор |
Отслеживание движения [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Носимые компьютеры: классификация поз и движений тела (PUC-Rio) | Люди, выполняющие пять стандартных действий в трекерах движения. | Никто. | 165 632 | Текст | Классификация | 2013 | [298] [299] | Папский католический университет Рио-де-Жанейро |
Набор данных сегментации фазы жеста | Особенности, извлеченные из видео, в котором люди делают различные жесты. | Извлеченные функции направлены на изучение сегментации жестов по фазам. | 9900 | Текст | Классификация, кластеризация | 2014 г. | [300] [301] | Р. Мадео и др. |
Набор данных Vicon Physical Action | 10 обычных и 10 агрессивных физических действий, которые измеряют активность человека, отслеживаемую 3D-трекером. | Многие параметры записываются 3D-трекером. | 3000 | Текст | Классификация | 2011 г. | [302] [303] | Т. Теодоридис |
Набор данных о ежедневных и спортивных мероприятиях | Данные датчика двигателя для 19 ежедневных и спортивных занятий. | Дано много датчиков, без предварительной обработки сигналов. | 9120 | Текст | Классификация | 2013 | [304] [305] | Б. Баршан и др. |
Распознавание человеческой деятельности с использованием набора данных смартфонов | Данные гироскопа и акселерометра от людей, носящих смартфоны и выполняющих обычные действия. | Выполняемые действия помечаются, все сигналы предварительно обрабатываются на предмет помех. | 10 299 | Текст | Классификация | 2012 г. | [306] [307] | J. Reyes-Ortiz et al. |
Знаки на австралийском языке жестов | Знаки австралийского языка жестов, снятые перчатками для отслеживания движения. | Никто. | 2565 | Текст | Классификация | 2002 г. | [308] [309] | М. Кадус |
Упражнения по поднятию тяжестей, контролируемые инерциальными измерительными приборами | Пять вариантов упражнения на сгибание бицепса под контролем ИДУ. | Некоторая статистика рассчитана на основе необработанных данных. | 39 242 | Текст | Классификация | 2013 | [310] [311] | В. Угулино и др. |
sEMG для базового набора данных движений руки | Две базы данных поверхностных электромиографических сигналов 6 движений рук. | Никто. | 3000 | Текст | Классификация | 2014 г. | [312] [313] | C. Sapsanis et al. |
Набор данных распознавания активности REALDISP | Оценить методы, связанные с эффектами смещения сенсора при распознавании активности носимых устройств. | Никто. | 1419 | Текст | Классификация | 2014 г. | [313] [314] | O. Banos et al. |
Набор данных распознавания неоднородности | Данные с нескольких различных интеллектуальных устройств для людей, выполняющих различные действия. | Никто. | 43 930 257 | Текст | Классификация, кластеризация | 2015 г. | [315] [316] | A. Stisen et al. |
Прогнозирование движения пользователей внутри помещений на основе данных RSS | Временные данные беспроводной сети, которые можно использовать для отслеживания передвижения людей в офисе. | Никто. | 13 197 | Текст | Классификация | 2016 г. | [317] [318] | Д. Баччу |
Набор данных мониторинга физической активности PAMAP2 | 18 различных видов физических нагрузок, выполненных 9 субъектами с 3-мя IMU. | Никто. | 3,850,505 | Текст | Классификация | 2012 г. | [319] | А. Рейсс |
ВОЗМОЖНОСТЬ Набор данных распознавания действий | Распознавание человеческой активности с помощью носимых, объектных и внешних датчиков - это набор данных, разработанный для тестирования алгоритмов распознавания человеческой активности. | Никто. | 2551 | Текст | Классификация | 2012 г. | [320] [321] | D. Roggen et al. |
Набор данных распознавания активности в реальном мире | Распознавание человеческой деятельности с носимых устройств. Различает семь положений устройства на теле и содержит шесть различных типов датчиков. | Никто. | 3 150 000 (на датчик) | Текст | Классификация | 2016 г. | [322] | T. Sztyler et al. |
Набор данных позы инсульта в реабилитации Торонто | 3D-оценка позы человека (Kinect) пациентов, перенесших инсульт, и здоровых участников, выполняющих набор задач с помощью робота для реабилитации после инсульта. | Никто. | 10 здоровых людей и 9 выживших после инсульта (3500-6000 кадров на человека) | CSV | Классификация | 2017 г. | [323] [324] [325] | Э. Долатабади и др. |
Корпус социальных контактов (CoST) | 7805 жестов - это 14 различных социальных жестов, выполненных 31 субъектом. Жесты выполнялись в трех вариантах: нежный, нормальный и грубый, на сетке датчика давления, обернутой вокруг руки манекена. | Выполненные сенсорные жесты сегментированы и помечены. | 7805 захватов жестов | CSV | Классификация | 2016 г. | [326] [327] | M. Jung et al. |
Другие сигналы [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных вина | Химический анализ вин, выращенных в одном регионе Италии, но полученных из трех разных сортов. | Дано 13 свойств каждого вина | 178 | Текст | Классификация, регрессия | 1991 г. | [328] [329] | М. Форина и соавт. |
Набор данных электростанции комбинированного цикла | Данные с различных датчиков на электростанции за 6 лет. | Никто | 9568 | Текст | Регресс | 2014 г. | [330] [331] | P. Tufekci et al. |
Физические данные [ править ]
Наборы данных из физических систем.
Физика высоких энергий [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных HIGGS | Моделирование столкновений ускорителей частиц методом Монте-Карло. | Дано 28 характеристик каждого столкновения. | 11 млн | Текст | Классификация | 2014 г. | [332] [333] [334] | Д. Уайтсон |
Набор данных HEPMASS | Моделирование столкновений ускорителей частиц методом Монте-Карло. Цель - отделить сигнал от шума. | Дано 28 характеристик каждого столкновения. | 10 500 000 | Текст | Классификация | 2016 г. | [333] [334] [335] | Д. Уайтсон |
Системы [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных гидродинамики яхты | Характеристики яхты в зависимости от размеров. | Для каждой яхты дано шесть характеристик. | 308 | Текст | Регресс | 2013 | [336] [337] | Р. Лопес |
Набор данных об ошибках выполнения роботов | 5 наборов данных, которые связаны с отказом роботов выполнять общие задачи. | Целочисленные функции, такие как измерения крутящего момента и других датчиков. | 463 | Текст | Классификация | 1999 г. | [338] | L. Seabra et al. |
Набор данных Pittsburgh Bridges | Описание конструкции дано с точки зрения нескольких свойств различных мостов. | Приведены различные характеристики моста. | 108 | Текст | Классификация | 1990 г. | [339] [340] | Y. Reich et al. |
Автомобильный набор данных | Данные об автомобилях, их страховом риске и нормированных убытках. | Характеристики автомобиля извлечены. | 205 | Текст | Регресс | 1987 г. | [341] [342] | J. Schimmer et al. |
Автоматический набор данных MPG | Данные MPG для автомобилей. | Дано восемь характеристик каждой машины. | 398 | Текст | Регресс | 1993 г. | [343] | Университет Карнеги Меллон |
Набор данных по энергоэффективности | Требования к отоплению и охлаждению даны в зависимости от параметров здания. | Приведены параметры строительства. | 768 | Текст | Классификация, регрессия | 2012 г. | [344] [345] | A. Xifara et al. |
Набор данных самошума аэродинамического профиля | Серия аэродинамических и акустических испытаний двух- и трехмерных профилей лопастей. | Приведены данные о частоте, угле атаки и т. Д. | 1503 | Текст | Регресс | 2014 г. | [346] | Р. Лопес |
Набор данных уплотнительных колец для космического челнока Challenger USA | Попытка предсказать проблемы с уплотнительным кольцом на основе прошлых данных Challenger. | Приведены некоторые характеристики каждого полета, такие как температура запуска. | 23 | Текст | Регресс | 1993 г. | [347] [348] | D. Draper et al. |
Набор данных Statlog (Shuttle) | Наборы данных космических челноков НАСА. | Дано девять функций. | 58 000 | Текст | Классификация | 2002 г. | [349] | НАСА |
Астрономия [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Вулканы на Венере - набор данных эксперимента JARtool | Изображения Венеры, полученные космическим кораблем Magellan. | Изображения маркируются людьми. | не дано | Изображений | Классификация | 1991 г. | [350] [351] | М. Берл |
Набор данных MAGIC Gamma Telescope | Монте-Карло генерировал события с высокоэнергетическими гамма-частицами. | Многочисленные особенности, извлеченные из моделирования. | 19 020 | Текст | Классификация | 2007 г. | [351] [352] | Р. Бок |
Набор данных о солнечных вспышках | Измерения количества определенных типов солнечных вспышек за 24-часовой период. | Приведены многие особенности солнечных вспышек. | 1389 | Текст | Регрессия, классификация | 1989 г. | [353] | Г. Брэдшоу |
Науки о Земле [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Вулканы мира | Данные об извержениях вулканов для всех известных вулканических событий на Земле. | Приведены такие детали, как регион, подобласть, тектоническая обстановка, доминирующий тип породы. | 1535 | Текст | Регрессия, классификация | 2013 | [354] | E. Venzke et al. |
Набор данных сейсмических ударов | Сейсмические работы на угольной шахте. | Сейсмическая активность была классифицирована как опасная или нет. | 2584 | Текст | Классификация | 2013 | [355] [356] | M. Sikora et al. |
Другое физическое [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных прочности бетона на сжатие | Набор данных свойств бетона и прочности на сжатие. | Для каждого образца даны девять характеристик. | 1030 | Текст | Регресс | 2007 г. | [357] [358] | I. Yeh |
Набор данных испытаний на просадку бетона | Осадочная текучесть бетона дана с точки зрения свойств. | Характеристики данного бетона, такие как зола, вода и т. Д. | 103 | Текст | Регресс | 2009 г. | [359] [360] | I. Yeh |
Набор данных Musk | С учетом характеристик предскажите, будет ли молекула мускусной или немускусной. | Для каждой молекулы дано 168 характеристик. | 6598 | Текст | Классификация | 1994 г. | [361] | Arris Pharmaceutical Corp. |
Набор данных о неисправностях стальных пластин | Стальные пластины 7 разных типов. | Для каждого образца дано 27 характеристик. | 1941 г. | Текст | Классификация | 2010 г. | [362] | Исследовательский центр Семейона |
Биологические данные [ править ]
Наборы данных из биологических систем.
Человек [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
База данных ЭЭГ | Исследование для изучения коррелятов ЭЭГ генетической предрасположенности к алкоголизму. | Измерения от 64 электродов, размещенных на коже головы, с частотой 256 Гц (период 3,9 мс) в течение 1 секунды. | 122 | Текст | Классификация | 1999 г. | [363] | Х. Беглейтер |
Набор данных интерфейса P300 | Данные девяти субъектов собраны с использованием интерфейса мозг-компьютер на базе P300 для субъектов с ограниченными возможностями. | Разделитесь на четыре занятия по каждому предмету. Приведен код MATLAB . | 1,224 | Текст | Классификация | 2008 г. | [364] [365] | У. Хоффман и др. |
Набор данных о сердечных заболеваниях | Относится к пациентам с сердечными заболеваниями и без них. | Для каждого пациента дано 75 атрибутов с некоторыми пропущенными значениями. | 303 | Текст | Классификация | 1988 г. | [366] [367] | A. Janosi et al. |
Набор данных рака молочной железы, штат Висконсин (диагностический) | Набор данных об особенностях образования груди. Диагноз ставит врач. | Дано 10 характеристик для каждого образца. | 569 | Текст | Классификация | 1995 г. | [368] [369] | W. Wolberg et al. |
Национальное исследование употребления наркотиков и здоровья | Крупномасштабное исследование здоровья и употребления наркотиков в США. | Никто. | 55 268 | Текст | Классификация, регрессия | 2012 г. | [370] | Министерство здравоохранения и социальных служб США |
Набор данных рака легких | Набор данных рака легких без определений атрибутов | 56 функций даны для каждого случая | 32 | Текст | Классификация | 1992 г. | [371] [372] | Z. Hong et al. |
Набор данных аритмии | Данные для группы пациентов, у некоторых из которых есть сердечная аритмия. | 276 функций для каждого экземпляра. | 452 | Текст | Классификация | 1998 г. | [373] [374] | H. Altay et al. |
Диабет 130 больниц в США за 1999–2008 гг. | Данные о повторной госпитализации за 9 лет в 130 больницах США для пациентов с диабетом. | Приведены многие особенности каждой реадмиссии. | 100 000 | Текст | Классификация, кластеризация | 2014 г. | [375] [376] | J. Clore et al. |
Набор данных о диабетической ретинопатии в Дебрецене | Характеристики, извлеченные из изображений глаз с диабетической ретинопатией и без нее. | Извлечены признаки и диагностированы состояния. | 1151 | Текст | Классификация | 2014 г. | [377] [378] | B. Antal et al. |
Набор данных Мессидора о диабетической ретинопатии | Методы оценки сегментации и техники индексации в области офтальмологии сетчатки (MESSIDOR) | Особенности степени ретинопатии и риска отека желтого пятна | 1200 | Изображения, текст | Классификация, сегментация | 2008 г. | [379] [380] | Мессидор проект |
Набор данных заболеваний печени | Данные для людей с заболеваниями печени. | Каждому пациенту дано семь биологических характеристик. | 345 | Текст | Классификация | 1990 г. | [381] [382] | Bupa Medical Research Ltd. |
Набор данных о заболеваниях щитовидной железы | 10 баз данных о пациентах с заболеваниями щитовидной железы. | Никто. | 7200 | Текст | Классификация | 1987 г. | [383] [384] | Р. Куинлан |
Набор данных мезотелиомы | Данные пациентов с мезотелиомой. | Приведено большое количество характеристик, включая воздействие асбеста. | 324 | Текст | Классификация | 2016 г. | [385] [386] | A. Tanrikulu et al. |
Набор данных оценки позы Паркинсона на основе зрения | Двухмерные оценки позы человека у пациентов с болезнью Паркинсона, выполняющих различные задачи. | Из траекторий убрано дрожание камеры. | 134 | Текст | Классификация, регрессия | 2017 г. | [387] [388] [389] | M. Li et al. |
Набор данных сети метаболических реакций KEGG (неориентированный) | Сеть метаболических путей. Даны сеть реакций и сеть отношений . | Даны подробные характеристики для каждого сетевого узла и пути. | 65 554 | Текст | Классификация, кластеризация, регрессия | 2011 г. | [390] | M. Naeem et al. |
Модифицированный набор данных анализа морфологии спермы человека (MHSMA) | Изображения человеческой спермы от 235 пациентов с мужским бесплодием, помеченные как нормальные или аномальные акросомы сперматозоидов, голова, вакуоль и хвост. | Обрезано вокруг головки одного сперматозоида. Увеличение нормализованное. Созданы разделы для обучения, проверки и тестирования. | 1,540 | файлы .npy | Классификация | 2019 г. | [391] [392] | С. Джавади и С.А. Миррошандель |
Животное [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Abalone | Физические измерения Abalone. Также указаны погодные условия и местоположение. | Никто. | 4177 | Текст | Регресс | 1995 г. | [393] | Лаборатории морских исследований - Тарона |
Набор данных зоопарка | Искусственный набор данных, охватывающий 7 классов животных. | Животные подразделяются на 7 категорий, каждая из которых имеет характеристики. | 101 | Текст | Классификация | 1990 г. | [394] | Р. Форсайт |
Набор данных Demospongiae | Данные о морских губках. | Губки 503 класса Demosponge описываются различными характеристиками. | 503 | Текст | Классификация | 2010 г. | [395] | Э. Арменгол и соавт. |
Набор данных последовательностей генов сплайс-стыков | Последовательности генов сплайс-соединений (ДНК) приматов с теорией связанных несовершенных доменов. | Никто. | 3190 | Текст | Классификация | 1992 г. | [372] | G. Towell et al. |
Набор данных экспрессии белка у мышей | Уровни экспрессии 77 белков измерены в коре головного мозга мышей. | Никто. | 1080 | Текст | Классификация, кластеризация | 2015 г. | [396] [397] | C. Higuera et al. |
Грибы [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных грибов UCI | Признаки и классификация грибов. | Приведены многие свойства каждого гриба. | 8124 | Текст | Классификация | 1987 г. | [398] | Дж. Шлиммер |
Вторичный набор данных грибов | Признаки и классификация грибов | Смоделированные данные из более крупных и реалистичных первичных грибов. Полностью воспроизводимый. | 61069 | Текст | Классификация | 2020 г. | [399] [400] | D. Wagner et al. |
Завод [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о лесных пожарах | Лесные пожары и их свойства. | Выделено 13 характеристик каждого пожара. | 517 | Текст | Регресс | 2008 г. | [401] [402] | P. Cortez et al. |
Набор данных Iris | Три типа ирисов описываются 4 различными признаками. | Никто. | 150 | Текст | Классификация | 1936 г. | [403] [404] | Р. Фишер |
Набор данных листьев растений | Шестнадцать образцов листа каждого из ста видов растений. | Приведены дескриптор формы, мелкомасштабная граница и гистограммы текстуры. | 1600 | Текст | Классификация | 2012 г. | [405] [406] | J. Cope et al. |
Набор данных сои | База данных больных растений сои. | Дано 35 характеристик для каждого растения. Растения делятся на 19 категорий. | 307 | Текст | Классификация | 1988 г. | [407] | R. Michalski et al. |
Набор данных семян | Измерения геометрических свойств зерен трех различных сортов пшеницы. | Никто. | 210 | Текст | Классификация, кластеризация | 2012 г. | [408] [409] | Charytanowicz et al. |
Набор данных Covertype | Данные для прогнозирования типа лесного покрова строго по картографическим переменным. | Приведены многие географические особенности. | 581 012 | Текст | Классификация | 1998 г. | [410] [411] | J. Blackard et al. |
Набор данных сети передачи сигналов абсцизовой кислоты | Данные для сети сигнализации завода. Цель состоит в том, чтобы определить набор правил, управляющих сетью. | Никто. | 300 | Текст | Причинное открытие | 2008 г. | [412] | J. Jenkens et al. |
Набор данных Folio | По 20 фото листьев для каждого из 32 видов. | Никто. | 637 | Изображения, текст | Классификация, кластеризация | 2015 г. | [413] [414] | T. Munisami et al. |
Набор данных Oxford Flower | 17 категорий данных цветов. | Разделение поездов / тестов, изображения с метками, | 1360 | Изображения, текст | Классификация | 2006 г. | [138] [415] | ME Nilsback et al. |
Набор данных саженцев растений | 12 категорийный набор саженцев растений. | Помеченные изображения, сегментированные изображения, | 5544 | Изображений | Классификация, обнаружение | 2017 г. | [416] | Giselsson et al. |
Набор данных Fruits 360 | База данных с изображениями 120 фруктов и овощей. | 100x100 пикселей, белый фон. | 82213 | Изображения (jpg) | Классификация | 2017-2019 гг. | [417] [418] | Михай Олтеан, Хореа Мурешан |
Микроб [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Ecoli | Сайты локализации белков. | Приведены различные особенности участков локализации белков. | 336 | Текст | Классификация | 1996 г. | [419] [420] | K. Nakai et al. |
Набор данных MicroMass | Идентификация микроорганизмов по данным масс-спектрометрии. | Различные функции масс-спектрометра. | 931 | Текст | Классификация | 2013 | [421] [422] | P. Mahe et al. |
Набор данных дрожжей | Предсказания клеточных сайтов локализации белков. | Восемь функций дано на каждый экземпляр. | 1484 | Текст | Классификация | 1996 г. | [423] [424] | K. Nakai et al. |
Открытие наркотиков [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Tox21 | Прогнозирование результатов биологических анализов. | Приведены химические дескрипторы молекул. | 12707 | Текст | Классификация | 2016 г. | [425] | A. Mayr et al. |
Данные аномалии [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Тест Numenta Anomaly Benchmark (NAB) | Данные упорядочены, имеют однозначные метрики с отметками времени. Все файлы данных содержат аномалии, если не указано иное. | Никто | 50+ файлов | Значения, разделенные запятыми | Обнаружение аномалий | 2016 (постоянно обновляется) | [426] | Numenta |
Сколтех Anomaly Benchmark (SKAB) | Каждый файл представляет собой один эксперимент и содержит одну аномалию. Набор данных представляет собой многомерный временной ряд, собранный с датчиков, установленных на испытательном стенде. | Есть две разметки для проблем обнаружения выбросов (точечные аномалии) и обнаружения точек изменения (коллективные аномалии). | 30+ файлов (v0.9) | Значения, разделенные запятыми | Обнаружение аномалий | 2020 (постоянно обновляется) | [427] [428] | Юрий Д. Кацер, Вячеслав О. Козицын |
Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование | Большинство файлов данных адаптированы из данных репозитория машинного обучения UCI, некоторые из них собраны из литературы. | обрабатываются отсутствующие значения, только числовые атрибуты, различный процент аномалий, метки | 1000+ файлов | ARFF | Обнаружение аномалий | 2016 г. (возможно, обновлен новыми наборами данных и / или результатами) | [429] | Campos et al. |
Данные для ответа на вопрос [ править ]
Этот раздел включает наборы данных, которые имеют дело со структурированными данными.
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных ответов на нейронные вопросы DBpedia (DBNQA) | Большая коллекция вопросов к SPARQL, специально разработанная для ответов на вопросы нейронных сетей открытого домена через базу знаний DBpedia. | Этот набор данных содержит большую коллекцию шаблонов и экземпляров Open Neural SPARQL для обучения машин Neural SPARQL; он был предварительно обработан полуавтоматическими инструментами аннотации, а также тремя экспертами SPARQL. | 894 499 | Пары вопрос-запрос | Ответ на вопрос | 2018 г. | [430] [431] | Хартманн, Сору, Маркс и др. |
Вьетнамский набор данных с ответами на вопросы (UIT-ViQuAD) | Большой сборник вьетнамских вопросов для оценки моделей MRC. | Этот набор данных включает более 23 000 пар вопросов и ответов, созданных человеком, на основе 5 109 отрывков из 174 вьетнамских статей из Википедии. | 23 074 | Пары вопрос-ответ | Ответ на вопрос | 2020 г. | [432] | Nguyen et al. |
Корпус вьетнамского языка с множественным выбором машинного чтения (ViMMRC) | Сборник вьетнамских вопросов с несколькими вариантами ответов для оценки моделей MRC. | Этот корпус включает 2783 вьетнамских вопроса с несколькими вариантами ответов. | 2783 | Пары вопрос-ответ | Ответы на вопросы / Машинное чтение | 2020 г. | [433] | Nguyen et al. |
Многовариантные данные [ править ]
Наборы данных, состоящие из строк наблюдений и столбцов атрибутов, характеризующих эти наблюдения. Обычно используется для регрессионного анализа или классификации, но могут использоваться и другие типы алгоритмов. В этот раздел входят наборы данных, не подходящие для вышеперечисленных категорий.
Финансовые [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Индекс Доу-Джонса | Еженедельные данные по запасам за первый и второй кварталы 2011 года. | К расчетным значениям относятся, например, изменение в процентах и задержка. | 750 | Значения, разделенные запятыми | Классификация, регрессия, Временные ряды | 2014 г. | [434] [435] | M. Brown et al. |
Statlog (одобрение кредита в Австралии) | Заявки на получение кредитной карты приняты или отклонены, а также указаны сведения о заявке. | Имена атрибутов удаляются, как и идентифицирующая информация. Факторы были переименованы. | 690 | Значения, разделенные запятыми | Классификация | 1987 г. | [436] [437] | Р. Куинлан |
данные аукциона eBay | Данные об аукционах с различных объектов eBay.com на аукционах разной длины | Содержит все ставки, bidderID, время ставок и цены открытия. | ~ 550 | Текст | Регрессия, классификация | 2012 г. | [438] [439] | G. Shmueli et al. |
Statlog (кредитные данные Германии) | Классификация бинарных кредитов на «хорошие» и «плохие» с множеством функций. | Приведены различные финансовые характеристики каждого человека. | 690 | Текст | Классификация | 1994 г. | [440] | Х. Хофманн |
Набор данных банковского маркетинга | Данные крупной маркетинговой кампании, проведенной крупным банком. | Приведены многие атрибуты клиентов, с которыми контактировал. Если клиент подписался на банк, тоже дается. | 45 211 | Текст | Классификация | 2012 г. | [441] [442] | S. Moro et al. |
Набор данных Стамбульской фондовой биржи | Несколько фондовых индексов отслеживались почти два года. | Никто. | 536 | Текст | Классификация, регрессия | 2013 | [443] [444] | О. Акбилджич |
Неисполнение клиентов кредитной карты | Данные о кредитных дефолтах тайваньских кредиторов. | Приведены различные особенности каждой учетной записи. | 30 000 | Текст | Классификация | 2016 г. | [445] [446] | I. Yeh |
Погода [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Cloud DataSet | Данные о 1024 различных облаках. | Особенности изображения извлечены. | 1024 | Текст | Классификация, кластеризация | 1989 г. | [447] | П. Коллард |
Набор данных Эль-Ниньо | Океанографические и приземные метеорологические данные сняты с серии буев, расположенных по всей экваториальной части Тихого океана. | У каждого буя измеряется 12 метеорологических атрибутов. | 178080 | Текст | Регресс | 1999 г. | [448] | Тихоокеанская лаборатория морской среды |
Набор данных сети наблюдения за парниковыми газами | Временные ряды концентраций парниковых газов в 2921 ячейке сетки в Калифорнии, созданные с использованием моделирования погоды. | Никто. | 2921 | Текст | Регресс | 2015 г. | [449] | Д. Лукас |
Атмосферный CO2 из непрерывных проб воздуха в обсерватории Мауна-Лоа | Непрерывные пробы воздуха на Гавайях, США. 44 года рекордов. | Никто. | 44 года | Текст | Регресс | 2001 г. | [450] | Обсерватория Мауна-Лоа |
Набор данных ионосферы | Радиолокационные данные из ионосферы. Задача состоит в том, чтобы разделить радарные сигналы на хорошие и плохие. | Приведено множество функций радара. | 351 | Текст | Классификация | 1989 г. | [384] [451] | Университет Джона Хопкинса |
Набор данных определения уровня озона | Два набора данных об уровне приземного озона. | Приведены многие характеристики, включая погодные условия на момент измерения. | 2536 | Текст | Классификация | 2008 г. | [452] [453] | K. Zhang et al. |
Перепись [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных для взрослых | Данные переписи 1994 года, содержащие демографические характеристики взрослых и их доходы. | Очищено и анонимно. | 48 842 | Значения, разделенные запятыми | Классификация | 1996 г. | [454] | Бюро переписи населения США |
Доход от переписи (KDD) | Взвешенные данные переписи из текущих обследований населения 1994 и 1995 годов . | Разделить на тренировочную и тестовую наборы. | 299 285 | Значения, разделенные запятыми | Классификация | 2000 г. | [455] [456] | Бюро переписи населения США |
База данных переписи IPUMS | Данные переписи населения в районах Лос-Анджелеса и Лонг-Бич. | Никто | 256 932 | Текст | Классификация, регрессия | 1999 г. | [457] | IPUMS |
Данные переписи населения США 1990 г. | Частичные данные переписи населения США 1990 года. | Результаты рандомизированы, а полезные атрибуты выбраны. | 2 458 285 | Текст | Классификация, регрессия | 1990 г. | [458] | Бюро переписи населения США |
Транспорт [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных для обмена велосипедами | Почасовой и посуточный счет проката велосипедов в большом городе. | Приведены многие характеристики, включая погоду, продолжительность поездки и т. Д. | 17 389 | Текст | Регресс | 2013 | [459] [460] | Х. Фанаи-Т |
Данные о поездках на такси Нью-Йорка | Данные о поездках желтых и зеленых такси в Нью-Йорке. | Предоставляет места получения и высадки, тарифы и другие детали поездок. | 6 лет | Текст | Классификация, кластеризация | 2015 г. | [461] | Комиссия по такси и лимузину Нью-Йорка |
Траектория службы такси ECML PKDD | Траектории всех такси в большом городе. | Приведено множество функций, включая точки начала и остановки. | 1 710 671 | Текст | Кластеризация, причинно-следственные связи | 2015 г. | [462] [463] | M. Ferreira et al. |
МЕТР-ЛА | Скорость от петлевых детекторов на шоссе округа Лос-Анджелес. | Средняя скорость с временными шагами 5 минут. | 7094304 из 207 датчиков и 34272 временных шага | Значения, разделенные запятыми | Регрессия, прогнозирование | 2014 г. | [464] | Jagadish et. al. |
PeMS | Скорость, поток, посещаемость и другие показатели от петлевых детекторов и других датчиков на автостраде штата Калифорния, США. | Метрика обычно агрегируется по среднему значению с временными шагами по 5 минут. | 39000 индивидуальных детекторов, каждый из которых содержит временные ряды за годы | Значения, разделенные запятыми | Регрессия, прогнозирование, прогнозирование текущей погоды, интерполяция | (обновлено в реальном времени) | [465] | Департамент транспорта Калифорнии |
Интернет [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Веб-страницы из Common Crawl 2012 | Большая коллекция веб-страниц и то, как они связаны гиперссылками | Никто. | 3,5 млрд | Текст | кластеризация, классификация | 2013 | [466] | В. Гранвиль |
Набор данных интернет-рекламы | Набор данных для прогнозирования, является ли данное изображение рекламой. | Функции кодируют геометрию объявлений и фраз, встречающихся в URL. | 3279 | Текст | Классификация | 1998 г. | [467] [468] | Н. Кушмерик |
Набор данных об использовании Интернета | Общая демография интернет-пользователей. | Никто. | 10 104 | Текст | Классификация, кластеризация | 1999 г. | [469] | Д. Кук |
Набор данных URL | Данные URL за 120 дней с большой конференции. | Приведены многие особенности каждого URL-адреса. | 2 396 130 | Текст | Классификация | 2009 г. | [470] [471] | Дж. Ма |
Набор данных фишинговых сайтов | Набор данных фишинговых сайтов. | Приведены многие особенности каждого сайта. | 2456 | Текст | Классификация | 2015 г. | [472] | Р. Мустафа и др. |
Набор данных для розничной торговли в Интернете | Онлайн-транзакции для британского интернет-магазина. | Приведена подробная информация о каждой транзакции. | 541 909 | Текст | Классификация, кластеризация | 2015 г. | [473] | Д. Чен |
Дамп простой темы Freebase | Freebase - это онлайн-попытка структурировать все человеческие знания. | Темы из Freebase были извлечены. | большой | Текст | Классификация, кластеризация | 2011 г. | [474] [475] | Freebase |
Набор данных Farm Ads | Текст фермерских объявлений с сайтов. Дается двоичное одобрение или неодобрение со стороны владельцев контента. | Рассчитаны разреженные векторы SVMlight текстовых слов в объявлениях. | 4143 | Текст | Классификация | 2011 г. | [476] [477] | C. Masterharm et al. |
Игры [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных покерных рук | 5 карт из стандартной колоды из 52 карт. | Приведены атрибуты каждой руки, в том числе руки в покере, образованные содержащимися в ней картами. | 1 025 010 | Текст | Регрессия, классификация | 2007 г. | [478] | Р. Каттраль |
Набор данных Connect-4 | Содержит все допустимые 8-слойные позиции в игре Connect-4, в которых ни один из игроков еще не выиграл и в которых следующий ход не является принудительным. | Никто. | 67 557 | Текст | Классификация | 1995 г. | [479] | Дж. Тромп |
Набор данных шахмат (король-ладья против короля) | База данных эндшпиля для белого короля и ладьи против черного короля. | Никто. | 28 056 | Текст | Классификация | 1994 г. | [480] [481] | M. Bain et al. |
Набор данных шахмат (король-ладья против королевской пешки) | Король + ладья против короля + пешка на a7. | Никто. | 3196 | Текст | Классификация | 1989 г. | [482] | Р. Хольте |
Набор данных эндшпиля крестики-нолики | Бинарная классификация условий выигрыша в крестики-нолики. | Никто. | 958 | Текст | Классификация | 1991 г. | [483] | Д. Ага |
Другой многовариантный [ править ]
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о жилье | Средняя стоимость дома в Бостоне с соответствующими атрибутами дома и района. | Никто. | 506 | Текст | Регресс | 1993 г. | [484] | D. Harrison et al. |
Словари Гетти | структурированная терминология для искусства и другой материальной культуры, архивные материалы, визуальные суррогаты и библиографические материалы. | Никто. | большой | Текст | Классификация | 2015 г. | [485] | Центр Гетти |
Yahoo! Первая страница модуля Сегодня пользователь нажимает журнал | Журнал кликов пользователя для новостных статей, отображаемых на вкладке "Интересные" модуля "Сегодня" на Yahoo! Титульная страница. | Сопряженный анализ с билинейной моделью. | 45 811 883 посещений пользователей | Текст | Регрессия, кластеризация | 2009 г. | [486] [487] | Чу и др. |
Британский центр океанографических данных | Биологические, химические, физические и геофизические данные океанов. Отслежено 22K переменных. | Разные. | 22K переменных, много экземпляров | Текст | Регрессия, кластеризация | 2015 г. | [488] | Британский центр океанографических данных |
Набор данных для голосования в Конгрессе | Данные о голосовании всех представителей США по 16 вопросам. | Помимо необработанных данных голосования, предоставляются различные другие функции. | 435 | Текст | Классификация | 1987 г. | [489] | Дж. Шлиммер |
Набор данных рекомендаций Entree Chicago | Запись взаимодействия пользователей с системой рекомендаций Entree Chicago. | Подробная информация об использовании приложения каждым пользователем записывается подробно. | 50 672 | Текст | Регресс, рекомендация | 2000 г. | [490] | Р. Берк |
Индекс страховых компаний (COIL 2000) | Информация о клиентах страховой компании. | Многие особенности каждого клиента и услуг, которые они используют. | 9 000 | Текст | Регрессия, классификация | 2000 г. | [491] [492] | П. ван дер Путтен |
Детский набор данных | Данные поступающих в детские сады. | Включены данные о семье заявителя и различных других факторах. | 12 960 | Текст | Классификация | 1997 г. | [493] [494] | V. Rajkovic et al. |
Набор данных университета | Данные, описывающие большое количество университетов. | Никто. | 285 | Текст | Кластеризация, классификация | 1988 г. | [495] | S. Sounders et al. |
Набор данных центра службы переливания крови | Данные сервисного центра переливания крови. Предоставляет данные о доходности доноров, частоте и т. Д. | Никто. | 748 | Текст | Классификация | 2008 г. | [496] [497] | I. Yeh |
Набор данных шаблонов сравнения связей записей | Большой набор данных записей. Задача - связать соответствующие записи вместе. | Процедура блокировки применяется для выбора только определенных пар записей. | 5,749,132 | Текст | Классификация | 2011 г. | [498] [499] | Университет Майнца |
Набор данных Nomao | Nomao собирает данные о местах из множества различных источников. Задача - обнаружить предметы, описывающие одно и то же место. | Дубликаты помечены. | 34 465 | Текст | Классификация | 2012 г. | [500] [501] | Nomao Labs |
Набор данных фильмов | Данные для 10 000 фильмов. | Дано несколько характеристик для каждого фильма. | 10 000 | Текст | Кластеризация, классификация | 1999 г. | [502] | Г. Видерхольд |
Набор данных аналитики обучения открытого университета | Информация об учениках и их взаимодействии с виртуальной учебной средой. | Никто. | ~ 30 000 | Текст | Классификация, кластеризация, регрессия | 2015 г. | [503] [504] | J. Kuzilek et al. |
Записи с мобильных телефонов | Телекоммуникационная деятельность и взаимодействие | Агрегация по ячейкам географической сетки и каждые 15 минут. | большой | Текст | Классификация, кластеризация, регрессия | 2015 г. | [505] | G. Barlacchi et al. |
Курируемые репозитории наборов данных [ править ]
Поскольку наборы данных имеют множество форматов и иногда их трудно использовать, была проделана значительная работа по разработке и стандартизации формата наборов данных, чтобы упростить их использование для исследований в области машинного обучения.
- OpenML: [506] Веб-платформа с Python, R, Java и другими API для загрузки сотен наборов данных машинного обучения, оценки алгоритмов на наборах данных и сравнения производительности алгоритмов с десятками других алгоритмов.
- PMLB: [507] Большой контролируемый репозиторий наборов контрольных данных для оценки алгоритмов контролируемого машинного обучения. Предоставляет наборы данных классификации и регрессии в стандартизированном формате, доступные через API Python.
- Metatext NLP: https://metatext.io/datasets веб-репозиторий, поддерживаемый сообществом, содержащий почти 1000 эталонных наборов данных и подсчет. Предоставляет множество задач, от классификации до контроля качества, и различные языки от английского, португальского до арабского.
- Appen : готовые наборы данных и наборы данных с открытым исходным кодом, размещенные и поддерживаемые компанией. Эти биологические, графические, физические, вопросы-ответы, сигнальные, звуковые, текстовые и видео ресурсы насчитывают более 250 и могут применяться в более чем 25 различных сценариях использования. [508] [509]
См. Также [ править ]
- Сравнение программного обеспечения для глубокого обучения
- Список инструментов ручного аннотирования изображений
- Список биологических баз данных
Ссылки [ править ]
- ^ Висснер-Гросс, А. "Наборы данных по алгоритмам" . Edge.com . Проверено 8 января +2016 .
- ^ Вайс, GM; Провост, Ф. (1 сентября 2003 г.). «Обучение при обучении данных стоит дорого: влияние распределения классов на индукцию дерева» . Журнал исследований искусственного интеллекта . Фонд AI Access. 19 : 315–354. DOI : 10.1613 / jair.1199 . ISSN 1076-9757 . S2CID 2344521 .
- ^ Терни, Питер (2000). «Типы затрат в индуктивном изучении концепций». arXiv : cs / 0212034 .
- ^ Abney, Стивен (17 сентября 2007). Полуавтоматическое обучение для компьютерной лингвистики . CRC Press. ISBN 978-1-4200-1080-0.
- ^ Жлиобайте, Индре; Бифет, Альберт; Пфарингер, Бернхард; Холмс, Джефф (2011). «Активное обучение с развивающимися потоковыми данными». Машинное обучение и открытие знаний в базах данных . Берлин, Гейдельберг: Springer Berlin Heidelberg. С. 597–612. DOI : 10.1007 / 978-3-642-23808-6_39 . ISBN 978-3-642-23807-9. ISSN 0302-9743 .
- ^ Zafeiriou, S .; Коллиас, Д .; Николау, Массачусетс; Papaioannou, A .; Zhao, G .; Коция, И. (2017). "Aff-Wild: валентность и возбуждение в дикой природе" (PDF) . Мастерские по компьютерному зрению и распознаванию образов (CVPRW), 2017 : 1980–1987. DOI : 10,1109 / CVPRW.2017.248 . ISBN 978-1-5386-0733-6. S2CID 3107614 .
- ^ Коллиас, Д .; Tzirakis, P .; Николау, Массачусетс; Papaioannou, A .; Zhao, G .; Schuller, B .; Kotsia, I .; Зафейриу, С. (2019). «Deep Affect Prediction in the wild: Aff-Wild Database and Challenge, Deep Architectures, and Beyond» . Международный журнал компьютерного зрения (IJCV), 2019 . 127 (6–7): 907–929. DOI : 10.1007 / s11263-019-01158-4 . S2CID 13679040 .
- ^ Коллиас, Д .; Зафейриу, С. (2019). «Выражение, аффект, распознавание единиц действия: Aff-wild2, многозадачное обучение и arcface» (PDF) . Британская конференция по машинному зрению (BMVC), 2019 . arXiv : 1910.04855 .
- ^ Коллиас, Д .; Schulc, A .; Гаджиев, Э .; Зафейриу, С. (2020). «Анализ аффективного поведения в первом конкурсе abaw 2020» . Международная конференция IEEE по автоматическому распознаванию лиц и жестов (FG), 2020 : 637–643. arXiv : 2001.11409 . DOI : 10.1109 / FG47880.2020.00126 . ISBN 978-1-7281-3079-8. S2CID 210966051 .
- ^ Филлипс, П. Джонатон; и другие. (1998). «База данных FERET и процедура оценки алгоритмов распознавания лиц». Вычисления изображений и зрения . 16 (5): 295–306. DOI : 10.1016 / s0262-8856 (97) 00070-X .
- ^ Вискотт, Лоренц; и другие. (1997). «Распознавание лиц путем сопоставления упругого сгустка графа». IEEE Transactions по анализу шаблонов и машинному анализу . 19 (7): 775–779. CiteSeerX 10.1.1.44.2321 . DOI : 10.1109 / 34.598235 .
- ^ Ливингстон, Стивен Р .; Руссо, Фрэнк А. (2018). «Аудиовизуальная база данных эмоциональной речи и песни Райерсона (RAVDESS): динамический, мультимодальный набор мимики и вокала на североамериканском английском» . PLOS ONE . 13 (5): e0196391. Bibcode : 2018PLoSO..1396391L . DOI : 10.1371 / journal.pone.0196391 . PMC 5955500 . PMID 29768426 .
- ^ Ливингстон, Стивен Р .; Руссо, Фрэнк А. (2018). «Эмоция». Аудиовизуальная база данных эмоциональной речи и песни Райерсона (RAVDESS) . DOI : 10.5281 / zenodo.1188976 .
- ^ Grgic, Мислав; Делак, Кресимир; Grgic, Соня (2011). «SCface - база данных по лицам камер наблюдения». Мультимедийные инструменты и приложения . 51 (3): 863–879. DOI : 10.1007 / s11042-009-0417-2 . S2CID 207218990 .
- ^ Уоллес, Рой и др. « Моделирование межсессионной изменчивости и совместный факторный анализ для аутентификации лиц ». Биометрия (IJCB), 2011 Совместная международная конференция по . IEEE, 2011.
- ^ Георгиадес, А. "База данных лиц Йельского университета". Центр вычислительного зрения и управления Йельского университета, http://CVC.yale.edu/Projects/Yalefaces/Yalefa . 2 : 1997. Внешняя ссылка в
|journal=
( помощь ) - ^ Нгуен, Дай; и другие. (2006). «Обнаружение лиц и выделение губ в реальном времени с использованием программируемых вентильных матриц». IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics . 36 (4): 902–912. CiteSeerX 10.1.1.156.9848 . DOI : 10.1109 / tsmcb.2005.862728 . PMID 16903373 . S2CID 7334355 .
- ^ Kanade, Такео, Джеффри Ф. Кона и Yingli Tian. « Обширная база данных для анализа мимики ». Автоматическое распознавание лиц и жестов, 2000. Труды. Четвертая международная конференция IEEE по . IEEE, 2000.
- ^ Цзэн, Чжихун; и другие. (2009). «Обзор методов распознавания аффектов: аудио, визуальные и спонтанные выражения». IEEE Transactions по анализу шаблонов и машинному анализу . 31 (1): 39–58. CiteSeerX 10.1.1.144.217 . DOI : 10.1109 / tpami.2008.52 . PMID 19029545 .
- ^ Лайонс, Майкл; Камачи, Миюки; Гёба, Дзиро (1998). «Образы мимики». База данных японского женского лица (JAFFE) . DOI : 10.5281 / zenodo.3451524 .
- ^ Лайонс, Майкл; Акамацу, Сигеру; Камачи, Миюки; Гёба, Дзиро « Кодирование выражений лица с помощью вейвлетов Габора ». Автоматическое распознавание лиц и жестов, 1998. Труды. Третья международная конференция IEEE по . IEEE, 1998.
- ^ Нг, Хонг-Вэй и Стефан Винклер. « Управляемый данными подход к очистке больших наборов данных о лицах ». Обработка изображений (ICIP), 2014 IEEE Международная конференция по . IEEE, 2014.
- ^ RoyChowdhury, Аруни; Линь Цун-Ю; Маджи, Субхрансу; Леннед-Миллер, Эрик (2015). «Распознавание лиц один ко многим с билинейными CNN». arXiv : 1506.01342 [ cs.CV ].
- ^ Jesorsky, Оливер, Клаус Дж Кирьхберг и Роберт У. Frischholz. «Надежное обнаружение лиц с использованием расстояния Хаусдорфа». Биометрическая аутентификация личности на основе аудио и видео . Springer Berlin Heidelberg, 2001.
- ^ Хуанг, Гэри Б. и др. Маркированные лица в дикой природе: база данных для изучения распознавания лиц в неограниченных условиях . Vol. 1. № 2. Технический отчет 07-49, Массачусетский университет, Амхерст, 2007.
- ^ Бхатт, Раджен Б. и др. « Эффективная сегментация областей кожи с использованием нечеткой модели дерева решений низкой сложности ». Индия Конференция (INDICON), 2009 Годовой IEEE . IEEE, 2009 г.
- ^ Лингала, Муника; и другие. (2014). «Распознавание цвета с помощью нечеткой логики: синие области на изображениях меланомной дерматоскопии» . Компьютеризированная медицинская визуализация и графика . 38 (5): 403–410. DOI : 10.1016 / j.compmedimag.2014.03.007 . PMC 4287461 . PMID 24786720 .
- ^ Мэйс, Крис и др. « Обнаружение особенностей на трехмерных поверхностях лица для нормализации позы и распознавания ». Биометрия: Теория применения и системы (ДТС), 2010 Четвертое IEEE Международная конференция по . IEEE, 2010 г.
- ^ Савран, Арман и др. « База данных Босфора для трехмерного анализа лица ». Биометрия и управление идентификацией . Springer Berlin Heidelberg, 2008. 47–56.
- ^ Heseltine, Томас, Ник Груша, и Джим Остин. « Трехмерное распознавание лиц: подход собственной поверхности ». Обработка изображений, 2004. ICIP'04. 2004 Международная конференция по . Vol. 2. IEEE, 2004.
- ^ Ге, Юнь; и другие. (2011). «Моделирование образцов лица в 3D-новелле для распознавания лиц». Журнал мультимедиа . 6 (5): 467–475. CiteSeerX 10.1.1.461.9710 . DOI : 10.4304 / jmm.6.5.467-475 .
- ^ Ван, Юэмин; Лю, Цзяньчжуан; Тан, Сяоу (2010). «Надежное трехмерное распознавание лиц за счет локального увеличения разницы форм». IEEE Transactions по анализу шаблонов и машинному анализу . 32 (10): 1858–1870. CiteSeerX 10.1.1.471.2424 . DOI : 10.1109 / tpami.2009.200 . PMID 20724762 . S2CID 15263913 .
- ^ Zhong, Cheng, Zhenan ВС и Tieniu Тан. « Надежное трехмерное распознавание лиц с использованием изученной визуальной кодовой книги ». Компьютерное зрение и распознавание образов, 2007. CVPR'07. Конференция IEEE по . IEEE, 2007.
- ^ Чжао, G .; Хуанг, X .; Тайни, М .; Ли, СЗ; Пиетикяйнен, М. (2011). «Распознавание мимики из видео в ближнем инфракрасном диапазоне» (PDF) . Вычисления изображений и зрения . 29 (9): 607–619. DOI : 10.1016 / j.imavis.2011.07.002 .
- ^ Soyel, хамит, и Хасан Демиреля. « Распознавание выражения лица с использованием трехмерных расстояний между чертами лица ». Анализ и распознавание изображений . Springer Berlin Heidelberg, 2007. 831–838.
- ^ Бойер, Кевин В .; Чанг, Кьонг; Флинн, Патрик (2006). «Обзор подходов и проблем в 3D и мультимодальном распознавании лиц 3D + 2D». Компьютерное зрение и понимание изображений . 101 (1): 1–15. CiteSeerX 10.1.1.134.8784 . DOI : 10.1016 / j.cviu.2005.05.005 .
- ^ Тан, Сяоянь; Триггс, Билл (2010). «Расширенные наборы функций локальной текстуры для распознавания лиц в сложных условиях освещения». IEEE Transactions по обработке изображений . 19 (6): 1635–1650. Bibcode : 2010ITIP ... 19.1635T . CiteSeerX 10.1.1.105.3355 . DOI : 10.1109 / tip.2010.2042645 . PMID 20172829 . S2CID 4943234 .
- ↑ Мусави, Мир Хашем, Карим Фаез и Амин Асгари. « Трехмерное распознавание лиц с использованием классификатора SVM ». Компьютерные и информационные науки, 2008. ICIS 08. Седьмая международная конференция IEEE / ACIS по . IEEE, 2008 г.
- ↑ Амберг, Брайан, Рейнхард Ноте и Томас Веттер. « Трехмерное распознавание лиц с инвариантным выражением лица с изменяемой моделью » Автоматическое распознавание лиц и жестов, 2008. FG'08. 8-я Международная конференция IEEE по . IEEE, 2008 г.
- ^ İrfanoğlu, MO, Берк Gökberk и Лале Akarun. « Распознавание лиц на основе трехмерных форм с использованием автоматически регистрируемых лицевых поверхностей ». Распознавание образов, 2004. ICPR 2004. Труды 17-й Международной конференции по . Vol. 4. IEEE, 2004.
- ^ Beumier, Шарль; Ахерой, Марк (2001). «Подтверждение лица по 3D и подсказкам уровня серого». Письма о распознавании образов . 22 (12): 1321–1329. DOI : 10.1016 / s0167-8655 (01) 00077-0 .
- ^ Афифи, Махмуд; Абдельхамед, Абдельрахман (13 июня 2017 г.). «AFIF4: Глубокая гендерная классификация, основанная на слиянии изолированных черт лица и туманных лиц на основе AdaBoost». arXiv : 1706.04277 [ cs.CV ].
- ^ "Набор данных SoF" . sites.google.com . Проверено 18 ноября 2017 года .
- ^ "IMDB-WIKI" . data.vision.ee.ethz.ch . Проверено 13 марта 2018 .
- ^ Патрон-Перес, А .; Маршалек, М .; Reid, I .; Зиссерман, А. (2012). «Структурированное обучение человеческому взаимодействию в телешоу». IEEE Transactions по анализу шаблонов и машинному анализу . 34 (12): 2441–2453. DOI : 10.1109 / tpami.2012.24 . PMID 23079467 . S2CID 6060568 .
- ^ Ofli Ф., Чоудхури, Р., Курилло Г., Vidal, R., & Bajcsy, R. (январь 2013). Berkeley MHAD: комплексная мультимодальная база данных о деятельности человека . In Applications of Computer Vision (WACV), семинар IEEE 2013 г. (стр. 53–60). IEEE.
- ^ Jiang, YG, et al. «Задача THUMOS: распознавание действий с большим количеством классов». Семинар ICCV по распознаванию действий с большим количеством классов , http://crcv.ucf.edu/ICCV13-Action-Workshop . 2013.
- ↑ Симонян, Карен и Андрей Зиссерман. « Двухпотоковые сверточные сети для распознавания действий в видео ». Достижения в системах обработки нейронной информации . 2014 г.
- ^ Стоян, Андрей; Ферекату, Марин; Бенуа-Пино, Дженни; Круциану, Мишель (2016). «Быстрая локализация действий в крупномасштабных видеоархивах». IEEE Transactions on Circuits and Systems for Video Technology . 26 (10): 1917–1930. DOI : 10.1109 / TCSVT.2015.2475835 . S2CID 31537462 .
- ^ Кришна, Ранджай; Чжу, Юкэ; Грот, Оливер; Джонсон, Джастин; Хата, Кенджи; Кравиц, Джошуа; Чен, Стефани; Калантидис, Яннис; Ли, Ли-Цзя; Шамма, Дэвид А; Бернштейн, Майкл С; Фэй-Фэй, Ли (2017). «Визуальный геном: соединение языка и зрения с помощью краудсорсинговых аннотаций плотных изображений». Международный журнал компьютерного зрения . 123 : 32–73. arXiv : 1602.07332 . DOI : 10.1007 / s11263-016-0981-7 . S2CID 4492210 .
- ^ Караев, С., и др. « Набор данных трехмерных объектов уровня категории: как заставить Kinect работать ». Материалы Международной конференции IEEE по семинарам по компьютерному зрению . 2011 г.
- ^ Tighe, Джозеф и Светлана Лазебник . « Суперпарсинг: масштабируемый непараметрический анализ изображений с помощью суперпикселей ». Компьютерное зрение – ECCV 2010 . Springer Berlin Heidelberg, 2010. 352–365.
- ^ Arbelaez, P .; Maire, M; Фаулкс, К; Малик, Дж (май 2011 г.). «Обнаружение контуров и иерархическая сегментация изображений» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 33 (5): 898–916. DOI : 10.1109 / tpami.2010.161 . PMID 20733228 . S2CID 206764694 . Проверено 27 февраля +2016 .
- ^ Лин, Цунг-Йи и др. « Microsoft coco: общие объекты в контексте ». Компьютерное зрение – ECCV 2014 . Springer International Publishing, 2014. 740–755.
- ^ Русаковский, Ольга; и другие. (2015). «Imagenet крупномасштабная задача визуального распознавания». Международный журнал компьютерного зрения . 115 (3): 211–252. arXiv : 1409.0575 . DOI : 10.1007 / s11263-015-0816-у . hdl : 1721,1 / 104944 . S2CID 2930547 .
- ^ Сяо, Цзяньсюн и др. «База данных Sun: Распознавание крупномасштабных сцен от аббатства до зоопарка». Компьютерное зрение и распознавание образов (CVPR), 2010 IEEE конференция по . IEEE, 2010 г.
- ^ Донахью, Джефф; Цзя, Янцин; Виньялс, Ориол; Хоффман, Джуди; Чжан, Нин; Ценг, Эрик; Даррелл, Тревор (2013). «DeCAF: функция глубокой сверточной активации для общего визуального распознавания». arXiv : 1310.1531 [ cs.CV ].
- ^ Дэн, Цзя и др. « Imagenet: крупномасштабная база данных иерархических изображений ». Компьютерное зрение и распознавание образов, 2009. CVPR 2009. Конференция IEEE по . IEEE, 2009 г.
- ^ a b c Крижевский, Алекс, Илья Суцкевер и Джеффри Э. Хинтон. « Классификация Imagenet с глубокими сверточными нейронными сетями ». Достижения в области нейронных систем обработки информации . 2012 г.
- ^ Русаковский, Ольга; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; и другие. (11 апреля 2015 г.). «Проблема визуального распознавания большого масштаба ImageNet». Международный журнал компьютерного зрения . 115 (3): 211–252. arXiv : 1409.0575 . DOI : 10.1007 / s11263-015-0816-у . hdl : 1721,1 / 104944 . S2CID 2930547 .
- ^ Иван Красин, Том Duerig, Нил Alldrin, Андреас Файт, Сами Абу-Эль-Haija, Serge Belongie, Дэвид Cai, Zheyun Feng, Витторио Ferrari, Виктор Гомес, Abhinav Гупта, Dhyanesh Нарайанан, Чэнь ВС, Gal Чечик, Кевин Мерфи. «OpenImages: общедоступный набор данных для крупномасштабной классификации изображений с несколькими метками и несколькими классами, 2017 г. Доступно по адресу https://github.com/openimages ».
- ^ Вяс, Апурв и др. « Обнаружение коммерческих блоков в видео вещания новостей ». Труды Индийской конференции 2014 года по графике компьютерного зрения и обработке изображений . ACM, 2014.
- ↑ Гауптманн, Александр Г. и Майкл Дж. Витброк. « Сегментация сюжета и обнаружение рекламных роликов в трансляции новостного видео ». Исследования и технологические достижения в электронных библиотеках, 1998. ADL 98. Proceedings. Международный форум IEEE по теме . IEEE, 1998.
- ↑ Тунг, Энтони К.Х., Синь Сюй и Бэн Чин Оои. « Керлер: поиск и визуализация кластеров нелинейной корреляции ». Материалы международной конференции 2005 ACM SIGMOD по управлению данными . ACM, 2005.
- ^ Джарретт, Кевин и др. « Какая лучшая многоступенчатая архитектура для распознавания объектов? ». Компьютерное зрение, 2009 12-я Международная конференция IEEE по . IEEE, 2009 г.
- ^ Лазебник, Светлана , Корделия Schmid , и Жан Понс. « Помимо множества функций: сопоставление пространственной пирамиды для распознавания категорий естественных сцен ». Компьютерное зрение и распознавание образов, Конференция компьютерного общества IEEE 2006 г., посвященная . Vol. 2. IEEE, 2006.
- ^ Гриффин, Г., А. Голуб, и П. Перона. Набор данных категории объектов Caltech-256 California Inst . Technol., Tech. Rep. 7694, 2007 [Online]. Доступно: http://authors.library.caltech.edu/7694 , 2007.
- ↑ Баеза-Йетс, Рикардо и Бертье Рибейро-Нето. Современный информационный поиск . Vol. 463. Нью-Йорк: ACM press, 1999.
- ^ Фу, Сипин и др. « NOKMeans: неортогональное хеширование K-средств ». Компьютерное зрение — ACCV 2014 . Springer International Publishing, 2014. 162–177.
- ^ Хайц, Гереми; и другие. (2009). «Локализация объекта на основе формы для описательной классификации». Международный журнал компьютерного зрения . 84 (1): 40–62. CiteSeerX 10.1.1.142.280 . DOI : 10.1007 / s11263-009-0228-у . S2CID 646320 .
- ^ М. Кордтс, М. Омран, С. Рамос, Т. Шарвехтер, М. Энцвейлер, Р. Бененсон, У. Франке, С. Рот и Б. Шиле, « Набор данных городских пейзажей». На семинаре CVPR о будущем наборов данных в Vision, 2015 г.
- ^ Эверингем, Марк; и другие. (2010). «Задача классов визуальных объектов паскаль (вокал)» . Международный журнал компьютерного зрения . 88 (2): 303–338. DOI : 10.1007 / s11263-009-0275-4 . S2CID 4246903 .
- ^ Felzenszwalb, Педро Ф .; и другие. (2010). «Обнаружение объектов с помощью детективно обученных моделей на основе деталей». IEEE Transactions по анализу шаблонов и машинному анализу . 32 (9): 1627–1645. CiteSeerX 10.1.1.153.2745 . DOI : 10.1109 / tpami.2009.167 . PMID 20634557 . S2CID 3198903 .
- ^ a b Гонг, Юньчао и Светлана Лазебник . «Итеративное квантование: прокрастов подход к изучению двоичных кодов». Computer Vision и распознавания образов (CVPR), 2011 IEEE конференция по . IEEE, 2011.
- ^ "Набор данных CINIC-10" . Люк Н. Дарлоу, Эллиот Дж. Кроули, Антреас Антониу, Амос Дж. Сторки (2018) CINIC-10 не является ImageNet или CIFAR-10 . 9 октября 2018 . Проверено 13 ноября 2018 .
- ^ fashion-mnist: База данных модных товаров, подобная MNIST. Контрольный показатель: point_right , Zalando Research, 7 октября 2017 г. , данные получены 7 октября 2017 г.
- ^ "набор данных notMNIST" . Машинное обучение и т . Д. 8 сентября 2011 . Проверено 13 октября 2017 года .
- ^ Houben, Себастьян и др. « Обнаружение дорожных знаков на изображениях в реальном мире: немецкий эталон обнаружения дорожных знаков ». Neural Networks (IJCNN), 2013 Международная объединенная конференция по . IEEE, 2013.
- ^ Матиас, Майель и др. « Распознавание дорожных знаков - как далеко мы от решения проблемы? ». Neural Networks (IJCNN), 2013 Международная объединенная конференция по . IEEE, 2013.
- ^ Гейгер, Андреас, Филип Ленц и Ракель Уртасун. « Готовы ли мы к автономному вождению? Набор тестов Kitti Vision ». Computer Vision и распознавания образов (CVPR), 2012 IEEE конференция по . IEEE, 2012.
- ^ Штурм, Юрген и др. « Тест для оценки систем RGB-D SLAM ». Интеллектуальные роботы и системы (IROS), 2012 IEEE / RSJ Международной конференции по . IEEE, 2012.
- ^ Чаладзе, Г., Калатозишвили, Л. (2017). Набор данных Linnaeus 5 . Chaladze.com . Получено 13 ноября 2017 г. с http://chaladze.com/l5/.
- ^ Kragh, Mikkel F .; и другие. (2017). «FieldSAFE - набор данных для обнаружения препятствий в сельском хозяйстве» . Датчики . 17 (11): 2579. arXiv : 1709.03526 . Bibcode : 2017arXiv170903526F . DOI : 10.3390 / s17112579 . PMC 5713196 . PMID 29120383 .
- ^ Afifi Махмуд (12 ноября 2017). «Распознавание пола и биометрическая идентификация с использованием большого набора данных изображений рук». arXiv : 1711.04322 [ cs.CV ].
- ^ Ломонако, Винченцо; Мальтони, Давиде (18 октября 2017 г.). «CORe50: новый набор данных и эталон для непрерывного распознавания объектов». arXiv : 1705.03550 [ cs.CV ].
- ^ Она, Ци; Фэн, Фан; Хао, Синьюэ; Ян, Цихан; Лан, Чуаньлинь; Ломонако, Винченцо; Ши, Сюэсон; Ван, Чжэнвэй; Го, Яо; Чжан, Иминь; Цяо, Фэй; Чан, Роза Х.М. (15 ноября 2019 г.). «OpenLORIS-Object: набор данных роботизированного зрения и эталон для непрерывного глубокого обучения». arXiv : 1911.06487v2 [ cs.CV ].
- ^ Морозов, Алексей; Сушкова, Ольга (13 июня 2019). «Набор данных ТГц и тепловизионного видеоданных» . Разработка подхода многоагентного логического программирования к анализу поведения человека при многоканальном видеонаблюдении . Москва: ИРЭ РАН . Проверено 19 июля 2019 .
- ^ Морозов, Алексей; Сушкова Ольга; Кершнер, Иван; Полупанов, Александр (9 июля 2019). «Разработка метода интеллектуального видеонаблюдения терагерцового диапазона на основе семантического объединения терагерцовых и трехмерных видеоизображений» (PDF) . CEUR . 2391 : бумага19 . Проверено 19 июля 2019 .
- ^ Ботта, М., А. Джордана и Л. Саитта. « Изучение нечетких определений понятий ». Нечеткие системы, 1993., Вторая международная конференция IEEE по . IEEE, 1993.
- ^ Фрей, Питер У .; Сланец, Дэвид Дж. (1991). «Распознавание букв с помощью адаптивных классификаторов голландского типа» . Машинное обучение . 6 (2): 161–182. DOI : 10.1007 / bf00114162 .
- ^ Пелтонен, Яакко; Клами, Арто; Каски, Самуэль (2004). «Улучшенное изучение римановых метрик для исследовательского анализа». Нейронные сети . 17 (8): 1087–1100. CiteSeerX 10.1.1.59.4865 . DOI : 10.1016 / j.neunet.2004.06.008 . PMID 15555853 .
- ^ а б Лю, Чэн-Линь; Инь, Фэй; Ван, Да-Хан; Ван, Цю-Фэн (январь 2013 г.). «Онлайн и офлайн распознавание рукописных китайских символов: сравнительный анализ в новых базах данных». Распознавание образов . 46 (1): 155–162. DOI : 10.1016 / j.patcog.2012.06.021 .
- ^ Ван, Д .; Liu, C .; Yu, J .; Чжоу, X. (2009). "CASIA-OLHWDB1: База данных онлайн-рукописных китайских иероглифов". 2009 10-я Международная конференция по анализу и распознаванию документов : 1206–1210. DOI : 10.1109 / ICDAR.2009.163 . ISBN 978-1-4244-4500-4. S2CID 5705532 .
- ^ Уильямс, Бен Х., Марк Туссен и Амос Дж. Сторки. Извлечение примитивов движения из данных естественного почерка . Springer Berlin Heidelberg, 2006 г.
- ^ Мейер, Франциска и др. « Сегментация движения с использованием примитивной библиотеки ». Интеллектуальные роботы и системы (IROS), 2011 IEEE / RSJ Международной конференции по . IEEE, 2011.
- ^ TE де Кампос, Б. Р. Бабу и М. Варма. Распознавание символов в естественных изображениях . В материалах Международной конференции по теории и приложениям компьютерного зрения (VISAPP), Лиссабон, Португалия , февраль 2009 г.
- ^ Ллоренс, Дэвид и др. « База данных UJIpenchars: база данных изолированных рукописных символов на основе пера ». LREC . 2008 г.
- ^ Кальдерара, Симона; Прати, Андреа; Куккьяра, Рита (2011). «Смеси распределений фон Мизеса для анализа формы траектории движения людей». IEEE Transactions on Circuits and Systems for Video Technology . 21 (4): 457–471. DOI : 10.1109 / tcsvt.2011.2125550 . S2CID 1427766 .
- ^ Гийон, Изабель и др. « Анализ результатов задачи выбора функции nips 2003 ». Достижения в области нейронных систем обработки информации . 2004 г.
- ^ Озеро, BM; Салахутдинов, Р .; Тененбаум, Дж.Б. (11 декабря 2015 г.). «Изучение концепции на уровне человека посредством индукции вероятностной программы» . Наука . 350 (6266): 1332–1338. Bibcode : 2015Sci ... 350.1332L . DOI : 10.1126 / science.aab3050 . ISSN 0036-8075 . PMID 26659050 .
- ↑ Lake, Brenden (9 ноября 2019 г.), набор данных Omniglot для однократного обучения , получен 10 ноября 2019 г.
- ^ ЛеКун, Янн; и другие. (1998). «Градиентное обучение применительно к распознаванию документов». Труды IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . DOI : 10.1109 / 5.726791 .
- ^ Куссул, Эрнст; Байдык, Татьяна (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST». Вычисления изображений и зрения . 22 (12): 971–981. DOI : 10.1016 / j.imavis.2004.03.008 .
- ^ Сюй, Лэй; Krzyżak, Адам; Суен, Чинг Ю. (1992). «Методы объединения нескольких классификаторов и их приложения для распознавания почерка». IEEE Transactions по системам, человеку и кибернетике . 22 (3): 418–435. DOI : 10.1109 / 21.155943 . hdl : 10338.dmlcz / 135217 .
- ^ Алимоглу, Февзи и др. « Объединение нескольких классификаторов для распознавания рукописных цифр на основе пера ». (1996).
- ^ Тан, Э. Кэ; и другие. (2005). «Уменьшение линейной размерности с использованием LDA, взвешенного по релевантности». Распознавание образов . 38 (4): 485–493. DOI : 10.1016 / j.patcog.2004.09.005 .
- ^ Хонг, Йи и др. « Изучение смеси разреженных показателей расстояния для классификации и уменьшения размерности ». Computer Vision (ICCV), 2011 IEEE Международная конференция по . IEEE, 2011.
- ^ Тома, Мартин (2017). «Набор данных HASYv2». arXiv : 1701.08380 [ cs.CV ].
- ^ Карки, Manohar; Лю, Цюнь; ДиБиано, Роберт; Басу, Сайкат; Мухопадхьяй, Супратик (20 июня 2018 г.). «Пиксельная реконструкция и классификация шумных рукописных символов Bangla». arXiv : 1806.08037 [ cs.CV ].
- ^ Лю, Цюнь; Кольер, Эдвард; Mukhopadhyay, Supratik (2019), "PCGAN-CHAR: Постепенно обучаемые сети противоборства, генерирующие классификатор для классификации зашумленных рукописных символов Bangla", Цифровые библиотеки на перекрестке цифровой информации для будущего , Springer International Publishing, стр. 3–15, arXiv : 1908.08987 , DOI : 10.1007 / 978-3-030-34058-2_1 , ISBN 978-3-030-34057-5, S2CID 201665955
- ^ Юань, Jiangye; Глисон, Шон С .; Чериядат, Анил М. (2013). «Систематический сравнительный анализ сегментации аэрофотоснимков». Письма IEEE по наукам о Земле и дистанционному зондированию . 10 (6): 1527–1531. Bibcode : 2013IGRSL..10.1527Y . DOI : 10,1109 / lgrs.2013.2261453 . S2CID 629629 .
- ^ Vatsavai, Ранг Раджа. « Классификация изображений на основе объектов: современное состояние и вычислительные задачи ». Материалы 2-го международного семинара ACM SIGSPATIAL по аналитике больших геопространственных данных . ACM, 2013.
- ^ Бутенут, Маттиас и др. « Интеграция моделирования пешеходов, отслеживания и обнаружения событий для анализа толпы ». Computer Vision Семинары (ICCV семинары), 2011 IEEE Международная конференция по . IEEE, 2011.
- ^ Fradi, Hajer, и Жан-Люк Dugelay. « Низкоуровневый анализ толпы с использованием покадровой нормализованной функции для подсчета людей ». Информационная криминалистика и безопасность (WIFS), Международный семинар IEEE 2012 г., посвященный . IEEE, 2012.
- ↑ Джонсон, Брайан Алан, Рютаро Татейши и Нгуен Тхань Хоан. « Гибридный подход с усилением резкости и многомасштабный объектно-ориентированный анализ изображений для картирования больных сосен и дубов ». Международный журнал дистанционного зондирования 34.20 (2013): 6969–6982.
- ^ Мохд Пози, Мухаммад Сяфик; Сулейман, штат Мэриленд Насир; Мустафа, Норвати; Перумал, Тинагаран (2015). «Новая модель классификации для несбалансированного набора данных классов с использованием генетического программирования и вспомогательных векторных машин: тематическое исследование для классификации болезней увядания» . Письма о дистанционном зондировании . 6 (7): 568–577. DOI : 10.1080 / 2150704X.2015.1062159 . S2CID 58788630 .
- ^ Gallego, A.-J .; Pertusa, A .; Гил П. " Автоматическая классификация судов по оптическим аэрофотоснимкам с помощью сверточных нейронных сетей ". Дистанционное зондирование . 2018; 10 (4): 511.
- ^ Gallego, A.-J .; Pertusa, A .; Гил, П. «Набор данных MAritime SATellite Imagery» [Онлайн]. Доступно: https://www.iuii.ua.es/datasets/masati/ , 2018.
- ^ Джонсон, Брайан; Татейши, Рютаро; Се, Чжисяо (2012). «Использование географически взвешенных переменных для классификации изображений». Письма о дистанционном зондировании . 3 (6): 491–499. DOI : 10.1080 / 01431161.2011.629637 . S2CID 122543681 .
- ^ Чаттерджи, Санкхадип и др. « Классификация типов леса: гибридный подход на основе модели NN-GA ». Дизайн информационных систем и интеллектуальные приложения . Springer India, 2016. 227–236.
- ^ Дигерт, Карл. « Комбинаторный метод отслеживания объектов с использованием семантики их формы ». Практикум по распознаванию образов прикладных изображений (AIPR), 2010 IEEE 39th . IEEE, 2010 г.
- ^ Razakarivony, Себастьен, и Фредерик Jurie. « Обнаружение малых целей, сочетающее передний и задний планы ». Международная конференция IAPR по приложениям машинного зрения . 2013.
- ^ "SpaceNet" . explore.digitalglobe.com . Проверено 13 марта 2018 .
- ^ Etten, Адам Ван (5 января 2017). «Начало работы с данными SpaceNet» . The DownLinQ . Проверено 13 марта 2018 .
- ^ Vakalopoulou, M .; Автобус, N .; Karantzalosa, K .; Парагиос, Н. (июль 2017 г.). Интеграция априорных значений границ и границ с классификационными баллами для обнаружения зданий в данных с очень высоким разрешением . 2017 Международный симпозиум IEEE по геонаукам и дистанционному зондированию (IGARSS) . С. 3309–3312. DOI : 10.1109 / IGARSS.2017.8127705 . ISBN 978-1-5090-4951-6. S2CID 8297433 .
- ^ Ян, Йи; Ньюсэм, Шон (2010). Пакет визуальных слов и пространственные расширения для классификации землепользования . Материалы 18-й Международной конференции SIGSPATIAL по достижениям в области географических информационных систем - GIS '10 . Нью-Йорк, Нью-Йорк, США: ACM Press. DOI : 10.1145 / 1869790.1869829 . ISBN 9781450304283. S2CID 993769 .
- ^ а б Басу, Сайкат; Гангули, Санграм; Мухопадхьяй, Супратик; ДиБиано, Роберт; Карки, Манохар; Немани, Рамакришна (3 ноября 2015 г.). DeepSat: обучающая программа для спутниковых снимков . ACM. п. 37. DOI : 10,1145 / 2820783,2820816 . ISBN 9781450339674. S2CID 4387134 .
- ^ а б Лю, Цюнь; Басу, Сайкат; Гангули, Санграм; Мухопадхьяй, Супратик; ДиБиано, Роберт; Карки, Манохар; Немани, Рамакришна (21 ноября 2019 г.). «DeepSat V2: функция дополненных сверточных нейронных сетей для классификации спутниковых изображений». Письма о дистанционном зондировании . 11 (2): 156–165. arXiv : 1911.07747 . DOI : 10.1080 / 2150704x.2019.1693071 . ISSN 2150-704X . S2CID 208138097 .
- ^ Миллс, Кайл; Тэмблин, Исаак (16 мая 2018), Большой графен набор данных , Национальный исследовательский совет Канады, DOI : 10,4224 / c8sc04578j.data
- ^ Миллс, Кайл; Шпаннер, Майкл; Тэмблин, Исаак (16 мая 2018 г.). «Квантовое моделирование». Квантовое моделирование электрона в двумерной потенциальной яме . Национальный исследовательский совет Канады. DOI : 10.4224 / PhysRevA.96.042113.data .
- ^ Рорбах, М .; Amin, S .; Андрилука, М .; Шиле, Б. (2012). База данных для детального определения активности при приготовлении пищи . IEEE. DOI : 10.1109 / cvpr.2012.6247801 . ISBN 978-1-4673-1228-8.
- ^ Кюна, Хильда, Али Арслан, и Томас Серра. « Язык действий: восстановление синтаксиса и семантики целенаправленной человеческой деятельности ». Труды конференции IEEE по компьютерному зрению и распознаванию образов . 2014 г.
- ↑ Святослав, Волошиновский и др. « На пути к воспроизводимым результатам аутентификации, основанной на физических неклонируемых функциях: оптический набор микроструктуры судебной аутентификации (FAMOS) » Proc. Материалы международного семинара IEEE по криминалистике и безопасности информации . 2012 г.
- ^ Ольга, Таран и Shideh, Rezaeifar и др. « PharmaPack: мобильное детальное распознавание фармацевтических пакетов ». Proc. Европейская конференция по обработке сигналов (EUSIPCO) . 2017 г.
- ^ Хосла, Адитья и др. « Новый набор данных для детальной категоризации изображений: собаки Стэнфордского университета ». Proc. CVPR-семинар по детальной визуальной категоризации (FGVC) . 2011 г.
- ^ a b Пархи, Омкар М. и др. « Кошки и собаки ». Computer Vision и распознавания образов (CVPR), 2012 IEEE конференция по . IEEE, 2012.
- ^ Биггс, Бенджамин и др. « Кто оставил собак? 3D-реконструкция животных с максимизацией ожидания в цикле ». Proc. ECCV . 2020.
- ^ a b Разавиан, Али и др. « Готовые возможности CNN: потрясающая база для признания ». Материалы конференции IEEE по компьютерному зрению и семинарам по распознаванию образов . 2014 г.
- ^ Ортега, Майкл; и другие. (1998). «Поддержка ранжированных логических запросов подобия в MARS». IEEE Transactions по разработке знаний и данных . 10 (6): 905–925. CiteSeerX 10.1.1.36.6079 . DOI : 10.1109 / 69.738357 .
- ^ Он, Xuming, Ричард С. Земли, и Miguel Á. Каррейра-Перпиньян. « Мультимасштабные условные случайные поля для маркировки изображений ». Компьютерное зрение и распознавание образов, 2004. CVPR 2004. Труды конференции компьютерного сообщества IEEE 2004 г., посвященной . Vol. 2. IEEE, 2004.
- ^ Денеке, Теодрос и др. « Прогнозирование времени перекодирования видео для упреждающей балансировки нагрузки ». Мультимедиа и выставка (ICME), Международная конференция IEEE 2014 г. IEEE, 2014.
- ↑ Тинг-Хао (Кеннет) Хуанг, Фрэнсис Ферраро, Насрин Мостафазаде, Ишан Мисра, Айшвария Агравал, Джейкоб Девлин, Росс Гиршик, Сяодун Хе, Пушмит Кохли, Дхрув Батра, К. Лоуренс Зитник, Деви Парикх, Люси Мишель Вандервенде, Маргарет Митчелл (13 апреля 2016 г.). «Визуальное повествование». arXiv : 1604.03968 [ cs.CL ].CS1 maint: multiple names: authors list (link)
- ^ Вау, Кэтрин и др. " Набор данных caltech-ucsd birds-200-2011 ". (2011).
- ^ Дуан, Кун и др. « Обнаружение локализованных атрибутов для детального распознавания ». Computer Vision и распознавания образов (CVPR), 2012 IEEE конференция по . IEEE, 2012.
- ^ "YouTube-8M Dataset" . research.google.com . Проверено 1 октября +2016 .
- ^ Абу-Эль-Haija, Sami; Котари, Нисарг; Ли, Джунсок; Нацев, Павел; Тодеричи, Джордж; Варадараджан, Балакришнан; Виджаянарасимхан, Судхендра (27 сентября 2016 г.). «YouTube-8M: эталон для крупномасштабной классификации видео». arXiv : 1609.08675 [ cs.CV ].
- ^ "Набор данных YFCC100M" . mmcommons.org . Yahoo-ICSI-LLNL . Дата обращения 1 июня 2017 .
- ^ Барт Томи; Дэвид А Шамма; Джеральд Фридланд; Бенджамин Элизальде; Карл Ни; Дуглас Польша; Дамиан Борт; Ли-Цзя Ли (25 апреля 2016 г.). «Yfcc100m: новые данные в мультимедийных исследованиях». Коммуникации ACM . 59 (2): 64–73. arXiv : 1503.01817 . DOI : 10.1145 / 2812802 . S2CID 207230134 .
- ^ Ю. Baveye, Е. Dellandrea, С. Chamaret, Л. Чен, " Liris-присоединения: видео База данных для анализа содержимого аффективное ," в IEEE Transactions на аффективное Computing, 2015.
- ^ Ю. Baveye, Е. Dellandrea, С. Chamaret, Л. Чен, « Deep Learning против методов ядра: Производительность для Emotion прогнозирования в видео ,» в 2015 году Humaine ассоциации конференции по аффективному Computing и интеллектуальное взаимодействие (ACII), 2015 .
- ^ М. Шеберг, Ю. Baveye, Х. Ван, В. Л. Куанг, Б. Ионеску, Е. Dellandréa, М. Schedl, C.-H. Демарти и Л. Чен, « Средневековое аффективное влияние задачи фильмов в 2015 году», в MediaEval 2015 Workshop, 2015.
- ^ С. Джонсон и М. Эверингем, " Кластерные позы и нелинейные модели внешнего вида для оценки поз человека ", в материалах 21-й Британской конференции по машинному зрению (BMVC2010)
- ^ С. Джонсон и М. Эверингем, " Изучение эффективной оценки позы человека на основе неточной аннотации ", в материалах конференции IEEE по компьютерному зрению и распознаванию образов (CVPR2011)
- ^ Афифи, Махмуд; Хуссейн, Халед Ф. (2 ноября 2017 г.). «Достижение большей гибкости в тестах на основе множественного выбора с использованием методов классификации изображений». arXiv : 1711.00972 [ cs.CV ].
- ^ «Набор данных MCQ» . sites.google.com . Проверено 18 ноября 2017 года .
- ^ Тадж-Эддин, IATF; Афифи, М .; Кораши, М .; Hamdy, D .; Nasser, M .; Дербаз, С. (июль 2016 г.). Новый метод сжатия видео наблюдения: оценка с использованием нового набора данных . 2016 Шестая международная конференция по цифровым информационным и коммуникационным технологиям и их приложениям (DICTAP) . С. 159–164. DOI : 10.1109 / DICTAP.2016.7544020 . ISBN 978-1-4673-9609-7. S2CID 8698850 .
- ^ Табак, Майкл А .; Norouzzadeh, Mohammad S .; Вольфсон, Дэвид В .; Суини, Стивен Дж .; Vercauteren, Kurt C .; Сноу, Натан П .; Halseth, Joseph M .; Ди Сальво, Пол А .; Льюис, Джесси С .; Белый, Майкл Д .; Тетон, Бен; Бизли, Джеймс С.; Schlichting, Peter E .; Boughton, Raoul K .; Уайт, Бетани; Ньюкирк, Эрик С .; Иван, Яков С .; Оделл, Эрик А .; Брук, Райан К .; Лукач, Пол М .; Мёллер, Анна К .; Mandeville, Elizabeth G .; Клун, Джефф; Миллер, Райан С .; Фотопулу, Теони (2018). «Машинное обучение для классификации видов животных на изображениях фотоловушек: приложения в экологии» . Методы экологии и эволюции . 10 (4): 585–590. DOI : 10.1111 / 2041-210X.13120 . ISSN 2041-210X .
- ^ Тадж-Эддин, Ислам ATF; Афифи, Махмуд; Кораши, Мостафа; Ахмед, Али Х .; Нг, Йоке Ченг; Эрнандес, Эвелинг; Абдель-Латиф, Сальма М. (ноябрь 2017 г.). «Можем ли мы увидеть фотосинтез? Увеличение крошечных изменений цвета зеленых листьев растений с помощью видеоувеличения Эйлера». Журнал электронного изображения . 26 (6): 060501. arXiv : 1706.03867 . Bibcode : 2017JEI .... 26f0501T . DOI : 10.1117 / 1.jei.26.6.060501 . ISSN 1017-9909 . S2CID 12367169 .
- ^ Маколи, Джулиан и др. « Имиджевые рекомендации по стилям и заменителям ». Материалы 38-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска» . ACM, 2015 г.
- ^ Ганесан, Кавита; Чжай, Чэнсян (2012). «Рейтинг организаций на основе мнений». Информационный поиск . 15 (2): 116–150. DOI : 10.1007 / s10791-011-9174-8 . ЛВП : 2142/15252 . S2CID 16258727 .
- ^ Lv, Yuanhua, Димитриос Lymberopoulos и Цян Ву. « Исследование эвристики ранжирования в локальном мобильном поиске ». Материалы 35-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска» . ACM, 2012.
- ^ Харпер, Ф. Максвелл; Констан, Джозеф А. (2015). «Наборы данных MovieLens: история и контекст». ACM-транзакции в интерактивных интеллектуальных системах . 5 (4): 19. DOI : 10,1145 / 2827872 . S2CID 16619709 .
- ^ Koenigstein, Ноам, Гидеон Дрор и Иегуда Корен. « Музыкальные рекомендации Yahoo!: моделирование музыкальных рейтингов с временной динамикой и таксономией элементов ». Материалы пятой конференции ACM по рекомендательным системам . ACM, 2011.
- ^ Макфи, Брайан и др. « Проблема с набором данных миллиона песен ». Материалы 21-й международной конференции-спутника во всемирной паутине . ACM, 2012.
- ^ Bohanec, Марко, и Владислав Райкович. « Получение знаний и объяснение для принятия решений по нескольким признакам ». 8-й международный семинар по экспертным системам и их приложениям . 1988 г.
- ^ Тан, Питер Дж. И Дэвид Л. Доу. « MML-вывод графов решений с многосторонними соединениями ». Австралийская совместная конференция по искусственному интеллекту . 2002 г.
- ^ «Количественная оценка комедии на YouTube: почему количество« о »в вашем LOL имеет значение» . База данных Метатекст НЛП . Проверено 26 октября 2020 года .
- ^ Ким, Бен Джу (2012). «Классификатор больших данных» . Конвергенция и гибридные информационные технологии . Коммуникации в компьютерных и информационных науках. 310 . С. 505–512. DOI : 10.1007 / 978-3-642-32692-9_63 . ISBN 978-3-642-32691-2.
- ^ Пересгонзалес, Хосе Д .; Гилби, Эндрю (2011). «Прогнозирование рейтинга аэропортов Skytrax на основе отзывов клиентов» . Журнал управления аэропортом . 5 (4): 335–339.
- ↑ Ло, Вэй-Инь и Ю-Шань Ши. « Сплит-методы выбора для деревьев классификации ». Statistica sinica (1997): 815–840.
- ^ Лим, Тьен-Сиен; Ло, Вэй-Инь; Ши, Юй-Шань (2000). «Сравнение точности прогнозов, сложности и времени обучения тридцати трех старых и новых алгоритмов классификации». Машинное обучение . 40 (3): 203–228. DOI : 10.1023 / а: 1007608224229 . S2CID 17030953 .
- ^ Kiet Ван Нгуен Ву Дык Нгуен Фу XV Нгуен, Тэм TH Чыонг, нган Luu-Туи Нгуен. " UIT-VSFC: Корпус отзывов вьетнамских студентов для анализа настроений }}
- ^ Хо, Вонг Ань; Нгуен, Дуонг Хыинь-Конг; Нгуен, Дан Хоанг; Фам, Линь Тхи-Ван; Нгуен, Дук-Ву; Нгуен, Киет Ван; Нгуен, Нган Луу-Туи (2020). «Распознавание эмоций для текста вьетнамских социальных сетей» . Компьютерная лингвистика . Коммуникации в компьютерных и информационных науках. 1215 . С. 319–333. arXiv : 1911.09339 . DOI : 10.1007 / 978-981-15-6168-9_27 . ISBN 978-981-15-6167-2. S2CID 208202333 .
- ^ Дермуш, Мохамед; Велчин, Жюльен; Хоуас, Лейла; Лаудчер, Сабина (2014). Совместная модель эволюции темы и настроений с течением времени . IEEE. DOI : 10.1109 / icdm.2014.82 . ISBN 978-1-4799-4302-9.
- ^ Роза, Тони; Стивенсон, Марк; Уайтхед, Майлз (2002). «Том 1 корпуса Reuters - от вчерашних новостей до завтрашних языковых ресурсов» (PDF) . LREC . 2 . S2CID 9239414 . Архивировано из оригинального (PDF) 6 августа 2019 года.
- ^ Amini, Massih R .; Usunier, Nicolas; Goutte, Кирилл (2009). «Изучение нескольких частично наблюдаемых представлений - приложение для категоризации многоязычного текста» . Достижения в системах обработки нейронной информации : 28–36.
- ^ Лю, Мин; и другие. (2015). «VRCA: алгоритм кластеризации огромного количества текстов» . Материалы 24-й Международной конференции по искусственному интеллекту . AAAI Press.
- ^ Аль-Харби, S; Альмухареб, А; Аль-Тубайти, А; Хоршид, MS; Аль-Радже, А (2008). «Автоматическая классификация арабского текста». Труды 9-й Международной конференции по статистическому анализу текстовых данных, Лион, Франция .
- ^ «Набор данных оценки взаимосвязи и извлечения сущностей: Dstl / re3d» . 17 декабря 2018.
- ^ "Ревизор - Каталог SpamClickBait" .
- ^ «Миллион заголовков новостей» .
- ^ «Одна неделя глобальных новостных лент» .
- ^ Кулкарни, Рохит (2018), Reuters News-Wire Archive , Harvard Dataverse, DOI : 10,7910 / DVN / XDB74W
- ^ "IrishTimes - Waxy-Wany News" .
- ^ "Набор данных заголовков новостей для обнаружения сарказма" . kaggle.com . Проверено 27 апреля 2019 года .
- ↑ Климт, Брайан и Иминь Ян. « Представляем Enron Corpus ». CEAS . 2004 г.
- ^ Kossinets, Gueorgi, Джон Клейнберг, и Дункан Уоттс. « Структура информационных путей в сети социальных коммуникаций ». Материалы 14-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . ACM, 2008.
- ^ Андроутсопулос, Ион; Кутсиас, Джон; Чандринос, Константинос V .; Палиоурас, Джордж; Спиропулос, Константин Д. (2000). «Оценка наивной байесовской фильтрации спама». In Potamias, G .; Moustakis, V .; ван Сомерен, М. (ред.). Материалы семинара по машинному обучению в новую информационную эпоху . 11-я Европейская конференция по машинному обучению, Барселона, Испания. 11 . С. 9–17. arXiv : cs / 0006013 . Bibcode : 2000cs ........ 6013A .
- ^ Братко, Андрей; и другие. (2006). «Фильтрация спама с использованием статистических моделей сжатия данных» (PDF) . Журнал исследований в области машинного обучения . 7 : 2673–2698.
- ^ Алмейда, Тиагу А., Хосе Мария Г. Идальго и Akebo Yamakami. « Вклад в изучение фильтрации SMS-спама: новая коллекция и результаты ». Материалы 11-го симпозиума ACM по документационной инженерии . ACM, 2011.
- ^ Delany; Джейн, Сара; Бакли, Марк; Грин, Дерек (2012). «Фильтрация SMS-спама: методы и данные» . Экспертные системы с приложениями . 39 (10): 9899–9908. DOI : 10.1016 / j.eswa.2012.02.053 .
- ↑ Иоахим, Торстен. Вероятностный анализ алгоритма Роккио с TFIDF для категоризации текста . № CMU-CS-96-118. Питтсбургский университет Карнеги-Меллон, отделение информатики, 1996.
- ^ Димитракакис, Christos и Samy Bengio. Адаптация онлайн-политики для ансамблевых алгоритмов . № EPFL-REPORT-82788. ИДИАП, 2002.
- ^ Annamoradnejad, Исса. arXiv: 2004.12765 . arXiv: 2004.12765, 2020.
- ^ Dooms, S. et al. «Movietweetings: набор данных рейтинга фильмов, собранный из твиттера, 2013 г. Доступно по адресу https://github.com/sidooms/MovieTweetings ».
- ^ RoyChowdhury, Аруни; Линь Цун-Ю; Маджи, Субхрансу; Леннед-Миллер, Эрик (2017). «Twitter100k: набор реальных данных для слабо контролируемого кросс-медиа поиска». arXiv : 1703.06618 [ cs.CV ].
- ^ "huyt16 / Twitter100k" . GitHub . Проверено 26 марта 2018 .
- ↑ Ступай, Алек; Бхайани, Рича; Хуанг, Лэй (2009). «Классификация настроений Twitter с использованием дистанционного наблюдения». Отчет о проекте CS224N, Стэнфорд . 1 : 12.
- ^ Chikersal, Prerna, Soujanya Poria и Эрик Cambria. « SeNTU: анализ настроений твитов путем объединения классификатора на основе правил с контролируемым обучением ». Материалы международного семинара по семантической оценке SemEval . 2015 г.
- ^ Zafarani, Реза и Хуань Лю . «Хранилище данных социальных вычислений в АГУ». Школа вычислительной техники, информатики и разработки систем принятия решений, Государственный университет Аризоны (2009 г.).
- ^ Bisgin, Халил, Нитин Агарвал и Xiaowei Сие. « Расследование гомофилии в социальных сетях онлайн ». Веб-аналитика и технология интеллектуальных агентов (WI-IAT), Международная конференция IEEE / WIC / ACM 2010 г., посвященная . Vol. 1. IEEE, 2010.
- ^ Маколи, Джулиан Дж .; Лесковец, Юре. «Учимся открывать социальные круги в эго-сетях». НИПС . 2012 : 2012.
- ^ Шубель, Ловро; Фиала, Далибор; Баец, Марко (2014). «Сетевое статистическое сравнение топологии цитирования библиографических баз данных» . Научные отчеты . 4 (6496): 6496. arXiv : 1502.05061 . Bibcode : 2014NatSR ... 4E6496S . DOI : 10.1038 / srep06496 . PMC 4178292 . PMID 25263231 .
- ^ Абдулла, Н., и др. «Анализ настроений в арабском: на основе корпуса и на основе лексики». Материалы конференции IEEE по прикладной электротехнике и вычислительным технологиям (AEECT) . 2013.
- ^ Abooraig, Raddad, et al. « Об автоматической категоризации арабских статей на основе их политической ориентации ». Третья международная конференция по информатике и информатике (ICIEIS2014) . 2014 г.
- ^ Кавала, Франсуа и др. " Предписания для действий в обществе ". 4ième conférence sur les modèles et l'analyse des réseaux: Approches mathématiques et informatiques . 2013.
- ^ Сабхарвал, Ашиш; Самуловиц, Хорст; Тесауро, Джеральд (2015). «Выбор почти оптимальных учащихся с помощью инкрементального распределения данных». arXiv : 1601.00024 [ cs.LG ].
- ^ Сюй и др. « SemEval-2015 Задача 1: Перефразирование и семантическое сходство в Twitter (PIT) » Материалы 9-го Международного семинара по семантическому оцениванию . 2015 г.
- ^ Сюй и др. « Извлечение лексически расходящихся парафраз из Twitter ». Транзакции Ассоциации вычислительных ресурсов (TACL) . 2014 г.
- ^ Миддлтон, Стюарт Э; Миддлтон, Ли; Модаффери, Стефано (2014). «Картирование кризисов стихийных бедствий в реальном времени с помощью социальных сетей» (PDF) . Интеллектуальные системы IEEE . 29 (2): 9–17. DOI : 10.1109 / MIS.2013.126 . S2CID 15139204 .
- ^ "геопарсепия" . 2016 г. Библиотека Python PyPI
- ^ Гупта, Aakash (5 декабря 2020). "Голландская коллекция социальных сетей" Проверить значение ( помощь ) . DOI : 10.5072 / ФК2 / MTPTL7 .
|url=
Cite journal requires|journal=
(help) - ^ "Streamlit" . huggingface.co . Проверено 18 декабря 2020 года .
- ^ "Голландская коллекция социальных сетей" . kaggle.com . Проверено 18 декабря 2020 года .
- Перейти ↑ Forsyth, E., Lin, J., & Martell, C. (2008, 25 июня). Корпус чата NPS. Получено с http://faculty.nps.edu/cmartell/NPSChat.htm
- ^ Алессандро Sordoni, Мишель Камбуз, Майкл Аулы, Крис Брокетт, Yangfeng Джи, Мэг Митчелл, Цзяньте Юно Nie, Цзяньфэн Гао, и Билл Долан, нейросеть подход к контекстно-зависимой генерации разговорных ответов , Конференция североамериканской главы Ассоциации компьютерной лингвистики - технологии человеческого языка (NAACL-HLT 2015), июнь 2015 г.
- ^ Shaoul, C. & Westbury C. (2013) Корпус USENET с сокращенной избыточностью (2005-2011) Эдмонтон, AB: Университет Альберты (загружено с http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus .download.html )
- ↑ KAN, M. (2011, январь). Корпус службы коротких сообщений (SMS) NUS. Получено с http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/.
- ^ Застрял в матрице. (2015, 3 июля). У меня есть все общедоступные комментарии Reddit для исследования. ~ 1,7 миллиарда комментариев @ сжатых 250 ГБ. Есть в этом интерес? [Исходный пост]. Сообщение отправлено по адресу https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
- ^ Райан Лоу, Nissan Pow, Юлиан В. Сербан и Джоэл Пино, « Корпус диалогов Ubuntu: большой набор данных для исследования неструктурированных многооборотных диалоговых систем », SIGDial 2015.
- ^ Джейсон Уильямс Антуан Ро Мэтью Хендерсон, « [1] », Диалог и дискурс | Апрель 2016 г.
- ^ K. Kowsari, DE Brown, M. Heidarysafa, K. Jafari Meimandi, MS Gerber и LE Barnes, "HDLTex: Hierarchical Deep Learning for Text Classification", 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA), pp. 364-371. DOI : 10.1109 / ICMLA.2017.0-134
- ^ K. Kowsari, DE Brown, M. Heidarysafa, K. Jafari Meimandi, MS Gerber и LE Barnes, "Web of Science Dataset", doi : 10.17632 / 9rw3vkcfy4.6
- ^ Galgani, Филиппо Пол Комптон, и Ахим Hoffmann. « Сочетание различных техник реферирования юридического текста ». Материалы семинара по инновационным гибридным подходам к обработке текстовых данных . Ассоциация компьютерной лингвистики, 2012.
- ^ Nagwani, Н. К. (2015). «Обобщение большой коллекции текстов с использованием тематического моделирования и кластеризации на основе платформы MapReduce» . Журнал больших данных . 2 (1): 1–18. DOI : 10,1186 / s40537-015-0020-5 .
- ^ Шлер, Джонатан; и другие. (2006). «Влияние возраста и пола на ведение блога» (PDF) . Весенний симпозиум AAAI: вычислительные подходы к анализу веб-журналов . 6 .
- ^ Ананд, Пранав и др. «Поверьте, мы можем это сделать! Аннотирование убедительных действий в тексте блога». Вычислительные модели естественного аргумента . 2011 г.
- ^ Трауд, Аманда Л., Питер Дж. Муха и Мейсон А. Портер. «Социальная структура сетей Facebook». Physica A: Статистическая механика и ее приложения 391.16 (2012): 4165–4180.
- ^ Ричард, Эмиль; Саваль, Пьер-Андре; Ваятис, Николас (2012). «Оценка одновременно разреженных матриц и матриц низкого ранга». arXiv : 1206.6474 [ cs.DS ].
- ^ Ричардсон, Мэтью; Берджес, Кристофер Дж. К.; Реншоу, Эрин (2013). «MCTest: набор данных задачи для машинного понимания текста в открытой области» . ЕМНЛП . 1 .
- ^ Уэстон, Джейсон; Бордес, Антуан; Чопра, Сумит; Раш, Александр М .; Барт ван Мерриенбоер; Жулен, Арман; Миколов, Томас (2015). «На пути к ИИ-полному ответу на вопрос: набор предварительных игрушечных задач». arXiv : 1502.05698 [ cs.AI ].
- ^ Маркус, Митчелл П .; Энн Марцинкевич, Мэри; Санторини, Беатрис (1993). «Создание большого аннотированного корпуса английского языка: Penn Treebank» . Компьютерная лингвистика . 19 (2): 313–330.
- ^ Коллинз, Майкл (2003). «Управляемые головами статистические модели для анализа естественного языка» . Компьютерная лингвистика . 29 (4): 589–637. DOI : 10.1162 / 089120103322753356 .
- ^ Гайон, Изабель и др., Ред. Извлечение признаков: основы и приложения . Vol. 207. Springer, 2008.
- ^ Лин, Юрий и др. « Синтаксические аннотации для корпуса ngram google books ». Материалы демонстрации системы ACL 2012 . Ассоциация компьютерной лингвистики, 2012.
- ^ Кришнамурти, Niveda; и другие. (2013). «Создание описаний видео на естественном языке с использованием текстовых знаний» . AAAI . 1 .
- ^ LUYCKX, Ким, и Уолтер Даелманс. « Персоны: корпус для предсказания автора и личности по тексту ». LREC . 2008 г.
- ^ Солорио, Тамары, Рагиб Хасан, и Mainul Мизаны. « Пример обнаружения sockpuppet в Википедии ». Семинар по языковому анализу в социальных сетях (LASM) в NAACL HLT . 2013.
- ^ Ciarelli, Патрик Marques, и Элиас Оливейра. « Агломерация и устранение условий уменьшения размерности ». Разработка и приложения интеллектуальных систем, 2009. ISDA'09. Девятая международная конференция по . IEEE, 2009 г.
- ↑ Чжоу, Минъюань, Оскар Эрнан Мадрид Падилья и Джеймс Г. Скотт. «Априорные значения для матриц случайного счета, полученные из семейства отрицательных биномиальных процессов». Журнал Американской статистической ассоциации только что принят (2015): 00–00.
- ^ Котзиас, Димитриос и др. « От группы до отдельных этикеток с использованием глубоких функций ». Материалы 21-й Международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных. ACM, 2015.
- ^ Нин, Юэ; Муфия, Сатхаппан; Рангвала, Хузефа; Рамакришнан, Нарен (2016). «Моделирование предвестников для прогнозирования событий с помощью вложенного многооконного обучения». arXiv : 1602.08033 [ cs.SI ].
- ^ Буза, Кристиан. « Предсказание обратной связи для блогов ». Анализ данных, машинное обучение и поиск знаний . Springer International Publishing, 2014. 145–152.
- ^ Soysal, Омер M (2015). «Поиск ассоциативных правил с наиболее связанными последовательными шаблонами» Экспертные системы с приложениями . 42 (5): 2582–2592. DOI : 10.1016 / j.eswa.2014.10.049 .
- ^ Боуман, Самуэль и др. « Большой аннотированный корпус для изучения логического вывода на естественном языке ». Труды конференции 2015 года по эмпирическим методам обработки естественного языка (EMNLP). ACL, 2015.
- ^ "DSL Corpus Collection" . ttg.uni-saarland.de . Проверено 22 сентября 2017 года .
- ^ "Городские слова словаря и определения" .
- ^ Х. Эльсахар, П. Вужьюклис, А. Ремаси, К. Гравье, Дж. Хейр, Ф. Лафорест, Э. Симперл, « T-REx: крупномасштабное согласование естественного языка с троек базовых знаний », Труды Одиннадцатая Международная конференция по языковым ресурсам и оценке (LREC-2018).
- Перейти ↑ Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, SR (2018). Glue: многозадачная платформа для тестирования и анализа естественного языка. Препринт arXiv arXiv: 1804.07461.
- ^ «Компьютеры учатся читать - но они все еще не так умны» . Проводной . Проверено 29 декабря 2019 .
- ^ Куан, Хоанг Лам; Куанг, Дуй Ле; Ван Киет, Нгуен; Нган, Луу-Туи Нгуен. «UIT-ViIC: набор данных для первой оценки вьетнамских подписей к изображениям» .
- ^ To, Куок Хай; Нгуен, Ван Киет; Нгуен, Луу Туи Нган; Нгуен, Гиа Туан Ань. (2020). «Прогнозирование пола на основе вьетнамских имен с помощью методов машинного обучения» (PDF) . Материалы 4-й Международной конференции по обработке естественного языка и поиску информации . С. 55–60. arXiv : 2010.10852 . DOI : 10.1145 / 3443279.3443309 . ISBN 9781450377607. S2CID 224814110 .
- ^ Нгуен, Луан Тхань; Ван Нгуен, Кьет; Нгуен, Нган Луу-Туи (18 марта 2021 г.). «Конструктивное и токсичное обнаружение речи для комментариев в социальных сетях открытого типа на вьетнамском языке». arXiv : 2103.10069 [ cs.CL ].
- ^ М. Versteegh, Р. Thiollière, Т. Schatz, X.-N. Цао, X. Ангуера, А. Янсен и Э. Дюпу (2015). «The Zero Resource Speech Challenge 2015» в INTERSPEECH-2015.
- ^ М. Versteegh, Х. Anguera, А. Янсен, Э. Dupoux, (2016). « Проблема речи с нулевым ресурсом 2015: предлагаемые подходы и результаты » в SLTU-2016.
- ^ Сакар, Бетул Эрдогду; и другие. (2013). «Сбор и анализ набора данных речи Паркинсона с несколькими типами звукозаписей». Журнал IEEE по биомедицинской и медицинской информатике . 17 (4): 828–834. DOI : 10,1109 / jbhi.2013.2245674 . PMID 25055311 . S2CID 15491516 .
- ^ Чжао, Шунан и др. « Автоматическое определение выраженных эмоций при болезни Паркинсона ». Акустика, речь и обработка сигналов (ICASSP), 2014 IEEE Международной конференции по . IEEE, 2014.
- ^ Используется в: хамах, Nacereddine и Мульди Bedda. «Улучшенная древовидная модель для распознавания арабской речи». Компьютерные науки и информационные технологии (ICCSIT), 3-я Международная конференция IEEE, 2010 г., посвященная . Vol. 5. IEEE, 2010.
- ^ Маатен, Лоренс. « Изучение отличительных ядер Фишера ». Материалы 28-й Международной конференции по машинному обучению (ICML-11) . 2011 г.
- ^ Коул, Рональд и Марк Фэнти. « Разговорное распознавание письма ». Proc. Третий семинар DARPA по речи и естественному языку . 1990 г.
- ^ Шапель, Оливье; Синдвани, Викас; Кирти, Сатья С. (2008). «Методы оптимизации для полууправляемых машин опорных векторов» (PDF) . Журнал исследований в области машинного обучения . 9 : 203–233.
- ^ Кудо, Mineichi; Тояма, Джун; Симбо, Масару (1999). «Классификация многомерных кривых с использованием сквозных областей». Письма о распознавании образов . 20 (11): 1103–1111. CiteSeerX 10.1.1.46.2515 . DOI : 10.1016 / s0167-8655 (99) 00077-X .
- ^ Jaeger, Герберт; и другие. (2007). «Оптимизация и применение сетей эхо-состояний с нейронами-интеграторами утечки». Нейронные сети . 20 (3): 335–352. DOI : 10.1016 / j.neunet.2007.04.016 . PMID 17517495 .
- ^ Tsanas, Афанасий; и другие. (2010). «Точный дистанционный мониторинг прогрессирования болезни Паркинсона с помощью неинвазивных речевых тестов» . IEEE Transactions on Biomedical Engineering (Представленная рукопись). 57 (4): 884–893. DOI : 10.1109 / tbme.2009.2036000 . PMID 19932995 . S2CID 7382779 .
- ^ Клиффорд, Гари Д .; Клифтон, Дэвид (2012). «Беспроводные технологии в лечении болезней и медицине». Ежегодный обзор медицины . 63 : 479–492. DOI : 10.1146 / annurev-med-051210-114650 . PMID 22053737 .
- ^ Зу, Виктор; Сенефф, Стефани; Стекло, Джеймс (1990). «Разработка речевой базы данных в MIT: TIMIT и не только». Речевое общение . 9 (4): 351–356. DOI : 10.1016 / 0167-6393 (90) 90010-7 .
- ^ Kapadia, Садик, Valtcho Valtchev и SJ Young. «Обучение MMI для непрерывного распознавания фонем в базе данных TIMIT». Акустика, речь и обработка сигналов, 1993. ICASSP-93., 1993 Международная конференция IEEE по . Vol. 2. IEEE, 1993.
- ^ Halabi, Навар (2016). Современная стандартная арабская фонетика для синтеза речи (PDF) (докторская диссертация). Университет Саутгемптона , Школа электроники и компьютерных наук.
- ^ Ардила, Розана; Брэнсон, Меган; Дэвис, Келли; Хенретти, Майкл; Колер, Майкл; Мейер, Джош; Мораис, Рувим; Сондерс, Линдси; Тайерс, Фрэнсис М .; Вебер, Грегор (13 декабря 2019 г.). «Общий голос: многоязычный речевой корпус». arXiv : 1912.06670v2 [ cs.CL ].
- ↑ Чжоу, Фанг, К. Клэр и Росс Д. Кинг. « Предсказание географического происхождения музыки ». Интеллектуальный анализ данных (ICDM), 2014 IEEE Международной конференции по . IEEE, 2014.
- ^ Сачченти, Эдоардо; Камачо, Хосе (2015). «Об использовании k-кратной операции наблюдения в перекрестной проверке PCA». Журнал хемометрики . 29 (8): 467–478. DOI : 10.1002 / cem.2726 . ЛВП : 10481/55302 . S2CID 62248957 .
- ^ Bertin-Mahieux, Thierry, et al. «Набор данных миллиона песен». ISMIR 2011: Материалы 12-й Международной конференции по поиску музыкальной информации, 24–28 октября 2011 г., Майами, Флорида . Университет Майами, 2011 г.
- ^ Хенафф, Микаэль; и другие. (2011). «Неконтролируемое обучение разреженным функциям для масштабируемой классификации аудио» (PDF) . ИСМИР . 11 .
- ^ Rafii Зафар (2017). "Музыка". MUSDB18 - корпус для музыкального разделения . DOI : 10.5281 / zenodo.1117372 .
- ^ Дефферрард, Михаэль; Бензи, Кирелл; Вандергейнст, Пьер; Брессон, Ксавье (6 декабря 2016 г.). «FMA: набор данных для музыкального анализа». arXiv : 1612.01840 [ cs.SD ].
- ^ Эспозито, Роберто; Radicioni, Даниэле П. (2009). «Carpediem: Оптимизация алгоритма Витерби и приложений для контролируемого последовательного обучения» (PDF) . Журнал исследований в области машинного обучения . 10 : 1851–1880.
- ^ Сурати, Джамшид; и другие. (2016). «Классификация активного обучения на основе взаимной информации» . Энтропия . 18 (2): 51. Bibcode : 2016Entrp..18 ... 51S . DOI : 10.3390 / e18020051 .
- ^ Саламон, Джастин; Джейкоби, Кристофер; Белло, Хуан Пабло. « Набор данных и таксономия для исследования звука в городах ». Материалы Международной конференции ACM по мультимедиа . ACM, 2014.
- ^ Лагранж, Матье; Лафэ, Грегуар; Россиньол, Матиас; Бенетос, Эммануил; Робель, Аксель (2015). «Схема оценки для обнаружения событий с использованием морфологической модели акустических сцен». arXiv : 1502.00141 [ stat.ML ].
- ^ Геммеке, Джорт Ф. и др. «Аудиосистема: онтология и маркированный человеком набор данных для аудиособытий». Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). 2017 г.
- ^ «Осторожно, орнитологи: искусственный интеллект научился замечать птиц по их песням» . Наука | AAAS . 18 июля 2018 . Проверено 22 июля 2018 .
- ^ "Проблема обнаружения звука птиц" . Лаборатория машинного прослушивания в Университете Королевы Марии . 3 мая 2016 . Проверено 22 июля 2018 .
- ^ Wichern, G., et al. «WHAM !: Распространение разделения речи на шумную среду», Interspeech, 2019, https://arxiv.org/abs/1907.01160
- ^ Дроссос, К., Липпинг, С., и Виртанен, Т. «Клото: набор данных с аудиозаписями» Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). 2020.
- ^ Дроссос, К., Липпинг, С., и Виртанен, Т. (2019). Набор данных Clotho (Версия 1.0) [Набор данных]. Зенодо . http://doi.org/10.5281/zenodo.3490684
- ^ CAIDA UCSD Dataset на червя Witty - 19-24 марта 2004 года, http://www.caida.org/data/passive/witty_worm_dataset.xml
- ^ Chen, Zesheng и Chuanyi Джи. « Оптимальный метод сканирования на червей с использованием дистрибутивов уязвимых хостов ». Международный журнал безопасности и сетей 2.1–2 (2007): 71–80.
- ^ Kachuee, Mohamad, et al. « Оценка артериального давления без манжеты с высокой точностью без калибровки с использованием времени прохождения импульса ». Схемы и системы (ИСОГД), 2015 IEEE Международного симпозиума по . IEEE, 2015.
- ^ PhysioBank, PhysioToolkit. «PhysioNet: компоненты нового ресурса для исследования сложных физиологических сигналов». Тираж. v101 i23. e215-e220 .
- ↑ Вергара, Александр; и другие. (2012). «Компенсация дрейфа химического газового сенсора с помощью ансамблей классификаторов». Датчики и исполнительные механизмы B: химические . 166 : 320–329. DOI : 10.1016 / j.snb.2012.01.074 .
- ^ Коротценков, Г .; Чо, Б.К. (2014). «Инженерные подходы к улучшению параметров кондуктометрических датчиков газа. Часть 2: Снижение рассеиваемой (расходуемой) мощности и повышение стабильности и надежности». Датчики и исполнительные механизмы B: химические . 198 : 316–341. DOI : 10.1016 / j.snb.2014.03.069 .
- Перейти ↑ Quinlan, John R (1992). «Обучение с непрерывными занятиями» (PDF) . 5-я Австралийская совместная конференция по искусственному интеллекту . 92 .
- ^ Мерц, Кристофер Дж .; Паццани, Майкл Дж. (1999). «Подход основных компонентов к объединению оценок регрессии» . Машинное обучение . 36 (1–2): 9–32. DOI : 10.1023 / а: 1007507221352 .
- ^ Торрес-Соспедра, Хоакин и др. «UJIIndoorLoc-Mag: новая база данных для проблем локализации на основе магнитного поля». Крытый позиционирования и навигации в помещении (IPIN), 2015 Международная конференция по . IEEE, 2015.
- ^ Berkvens, Рафаэль, Маартен Вейн, и Герберт Peremans. « Средняя взаимная информация о вероятностной локализации Wi-Fi ». Внутреннее позиционирование и внутренняя навигация (IPIN), Международная конференция 2015 г. Банф, Канада: IPIN . 2015 г.
- ^ Пашке, Фабиан и др. «Sensorlose Zustandsüberwachung an Synchronmotoren». Ход работы. 23. Семинар по вычислительному интеллекту, Дортмунд, 5.-6. Dezember 2013 . КИТ Научное издательство, 2013.
- ^ Лессмайер, Кристиан и др. « Сбор данных и анализ сигналов от измеренных токов двигателя для обнаружения дефектов в электромеханических приводных системах ».
- ^ Угулино, Уоллес и др. « Носимые компьютеры: классификация положений тела и движений по данным акселерометров» . Достижения в области искусственного интеллекта-SBIA 2012 . Springer Berlin Heidelberg, 2012. 52–61.
- ^ Шнайдер, Ян; и другие. (2015). «Усиление чувств: обзор сенсорной поддержки обучения» . Датчики . 15 (2): 4097–4133. DOI : 10.3390 / s150204097 . PMC 4367401 . PMID 25679313 .
- ^ Мадео, Рената CB, Клодоальдо AM Лима и Сараджейн М. Перес. « Сегментация единиц жестов с использованием опорных векторных машин: сегментирование жестов из положений покоя ». Материалы 28-го ежегодного симпозиума ACM по прикладным вычислениям . ACM, 2013.
- ^ Лун, Роанна; Чжао, Вэньбин (2015). «Обзор приложений и распознавания движения человека с помощью Microsoft Kinect» . Международный журнал распознавания образов и искусственного интеллекта . 29 (5): 1555008. DOI : 10,1142 / s0218001415550083 .
- ^ Theodoridis, Теодорос и Huosheng Ху. « Классификация действий трехмерных моделей человека с использованием динамических ИНС для наблюдения за мобильными роботами ». Робототехника и биомиметика, 2007. ROBIO 2007. Международная конференция IEEE по . IEEE, 2007.
- ^ Etemad, Сейед Али и Али Arya. « Трехмерное распознавание действий человека и преобразование стиля с использованием устойчивых нейронных сетей обратного распространения». Интеллектуальные вычисления и интеллектуальные системы, 2009. ICIS 2009. Международная конференция IEEE по . Vol. 4. IEEE, 2009.
- ^ Алтун, Керем; Баршан, Биллур; Тунчел, Оркун (2010). «Сравнительное исследование по классификации человеческой деятельности с помощью миниатюрных инерциальных и магнитных датчиков». Распознавание образов . 43 (10): 3605–3620. DOI : 10.1016 / j.patcog.2010.04.019 . hdl : 11693/11947 .
- ^ Натан, Ран ; и другие. (2012). «Использование данных трехосного ускорения для определения поведенческих режимов животных, находящихся на свободном выгуле: общие концепции и инструменты, иллюстрированные для грифов-стервятников» . Журнал экспериментальной биологии . 215 (6): 986–996. DOI : 10,1242 / jeb.058602 . PMC 3284320 . PMID 22357592 .
- ^ Anguita, Davide, et al. « Распознавание человеческой активности на смартфонах с помощью мультиклассовой аппаратной векторной машины поддержки ». Окружающее вспомогательное проживание и уход на дому . Springer Berlin Heidelberg, 2012. 216–223.
- ^ Су, Син; Тонг, Хангханг; Цзи, Пинг (2014). «Распознавание активности с помощью сенсоров смартфона». Наука и технологии Цинхуа . 19 (3): 235–249. DOI : 10.1109 / tst.2014.6838194 .
- ^ Kadous Мохаммед Валид. Временная классификация: расширение парадигмы классификации на многомерные временные ряды . Дисс. Университет Нового Южного Уэльса, 2002 г.
- ^ Грейвс, Алекс и др. « Коннекционистская временная классификация: маркировка несегментированных данных последовательностей с помощью рекуррентных нейронных сетей ». Материалы 23-й международной конференции по машинному обучению . ACM, 2006.
- ^ Веллозо, Эдуардо и др. « Качественное распознавание активности упражнений по поднятию тяжестей ». Материалы 4-й Международной конференции по дополненному человечеству . ACM, 2013.
- ^ Мортазави, Бобак Джек и др. « Определение единственной наилучшей оси для распознавания повторения упражнений и подсчет умных часов ». Датчик носимый и имплантируемый Body Networks (BSN), 2014 11 - я Международная конференция по . IEEE, 2014.
- ^ Сапсанис, Христос и др. « Улучшение классификации основных движений рук на основе ЭМГ с помощью EMD ». Общество инженерии в медицине и биологии (EMBC), 2013 35-я ежегодная международная конференция IEEE . IEEE, 2013.
- ^ а б Андрианезис, Константинос; Цес, Энтони (2015). «Разработка и контроль многофункционального протеза руки с приводами из сплава с памятью формы». Журнал интеллектуальных и робототехнических систем . 78 (2): 257–289. DOI : 10.1007 / s10846-014-0061-6 . S2CID 207174078 .
- ^ Банос, Орести; и другие. (2014). «Работа с эффектами смещения датчика при распознавании носимых устройств» . Датчики . 14 (6): 9995–10023. DOI : 10.3390 / s140609995 . PMC 4118358 . PMID 24915181 .
- ^ Стизен, Аллан и др. « Умные устройства разные: оценка и устранение неоднородностей мобильного зондирования для распознавания активности ». Материалы 13-й конференции ACM по встроенным сетевым сенсорным системам . ACM, 2015.
- ^ Баттачария Sourav, и Николас Д. Лейн. « От умного к глубокому: надежное распознавание активности на умных часах с использованием глубокого обучения ».
- ^ Баччу, Давиде; и другие. (2014). «Экспериментальная характеристика резервуарных вычислений в приложениях для вспомогательных жилых помещений». Нейронные вычисления и приложения . 24 (6): 1451–1464. DOI : 10.1007 / s00521-013-1364-4 . ЛВП : 11568/237959 . S2CID 14124013 .
- ^ Паламбо, Филиппо; Барсоччи, Паоло; Галликкио, Клаудио; Чесса, Стефано; Микели, Алессио (2013). «Объединение мультисенсорных данных для распознавания активности на основе пластовых вычислений» . Оценка систем AAL с помощью конкурентного бенчмаркинга . Коммуникации в компьютерных и информационных науках. 386 . С. 24–35. DOI : 10.1007 / 978-3-642-41043-7_3 . ISBN 978-3-642-41042-0.
- ↑ Рейсс, Аттила и Дидье Стрикер. « Представляем новый набор данных для мониторинга активности ». Переносные компьютеры (ISWC), 2012 16 - й Международный симпозиум по . IEEE, 2012.
- ^ Рогген, Дэниел и др. « ВОЗМОЖНОСТЬ: На пути к оппортунистической деятельности и системам распознавания контекста ». Мир беспроводных, мобильных и мультимедийных сетей и семинары, 2009. WoWMoM 2009. Международный симпозиум IEEE по a . IEEE, 2009 г.
- ^ Курц, Марк и др. « Динамическая количественная оценка возможностей распознавания активности в оппортунистических системах ». Конференция по автомобильным технологиям (VTC Spring), 2011 IEEE 73-е . IEEE, 2011.
- ^ Sztyler, Тимо, и Хайнер Stuckenschmidt. « Локализация носимых устройств на теле: исследование распознавания активности с учетом положения ». Pervasive Computing и связи (PerCom), IEEE 2016 Международная конференция по . IEEE, 2016.
- ^ Чжи, Ин Сюань; Лукасик, Мишель; Ли, Майкл Х .; Долатабади, Эльхам; Ван, Розали Х .; Таати, Бабак (2018). «Автоматическое определение компенсации при роботизированной реабилитационной терапии после инсульта» . Журнал IEEE по трансляционной инженерии в здравоохранении и медицине . 6 : 2100107. DOI : 10,1109 / JTEHM.2017.2780836 . ISSN 2168-2372 . PMC 5788403 . PMID 29404226 .
- ^ Долатабади, Эльхам; Чжи, Ин Сюань; Е, Бинг; Коахран, Мардж; Лупиначчи, Джорджия; Михайлидис, Алекс; Ван, Розали; Таати, Бабак (23 мая 2017 г.). Набор данных позы инсульта в реабилитационном центре Торонто для определения компенсации во время реабилитационной терапии после инсульта . ACM. С. 375–381. DOI : 10.1145 / 3154862.3154925 . ISBN 9781450363631. S2CID 24581930 .
- ^ "Набор данных позы инсульта в реабилитации Торонто" .
- ^ Юнг, Мерел М .; Поэль, Маннес; Поппе, Рональд; Хейлен, Дирк KJ (1 марта 2017 г.). «Автоматическое распознавание сенсорных жестов в корпусе социального прикосновения». Журнал по мультимодальным пользовательским интерфейсам . 11 (1): 81–96. DOI : 10.1007 / s12193-016-0232-9 . ISSN 1783-8738 . S2CID 1802116 .
- ^ Jung, MM (Merel) (1 июня 2016). «Корпус социальных контактов (CoST)» . Университет Твенте. DOI : 10,4121 / UUID: 5ef62345-3b3e-479c-8e1d-c922748c9b29 . Cite journal requires
|journal=
(help) - ^ Эберхард, С. Д. Coomans и О. де Вель. «Сравнение классификаторов в параметрах большой размерности». Кафедра математики. Статист., Университет Джеймса Кука, Северный Квинсленд, Австралия, Tech. Реп 92-02 (1992).
- ^ Басу, Сугато. « Полууправляемая кластеризация с ограниченными базовыми знаниями ». AAAI . 2004 г.
- ^ Tüfekci, Pınar (2014). «Прогнозирование выходной электрической мощности при полной нагрузке электростанции комбинированного цикла, работающей при базовой нагрузке, с использованием методов машинного обучения». Международный журнал электроэнергетических и энергетических систем . 60 : 126–140. DOI : 10.1016 / j.ijepes.2014.02.027 .
- ^ Kaya, Heysem, Pınar Tüfekci и Фикрет С. Гюрген. «Локальные и глобальные методы обучения для прогнозирования мощности комбинированной газовой и паровой турбины». Международная конференция по новым тенденциям в компьютерной и электронной инженерии (ICETCEE'2012), Дубай . 2012 г.
- ^ Бальди, Пьер; Садовски, Питер; Уайтсон, Дэниел (2014). «Поиск экзотических частиц в физике высоких энергий с глубоким обучением». Nature Communications . 5 : 2014. arXiv : 1402.4735 . Bibcode : 2014NatCo ... 5.4308B . DOI : 10.1038 / ncomms5308 . PMID 24986233 . S2CID 195953 .
- ^ a b Бальди, Пьер; Садовски, Питер; Уайтсон, Дэниел (2015). «Улучшенный бозон Хиггса для поиска τ + τ– с глубоким обучением». Письма с физическим обзором . 114 (11): 111801. arXiv : 1410.3469 . Bibcode : 2015PhRvL.114k1801B . DOI : 10.1103 / physrevlett.114.111801 . PMID 25839260 . S2CID 2339142 .
- ^ a b Adam-Bourdarios, C .; Cowan, G .; Germain-Renaud, C .; Guyon, I .; Kégl, B .; Руссо, Д. (2015). «Проблема машинного обучения Хиггса» . Журнал физики: Серия конференций . 664 (7): 072015. Bibcode : 2015JPhCS.664g2015A . DOI : 10.1088 / 1742-6596 / 664/7/072015 .
- ↑ Пьер Бальди, Кайл Кранмер, Тейлор Фосетт, Питер Садовски и Дэниел Уайтсон. « Параметризованное машинное обучение для физики высоких энергий» . В подчинении.
- ^ Ортигоса, I .; Lopez, R .; Гарсия, Дж. "Подход нейронных сетей к остаточному сопротивлению прогнозирования парусных яхт". Материалы Международной конференции по морской инженерии МОРСКОЙ ОБЛАСТИ . 2007 .
- ^ Gerritsma, J. Р. Onnink и А. Versluis. Геометрия, прочность и устойчивость корпусов яхт серии delft systematic . Делфтский технологический университет, 1981.
- ↑ Лю, Хуан и Хироши Мотода. Извлечение, построение и выбор признаков: перспектива интеллектуального анализа данных . Springer Science & Business Media, 1998.
- ^ Райх, Йорам. Приведение к идеальным знаниям в области дизайна путем обучения . [Университет Карнеги-Меллона], Исследовательский центр инженерного дизайна, 1989.
- ^ Тодоровски, Люпчо; Джероски, Сашо (1999). «Эксперименты на мета-уровне обучения с помощью ILP» . Принципы интеллектуального анализа данных и обнаружения знаний . Конспект лекций по информатике. 1704 . С. 98–106. DOI : 10.1007 / 978-3-540-48247-5_11 . ISBN 978-3-540-66490-1.
- ^ Ван, Юн. Новый подход к подгонке линейных моделей в пространствах большой размерности . Дисс. Университет Вайкато, 2000 г.
- ^ Киблер, Деннис; Ага, Дэвид В .; Альберт, Марк К. (1989). «Предсказание действительных атрибутов на основе экземпляров» . Вычислительный интеллект . 5 (2): 51–57. DOI : 10.1111 / j.1467-8640.1989.tb00315.x . S2CID 40800413 .
- ^ Палмер, Кристофер Р. и Христос Фалаутсос. « Электричество основано на внешнем подобии категориальных признаков ». Достижения в области обнаружения знаний и интеллектуального анализа данных . Springer Berlin Heidelberg, 2003. 486–500.
- ^ Tsanas, Афанасий; Ксифара, Ангелики (2012). «Точная количественная оценка энергоэффективности жилых домов с использованием инструментов статистического машинного обучения». Энергия и здания . 49 : 560–567. DOI : 10.1016 / j.enbuild.2012.03.003 .
- Перейти ↑ De Wilde, Pieter (2014). «Разрыв между прогнозируемыми и измеренными энергоэффективностью зданий: основа для исследования». Автоматизация в строительстве . 41 : 40–49. DOI : 10.1016 / j.autcon.2014.02.009 .
- ^ Брукс, Томас Ф., Д. Стюарт Поуп и Майкл А. Марколини. Самошум аэродинамического профиля и прогнозирование . Vol. 1218. Национальное управление по аэронавтике и исследованию космического пространства, Управление управления, Отдел научной и технической информации, 1989 г.
- ^ Дрейпер, Дэвид. « Оценка и распространение неопределенности модели ». Журнал Королевского статистического общества, серия B (методологическая) (1995): 45–97.
- ^ Лавин, Майкл (1991). «Проблемы экстраполяции, проиллюстрированные данными об уплотнительном кольце космического челнока». Журнал Американской статистической ассоциации . 86 (416): 919–921. DOI : 10.1080 / 01621459.1991.10475132 .
- ↑ Ван, Цзюнь, Бей Ю и Лесс Гассер. « Визуализация кластеризации на основе дерева концепций с заштрихованными матрицами сходства ». Data Mining, 2002. ICDM 2003. Труды. 2002 Международная конференция IEEE по . IEEE, 2002.
- ^ Петтенгилл, Гордон Х. и др. « Магеллан: характеристики радара и информационные продукты ». Science 252.5003 (1991): 260–265.
- ^ a b Aharonian, F .; и другие. (2008). «Энергетический спектр электронов космических лучей при энергиях ТэВ». Письма с физическим обзором . 101 (26): 261104. arXiv : 0811.3894 . Bibcode : 2008PhRvL.101z1104A . DOI : 10.1103 / PhysRevLett.101.261104 . ЛВП : 2440/51450 . PMID 19437632 . S2CID 41850528 .
- ^ Бок, РК; и другие. (2004). «Методы многомерной классификации событий: тематическое исследование с использованием изображений с Черенковского гамма-телескопа». Ядерные инструменты и методы в физических исследованиях Секция A: Ускорители, спектрометры, детекторы и связанное с ними оборудование . 516 (2): 511–528. Bibcode : 2004NIMPA.516..511B . DOI : 10.1016 / j.nima.2003.08.157 .
- ^ Ли, Цзиньянь; и другие. (2004). «Deeps: новая система отложенного обнаружения и классификации на основе экземпляров» . Машинное обучение . 54 (2): 99–124. DOI : 10.1023 / B: mach.0000011804.08528.7d .
- ↑ Зиберт, Ли и Том Симкин. «Вулканы мира: иллюстрированный каталог вулканов голоцена и их извержений». (2014).
- ^ Сикора, Марек; Wróbel, Лукаш (2010). «Применение алгоритмов индукции правил для анализа данных, собранных системами мониторинга сейсмической опасности на угольных шахтах» . Архив горных наук . 55 (1): 91–114.
- ↑ Сикора, Марек и Беата Сикора. «Грубый мониторинг опасных природных явлений». Грубые наборы: избранные методы и приложения в менеджменте и инженерии . Springer London, 2012. 163–179.
- ^ Да, I – C (1998). «Моделирование прочности высокопрочного бетона с помощью искусственных нейронных сетей». Цемент и бетонные исследования . 28 (12): 1797–1808. DOI : 10.1016 / s0008-8846 (98) 00165-3 .
- ^ Заранди, MH Фазель; и другие. (2008). «Нечеткие полиномиальные нейронные сети для аппроксимации прочности бетона на сжатие». Прикладные программные вычисления . 8 (1): 488–498. Bibcode : 2008ApSoC ... 8 ... 79S . DOI : 10.1016 / j.asoc.2007.02.010 .
- ^ Yeh, I. "Моделирование осадки бетона с помощью летучей золы и суперпластификатора". Компьютеры и бетон 5.6 (2008): 559–572.
- ^ Генсель, Осман; и другие. (2011). «Сравнение искусственных нейронных сетей и общих линейных модельных подходов для анализа абразивного износа бетона». Строительные и строительные материалы . 25 (8): 3486–3494. DOI : 10.1016 / j.conbuildmat.2011.03.040 .
- ^ Диттерих, Томас Г. и др. « Сравнение динамического отклика и тангенциального расстояния для прогнозирования активности лекарств ». Достижения в системах обработки нейронной информации (1994): 216–216.
- ^ Бушема, Массимо, Уильям Дж. Тастл и Стефано Терци. « Мета-сеть: новое семейство мета-классификаторов ». Приложения интеллектуального анализа данных с использованием искусственных адаптивных систем . Springer New York, 2013. 141–182.
- ^ Ингбер, Lester (1997). «Статистическая механика неокортикальных взаимодействий: канонические импульсные индикаторы электроэнцефалографии». Physical Review E . 55 (4): 4578–4593. arXiv : физика / 0001052 . Bibcode : 1997PhRvE..55.4578I . DOI : 10.1103 / PhysRevE.55.4578 . S2CID 6390999 .
- ^ Хоффманн, Ульрих; Весин, Жан-Марк; Эбрахими, Турадж; Diserens, Карин (2008). «Эффективный интерфейс мозг-компьютер на базе P300 для людей с ограниченными возможностями». Журнал методов неврологии . 167 (1): 115–125. CiteSeerX 10.1.1.352.4630 . DOI : 10.1016 / j.jneumeth.2007.03.005 . PMID 17445904 . S2CID 9648828 .
- ^ Дончин, Эмануэль; Спенсер, Кевин М .; Wijesinghe, Ranjith (2000). «Психический протез: оценка скорости интерфейса мозг-компьютер на базе P300». IEEE Transactions по реабилитационной инженерии . 8 (2): 174–179. DOI : 10.1109 / 86.847808 . PMID 10896179 .
- ^ Детрано, Роберт; и другие. (1989). «Международное применение нового вероятностного алгоритма диагностики ишемической болезни сердца». Американский журнал кардиологии . 64 (5): 304–310. DOI : 10.1016 / 0002-9149 (89) 90524-9 . PMID 2756873 .
- ^ Брэдли, Эндрю П. (1997). «Использование площади под кривой ROC при оценке алгоритмов машинного обучения» (PDF) . Распознавание образов . 30 (7): 1145–1159. DOI : 10.1016 / s0031-3203 (96) 00142-2 .
- ^ Улица, WN; Вольберг, WH; Мангасарян, О.Л. (1993). «Извлечение ядерных признаков для диагностики опухолей молочной железы» . В Ачарье - Радж С. Гольдгоф, Дмитрий Б (ред.). Биомедицинская обработка изображений и биомедицинская визуализация . 1905 . С. 861–870. DOI : 10.1117 / 12.148698 . S2CID 14922543 .
- ^ Demir, Cigdem и Бюлент Yener. « Автоматическая диагностика рака на основе гистопатологических изображений: систематический обзор ». Политехнический институт Ренсселера, Tech. Rep (2005).
- ^ Злоупотребление, вещества. «Управление служб психического здоровья, результаты национального исследования употребления наркотиков и здоровья 2010 г .: сводка национальных результатов, серия NSDUH H-41, публикация HHS № (SMA) 11-4658». Роквилл, Мэриленд: Управление служб психического здоровья и наркозависимости 201 (2011).
- ^ Хун, Цзы-Цюань; Ян, Цзин-Ю (1991). «Оптимальная дискриминантная плоскость для небольшого количества выборок и метод построения классификатора на плоскости». Распознавание образов . 24 (4): 317–324. DOI : 10.1016 / 0031-3203 (91) 90074-ф .
- ^ а б Ли, Цзиньянь и Лисун Вонг. «Использование правил для анализа биомедицинских данных: сравнение между C4. 5 и PCL». Достижения в области управления информацией в эпоху Интернета . Springer Berlin Heidelberg, 2003. 254-265.
- ^ Гювенир, Х. Алтай и др. « Алгоритм машинного обучения с учителем для анализа аритмии ». Компьютеры в кардиологии 1997 . IEEE, 1997.
- ^ Лагус, Криста и др. « Независимый групповой анализ переменных в изучении компактных представлений данных ». Труды Международной и междисциплинарной конференции по адаптивному представлению знаний и рассуждению (AKRR'05), Т. Хонкела, В. Коненен, М. Пёлля и О. Симула, ред., Эспоо, Финляндия . 2005 г.
- ^ Strack, Beata и др. « Влияние измерения HbA1c на частоту повторной госпитализации: анализ 70 000 историй болезни пациентов из базы данных ». BioMed Research International 2014; 2014 г.
- Перейти ↑ Rubin, Daniel J (2015). «Повторная госпитализация больных сахарным диабетом». Текущие отчеты о диабете . 15 (4): 1–9. DOI : 10.1007 / s11892-015-0584-7 . PMID 25712258 . S2CID 3908599 .
- ^ Антал, Балинт; Хайду, Андраш (2014). «Ансамблевая система автоматического скрининга диабетической ретинопатии». Системы, основанные на знаниях . 60 (2014): 20–27. arXiv : 1410,8576 . Bibcode : 2014arXiv1410.8576A . DOI : 10.1016 / j.knosys.2013.12.023 . S2CID 13984326 .
- ^ Haloi, Mrinal (2015). «Улучшенное обнаружение микроаневризмы с использованием глубоких нейронных сетей». arXiv : 1505.04424 [ cs.CV ].
- ^ ЭЛИ, Гийом ПАТРИ, Жерве Готье, Бруно ЛЭЙ, Жюльен РОДЖЕР, Дэмиен. «Загрузка ADCIS третьей стороны: база данных Messidor» . adcis.net . Проверено 25 февраля 2018 года .
- ^ Decencière, Этьен; Чжан, Сивэй; Казугуэль, Гай; Лей, Бруно; Кошенер, Беатрис; Трон, Кэролайн; Усиление, Филипп; Ордонез, Ричард; Массин, Паскаль (26 августа 2014 г.). «Отзыв о публично распространяемой базе данных изображений: база данных Messidor» . Анализ изображений и стереология . 33 (3): 231–234. DOI : 10.5566 / ias.1155 . ISSN 1854-5165 .
- ^ Багиров, AM; и другие. (2003). «Неконтролируемая и контролируемая классификация данных посредством негладкой и глобальной оптимизации». Вверху . 11 (1): 1–75. CiteSeerX 10.1.1.1.6429 . DOI : 10.1007 / bf02578945 . S2CID 14165678 .
- ^ Фунг, Гленн и др. « Быстрый итерационный алгоритм для дискриминанта Фишера с использованием неоднородных ядер ». Материалы двадцать первой международной конференции по машинному обучению . ACM, 2004.
- ^ Куинлан, Джон Росс и др. «Индуктивное приобретение знаний: тематическое исследование». Труды Второй австралийской конференции по приложениям экспертных систем . Addison-Wesley Longman Publishing Co., Inc., 1987.
- ^ а б Чжоу, Чжи-Хуа; Цзян, Юань (2004). «NeC4. 5: нейронный ансамбль на основе C4. 5». IEEE Transactions по разработке знаний и данных . 16 (6): 770–773. CiteSeerX 10.1.1.1.8430 . DOI : 10,1109 / tkde.2004.11 . S2CID 1024861 .
- ^ Эр, Орхан; и другие. (2012). «Подход, основанный на вероятностной нейронной сети для диагностики болезни мезотелиомы». Компьютеры и электротехника . 38 (1): 75–81. DOI : 10.1016 / j.compeleceng.2011.09.001 .
- ^ Er, Орхан, А. Четин Танрикул и Абдуррахман Abakay. « Использование методов искусственного интеллекта для диагностики злокачественной мезотелиомы плевры ». Dicle Tıp Dergisi 42.1 (2015).
- ^ Ли, Майкл Х .; Местре, Тьяго А .; Фокс, Сьюзен Х .; Таати, Бабак (25 июля 2017 г.). «Оценка паркинсонизма и вызванной леводопой дискинезии на основе зрения с оценкой позы глубокого обучения» . Журнал нейроинженерии и реабилитации . 15 (1): 97. arXiv : 1707.09416 . Bibcode : 2017arXiv170709416L . DOI : 10.1186 / s12984-018-0446-Z . PMC 6219082 . PMID 30400914 .
- ^ Ли, Майкл Х .; Местре, Тьяго А .; Фокс, Сьюзен Х .; Таати, Бабак (май 2018 г.). «Автоматическая оценка дискинезии, вызванной леводопой: оценка отзывчивости видео-функций». Паркинсонизм и связанные с ним расстройства . 53 : 42–45. DOI : 10.1016 / j.parkreldis.2018.04.036 . ISSN 1353-8020 . PMID 29748112 .
- ^ "Набор данных оценки позы Паркинсона на основе зрения | Kaggle" . kaggle.com . Проверено 22 августа 2018 .
- ^ Шеннон, Пол; и другие. (2003). «Cytoscape: программная среда для интегрированных моделей сетей биомолекулярного взаимодействия» . Геномные исследования . 13 (11): 2498–2504. DOI : 10.1101 / gr.1239303 . PMC 403769 . PMID 14597658 .
- ^ Джавади, Соруш; Миррошандель, Сейед Аболгасем (2019). «Новый метод глубокого обучения для автоматической оценки изображений спермы человека». Компьютеры в биологии и медицине . 109 : 182–194. DOI : 10.1016 / j.compbiomed.2019.04.030 . ISSN 0010-4825 . PMID 31059902 .
- ^ "soroushj / mhsma-dataset: MHSMA: Модифицированный набор данных анализа морфологии спермы человека" . github.com . Дата обращения 3 мая 2019 .
- ↑ Кларк, Дэвид, Золтан Шретер и Энтони Адамс. «Количественное сравнение дистального и обратного распространения». Труды Австралийской конференции 1996 года по нейронным сетям . 1996 г.
- ↑ Цзян, Юань и Чжи-Хуа Чжоу. « Редактирование обучающих данных для классификаторов kNN с помощью ансамбля нейронных сетей» . Достижения в нейронных сетях - ISNN 2004 . Springer Berlin Heidelberg, 2004. 356–361.
- ^ Ontañón, Сантьяго, и Enric Plaza. «О мерах подобия на основе решетки уточнения». Исследование и развитие аргументации на основе прецедентов . Springer Berlin Heidelberg, 2009. 240–255.
- ^ Игера, Клара; Gardiner, Katheleen J .; Чиос, Кшиштоф Дж. (2015). «Самоорганизующиеся функциональные карты идентифицируют белки, критически важные для обучения в мышиной модели синдрома Дауна» . PLOS ONE . 10 (6): e0129126. Bibcode : 2015PLoSO..1029126H . DOI : 10.1371 / journal.pone.0129126 . PMC 4482027 . PMID 26111164 .
- ^ Ахмед, Md Mahiuddin; и другие. (2015). «Белковая динамика, связанная с неудачным и спасенным обучением в мышиной модели синдрома Дауна Ts65Dn» . PLOS ONE . 10 (3): e0119491. Bibcode : 2015PLoSO..1019491A . DOI : 10.1371 / journal.pone.0119491 . PMC 4368539 . PMID 25793384 .
- ^ Лэнгли, PAT (2014). «Компромисс между простотой и охватом при постепенном изучении концепций» (PDF) . Машинное обучение . 1988 : 73.
- ^ "Набор данных грибов 2020" . гриб.mathematik.uni-marburg.de . Проверено 6 апреля 2021 года .
- ^ Вагнер, Деннис; Хайдер, Доминик; Хаттаб, Жорж (14 апреля 2021 г.). «Создание грибовидных данных, курирование и моделирование для поддержки задач классификации» . Научные отчеты . 11 (1): 8134. DOI : 10.1038 / s41598-021-87602-3 . ISSN 2045-2322 .
- ↑ Кортез, Пауло и Анибаль де Хесус Раймундо Мораис. «Подход интеллектуального анализа данных для прогнозирования лесных пожаров с использованием метеорологических данных». (2007).
- ^ Фаркуад, Массачусетс; Рави, В .; Раджу, С. Бапи (2010). «Поддержка методов извлечения гибридных правил на основе векторной регрессии для прогнозирования». Экспертные системы с приложениями . 37 (8): 5577–5589. DOI : 10.1016 / j.eswa.2010.02.055 .
- ^ Фишер, Рональд А (1936). «Использование множественных измерений в таксономических задачах». Летопись евгеники . 7 (2): 179–188. DOI : 10.1111 / j.1469-1809.1936.tb02137.x . ЛВП : 2440/15227 .
- ^ Ghahramani, Zoubin, и Майкл I. Джордан. « Контролируемое обучение на основе неполных данных с помощью метода ЭМ ». Достижения в области нейронных систем обработки информации 6 . 1994 г.
- ^ Маллах, Чарльз; Коп, Джеймс; Оруэлл, Джеймс (2013). «Классификация листьев растений с использованием вероятностной интеграции формы, текстуры и особенностей окраски» . Обработка сигналов, распознавание образов и приложения . 5 : 1.
- ^ Yahiaoui, Itheri, Olfa Mzoughi и Nozha Boujemaa. « Дескриптор формы листа для идентификации древесных пород ». Мультимедиа и Expo (ICME), 2012 IEEE Международная конференция по . IEEE, 2012.
- ↑ Тан, Мин и Ларри Эшелман. « Использование взвешенных сетей для представления знаний о классификации в зашумленных областях ». Материалы Пятой Международной конференции по машинному обучению . 2014 г.
- ^ Charytanowicz, Małgorzata, et al. « Полный алгоритм градиентной кластеризации для анализа характеристик рентгеновских изображений ». Информационные технологии в биомедицине . Springer Berlin Heidelberg, 2010. 15–24.
- ^ Санчес, Маурисио А .; и другие. (2014). «Алгоритм нечеткой гранулярной гравитационной кластеризации для многомерных данных». Информационные науки . 279 : 498–511. DOI : 10.1016 / j.ins.2014.04.005 .
- ^ Блэкард, Джок А .; Дин, Денис Дж. (1999). «Сравнительная точность искусственных нейронных сетей и дискриминантного анализа в прогнозировании типов лесного покрова по картографическим переменным». Компьютеры и электроника в сельском хозяйстве . 24 (3): 131–151. CiteSeerX 10.1.1.128.2475 . DOI : 10.1016 / s0168-1699 (99) 00046-0 .
- ^ Фюрнкранц, Johannes. « Обучение правилам циклического перебора ». Труды 18-й Международной конференции по машинному обучению (ICML-01): 146-153 . 2001 г.
- ^ Ли, Песня; Ассманн, Сара М .; Альберт, Река (2006). «Предсказание основных компонентов сетей передачи сигналов: динамическая модель передачи сигналов абсцизовой кислоты замыкающих клеток» . PLOS Biol . 4 (10): e312. arXiv : q-bio / 0610012 . Bibcode : 2006q.bio .... 10012L . DOI : 10.1371 / journal.pbio.0040312 . PMC 1564158 . PMID 16968132 .
- ^ Мунисами, Тришен; и другие. (2015). «Распознавание листьев растений с использованием характеристик формы и цветовой гистограммы с классификаторами K-ближайших соседей» . Процедуры информатики . 58 : 740–747. DOI : 10.1016 / j.procs.2015.08.095 .
- ^ Ли, Бай (2016). «Соответствие атомного потенциала: эволюционный подход к распознаванию цели, основанный на краевых характеристиках». Оптик-Международный журнал световой и электронной оптики . 127 (5): 3162–3168. Bibcode : 2016Optik.127.3162L . DOI : 10.1016 / j.ijleo.2015.11.186 .
- ^ Nilsback, Мария-Елена и Андрей Зиссерман. « Визуальный словарь для классификации цветов ». Компьютерное зрение и распознавание образов, Конференция компьютерного общества IEEE 2006 г., посвященная . Vol. 2. IEEE, 2006.
- ^ Гизельссон, Томас М .; и другие. (2017). «База данных общедоступных изображений для эталонных алгоритмов классификации саженцев растений». arXiv : 1711.05458 [ cs.CV ].
- ^ Муресан, Хорея; Олтеан, Михай (2018). «Распознавание фруктов по изображениям с использованием глубокого обучения» . Acta Univ. Sapientiae, Informatica . 10 (1): 26–42. DOI : 10,2478 / ausi-2018-0002 .
- ^ Oltean, Михай; Муресан, Хорея (2017). «Набор данных с изображениями фруктов на Kaggle» .
- ^ Накай, Кента; Канехиса, Минору (1991). «Экспертная система для прогнозирования мест локализации белков у грамотрицательных бактерий». Белки: структура, функции и биоинформатика . 11 (2): 95–110. DOI : 10.1002 / prot.340110203 . PMID 1946347 . S2CID 27606447 .
- ^ Линг, Чарльз X. и др. « Деревья решений с минимальными затратами ». Материалы двадцать первой международной конференции по машинному обучению . ACM, 2004.
- ^ Маэ, Пьер и др. « Автоматическая идентификация отпечатков пальцев смешанных видов бактерий в масс-спектре MALDI-TOF ». Биоинформатика (2014): btu022.
- ^ Барбано, Дуэйн; и другие. (2015). «Быстрая характеристика микроводорослей и смесей микроводорослей с использованием матричной лазерной десорбционной ионизационной времяпролетной масс-спектрометрии (MALDI-TOF MS)» . PLOS ONE . 10 (8): e0135337. Bibcode : 2015PLoSO..1035337B . DOI : 10.1371 / journal.pone.0135337 . PMC 4536233 . PMID 26271045 .
- ^ Хортон, Пол; Накай, Кента (1996). «Вероятностная система классификации для предсказания клеточных сайтов локализации белков» (PDF) . ИСМБ-96 Труды . 4 : 109–15. PMID 8877510 .
- ^ Allwein, Эрин Л .; Schapire, Robert E .; Певец, Йорам (2001). «Преобразование мультикласса в двоичный: унифицирующий подход для классификаторов маржи» (PDF) . Журнал исследований в области машинного обучения . 1 : 113–141.
- ^ Майр, Андреас; Кламбауэр, Гюнтер; Унтертинер, Томас; Хохрайтер, Зепп (2016). «DeepTox: Прогнозирование токсичности с использованием глубокого обучения» . Границы науки об окружающей среде . 3 : 80. DOI : 10,3389 / fenvs.2015.00080 .
- ^ Лавин, Александр; Ахмад, Субутай (12 октября 2015 г.). Оценка алгоритмов обнаружения аномалий в реальном времени - тест Numenta Anomaly Benchmark . п. 38. arXiv : 1510.03336 . DOI : 10.1109 / ICMLA.2015.141 . ISBN 978-1-5090-0287-0. S2CID 6842305 .
- ^ Iurii D. Кацер; Вячеслав Олегович Козицын. "Репозиторий SKAB GitHub" . Проверено 12 января 2021 года .
- ^ Iurii D. Кацер; Вячеслав Олегович Козицын (2020). «Сколтех Anomaly Benchmark (SKAB)» . Kaggle. DOI : 10,34740 / KAGGLE / Д / 1693952 . Проверено 12 января 2021 года . Cite journal requires
|journal=
(help) - ^ Campos, Guilherme O .; Зимек, Артур ; Сандер, Йорг; Кампелло, Рикардо Дж.Б. Миченкова, Барбора; Шуберт, Эрих; Согласие, Ира; Хоул, Майкл Э. (2016). «Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование». Интеллектуальный анализ данных и обнаружение знаний . 30 (4): 891. DOI : 10.1007 / s10618-015-0444-8 . ISSN 1384-5810 . S2CID 1952214 .
- ^ Анн-Катрин Хартманн, Томмазо Сору, Эдгард Маркс. Создание большого набора данных для ответа на нейронный вопрос в базе знаний DBpedia . 2018.
- ^ Томмазо Сору, Эдгард Маркс. Диего Муссаллем, Андре Вальдестильяс, Диего Эстевес, Чиро Барон. SPARQL как иностранный язык . 2018.
- ^ Kiet Ван Нгуен, дык-Vu Nguyen, Ань Gia-Туан Нгуен, нган Luu-Туя Нгуен. Вьетнамский набор данных для оценки понимания машинного чтения . COLING 2020.
- ^ Kiet Ван Нгуен, Khiem Винь Tran, сын Т. Luu, Ань Gia-Туан Нгуен, нган Luu-Туи Нгуен. Улучшение лексического подхода с помощью внешних знаний для понимания прочитанного машинным чтением на вьетнамском языке с множественным выбором . Доступ IEEE. 2020.
- ^ Браун, Майкл Скотт, Майкл Дж. Пелози и Генри Дирска. « Генетический алгоритм динамического радиуса сохранения видов для финансового прогнозирования акций индекса Доу-Джонса ». Машинное обучение и интеллектуальный анализ данных в распознавании образов . Springer Berlin Heidelberg, 2013. 27–41.
- ^ Шен, Као-И; Ценг, Гво-Хшюн (2015). «Модель VC-DRSA с расширенным нечетким выводом для технического анализа: помощь в принятии инвестиционных решений». Международный журнал нечетких систем . 17 (3): 375–389. DOI : 10.1007 / s40815-015-0058-8 . S2CID 68241024 .
- Перейти ↑ Quinlan, J. Ross (1987). «Упрощение деревьев решений». Международный журнал человеко-машинных исследований . 27 (3): 221–234. CiteSeerX 10.1.1.18.4267 . DOI : 10.1016 / s0020-7373 (87) 80053-6 .
- ^ Хамерс, Барт; Суйкенс, Йохан А.К .; Де Моор, Барт (2003). «Совместное трансдуктивное ансамблевое обучение моделей ядра» (PDF) . Журнал исследований в области машинного обучения . 1 : 1–48.
- ^ Shmueli, Галит , Ральф П. Руссо, и Вольфганг Jank. « BARISTA: модель поступления заявок на онлайн-аукционах ». Анналы прикладной статистики (2007): 412–441.
- ↑ Пэн, Цзе и Ханс-Георг Мюллер. « Удаленная кластеризация редко наблюдаемых случайных процессов с приложениями к онлайн-аукционам ». Анналы прикладной статистики (2008): 1056–1077.
- ^ Eggermont, Йерун, Joost Н. Кок, и Уолтер А. Kosters. « Генетическое программирование для классификации данных: разделение пространства поиска ». Материалы симпозиума ACM 2004 г. по прикладным вычислениям . ACM, 2004.
- ^ Моро, Сержио; Кортез, Пауло; Рита, Пауло (2014). «Подход на основе данных для прогнозирования успеха банковского телемаркетинга». Системы поддержки принятия решений . 62 : 22–31. DOI : 10.1016 / j.dss.2014.03.001 . ЛВП : 10071/9499 .
- ^ Пейн, Ричард Д .; Маллик, Бани К. (2014). «Байесовская классификация больших данных: обзор с дополнениями». arXiv : 1411.5653 [ stat.ME ].
- ^ Акбилджик, Огуз; Боздоган, Хампарсум; Балабан, М. Эрдал (2014). «Новая модель нейронных сетей Hybrid RBF в качестве прогнозиста». Статистика и вычисления . 24 (3): 365–375. DOI : 10.1007 / s11222-013-9375-7 . S2CID 17764829 .
- ^ Иавин, серейя. « Прогнозирование фондового рынка с использованием искусственной нейронной сети с прямой связью ». Int. J. Comput. Прил. (IJCA) 99,9 (2014).
- ^ Ага, И-Ченг; Че-хуи, Льен (2009). «Сравнение методов интеллектуального анализа данных для прогнозирования вероятности дефолта клиентов кредитной карты». Экспертные системы с приложениями . 36 (2): 2473–2480. DOI : 10.1016 / j.eswa.2007.12.020 .
- Перейти ↑ Lin, Shu Ling (2009). «Новый двухэтапный гибридный подход к кредитному риску в банковской сфере». Экспертные системы с приложениями . 36 (4): 8333–8341. DOI : 10.1016 / j.eswa.2008.10.015 .
- ^ Пелкманс, Кристиан; и другие. (2005). «Дифферограмма: непараметрическая оценка дисперсии шума и ее использование для выбора модели». Нейрокомпьютеры . 69 (1): 100–122. DOI : 10.1016 / j.neucom.2005.02.015 .
- ^ Бэй, Стивен Д .; и другие. (2000). «Архив больших наборов данных UCI KDD для исследований и экспериментов по интеллектуальному анализу данных». Информационный бюллетень ACM SIGKDD Explorations . 2 (2): 81–85. CiteSeerX 10.1.1.15.9776 . DOI : 10.1145 / 380995.381030 . S2CID 534881 .
- ^ Лукас, DD; и другие. (2015). «Проектирование оптимальных сетей наблюдения за парниковыми газами с учетом производительности и стоимости» . Геонаучные приборы, методы и системы данных . 4 (1): 121. Bibcode : 2015GI ...... 4..121L . DOI : 10,5194 / г-4-121-2015 .
- ^ Пэлс, Джек С .; Килинг, Чарльз Д. (1965). «Концентрация углекислого газа в атмосфере на Гавайях». Журнал геофизических исследований . 70 (24): 6053–6076. Bibcode : 1965JGR .... 70.6053P . DOI : 10,1029 / jz070i024p06053 .
- ^ Сигиллито, Винсент Г. и др. «Классификация отраженных от ионосферы радиолокационных сигналов с помощью нейронных сетей». Johns Hopkins APL Technical Digest 10.3 (1989): 262–266.
- ↑ Чжан, Кун и Вэй Фань. « Прогнозирование искаженных стохастических дней озона: анализы, решения и многое другое ». Знания и информационные системы 14.3 (2008): 299–326.
- ^ Райх, Брайан Дж., Монтсеррат Фуэнтес и Дэвид Б. Дансон. « Байесовская пространственная квантильная регрессия ». Журнал Американской статистической ассоциации (2012).
- ^ Кохави, Рон (1996). «Повышение точности наивно-байесовских классификаторов: гибрид дерева решений». KDD . 96 .
- ^ Oza, Nikunj °, и Стюарт Рассел. «Экспериментальные сравнения онлайн и пакетной версии упаковки и повышения». Материалы седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . ACM, 2001.
- Перейти ↑ Bay, Stephen D (2001). «Многомерная дискретизация для множественного майнинга». Знания и информационные системы . 3 (4): 491–512. CiteSeerX 10.1.1.217.921 . DOI : 10.1007 / pl00011680 . S2CID 10945544 .
- Перейти ↑ Ruggles, Steven (1995). «Планы выборки и ошибки выборки». Исторические методы: журнал количественной и междисциплинарной истории . 28 (1): 40–46. DOI : 10.1080 / 01615440.1995.9955312 .
- ^ Кроткий, Кристофер, Бо Thiesson, и Дэвид Heckerman. « Метод кривой обучения применительно к кластеризации ». АИСТАТС . 2001 г.
- ^ Фанаи-Т, Хади; Гама, Жоао (2013). «Маркировка событий, сочетающая детекторы ансамбля и базовые знания» . Прогресс в области искусственного интеллекта . 2 (2–3): 113–127. DOI : 10.1007 / s13748-013-0040-3 . S2CID 3345087 .
- ^ GIOT, Ромны и Рафаель Шеррье. « Прогнозирование использования системы велосипедного проката на один день вперед ». Вычислительный интеллект в транспортных средствах и транспортных систем (CIVTS), 2014 IEEE симпозиум по . IEEE, 2014.
- ^ Чжань, Сяньюань; и другие. (2013). «Оценка времени в пути по городскому сообщению с использованием крупномасштабных данных такси с частичной информацией». Транспортные исследования, часть C: Новые технологии . 33 : 37–49. DOI : 10.1016 / j.trc.2013.04.001 .
- ^ Морейра-Матиас, Луис; и другие. (2013). «Прогнозирование спроса на такси и пассажиров с использованием потоковых данных» . IEEE Transactions по интеллектуальным транспортным системам . 14 (3): 1393–1402. DOI : 10,1109 / tits.2013.2262376 . S2CID 14764358 .
- ^ Hwang, Ren-Hung; Сюэ, Ю-Линг; Чен, Ю-Тин (2015). «Эффективная рекомендательная система такси, основанная на модели пространственно-временного факторного анализа». Информационные науки . 314 : 28–40. DOI : 10.1016 / j.ins.2015.03.068 .
- ^ HV Jagadish, Йоханнес Герке, Александрос Labrinidis, Яннис Papakonstantinou, Jignesh М. Пател, Raghu Ramakrishnan, и Кир Шахаби. Большие данные и их технические проблемы. Commun. ACM, 57 (7): 86–94, июль 2014 г.
- ^ http://pems.dot.ca.gov/
- ^ Meusel, Роберт и др. « Структура графа в сети - анализируется на разных уровнях агрегирования ». Журнал Web Science 1.1 (2015).
- ^ Кушмерик, Николас. « Учимся удалять интернет-рекламу ». Труды третьей ежегодной конференции по автономным агентам . ACM, 1999.
- ↑ Фрадкин, Дмитрий и Дэвид Мэдиган. « Эксперименты со случайными проекциями для машинного обучения ». Материалы девятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . ACM, 2003.
- ^ Эти данные были использованы в Экспозиции данных 1999 г. в Секциях статистической графики и вычислений Американской статистической ассоциации.
- ^ Ма, Джастин и др. « Выявление подозрительных URL-адресов: приложение крупномасштабного онлайн-обучения ». Материалы 26-й ежегодной международной конференции по машинному обучению . ACM, 2009.
- ^ Левченко, Кирилл и др. « Траектории кликов: сквозной анализ цепочки создания стоимости спама ». Безопасность и конфиденциальность (SP), 2011 IEEE симпозиум по . IEEE, 2011.
- ^ Мохаммад, Рами М., Фади Thabtah и Lee Маккласки. « Оценка функций, связанных с фишинговыми веб-сайтами, с использованием автоматизированной техники ». Интернет-технологии и защищенные транзакции, Международная конференция для . IEEE, 2012.
- ^ Сингх, Ашишкумар и др. « Эксперименты по кластеризации больших транзакционных данных для сегментации рынка ». Труды 2014 Международной конференции по большим данным науки и вычислительной технике . ACM, 2014.
- ^ Bollacker, Kurt, et al. « Freebase: совместно созданная графовая база данных для структурирования человеческих знаний ». Материалы международной конференции ACM SIGMOD 2008 г. по управлению данными . ACM, 2008.
- ^ Минц, Майк и др. « Удаленное наблюдение для извлечения отношений без помеченных данных ». Труды совместной конференции 47-го ежегодного собрания ACL и 4-й международной совместной конференции AFNLP по обработке естественного языка: Том 2-Том 2 . Ассоциация компьютерной лингвистики, 2009.
- ^ Mesterharm, Крис, и Майкл Дж. Паццани. « Активное обучение с использованием онлайн-алгоритмов ». Материалы 17-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . ACM, 2011.
- ^ Ван, Шусен; Чжан, Чжихуа (2013). «Улучшение разложения матрицы CUR и приближения Нистрома с помощью адаптивной выборки» (PDF) . Журнал исследований в области машинного обучения . 14 (1): 2729–2769. arXiv : 1303,4207 . Bibcode : 2013arXiv1303.4207W .
- ^ Каттраль, Роберт; Оппахер, Франц; Деуго, Дуайт (2002). «Эволюционный интеллектуальный анализ данных с автоматическим обобщением правил» (PDF) . Последние достижения в области компьютеров, вычислений и связи : 296–300. S2CID 18625415 . Архивировано из оригинального (PDF) 6 августа 2019 года.
- ^ Бертон, Ариэль Н .; Келли, Пол HJ (2006). «Прогнозирование производительности рабочих нагрузок подкачки с помощью облегченной трассировки». Компьютерные системы будущего поколения . Elsevier BV. 22 (7): 784–793. DOI : 10.1016 / j.future.2006.02.003 . ISSN 0167-739X .
- ^ Бэйн, Майкл; Магглетон, Стивен (1994). «Изучение оптимальных шахматных стратегий». Машинный интеллект . Oxford University Press, Inc. 13 .
- ^ Quilan, JR (1983). «Изучение эффективных процедур классификации и их применение в шахматных играх». Машинное обучение: подход искусственного интеллекта . 1 : 463–482. DOI : 10.1007 / 978-3-662-12405-5_15 . ISBN 978-3-662-12407-9.
- ^ Шапиро, Ален Д. (1987). Структурированная индукция в экспертных системах . Addison-Wesley Longman Publishing Co., Inc.
- ^ Матеус, Кристофер Дж .; Ренделл, Ларри А. (1989). «Конструктивная индукция на деревьях решений» (PDF) . IJCAI . 89 .
- ^ Belsley, Дэвид А., Эдвин Кух, и Рой Е. Уэлш. Регрессионная диагностика: выявление важных данных и источников коллинеарности . Vol. 571. Джон Вили и сыновья, 2005.
- ^ Руотсало, Туукка; Аройо, Лора; Шрайбер, Гус (2009). «Лингвистическая аннотация цифровых коллекций культурного наследия, основанная на знаниях» (PDF) . Интеллектуальные системы IEEE . 24 (2): 64–75. DOI : 10.1109 / MIS.2009.32 . S2CID 6667472 .
- ^ Ли, Лихонг и др. « Беспристрастная оценка алгоритмов рекомендаций новостных статей на основе контекстных бандитов ». Материалы четвертой международной конференции ACM по веб-поиску и интеллектуальному анализу данных . ACM, 2011.
- ^ Енг, Kam Fung и Yanyan Ян. « Проактивная персонализированная система рекомендаций мобильных новостей ». Развитие электронных систем инженерно (деш), 2010 . IEEE, 2010 г.
- ↑ Gass, Susan E .; Робертс, Дж. Мюррей (2006). «Распространение холодноводного коралла Lophelia pertusa (Scleractinia) на нефтегазовых платформах в Северном море: рост колоний, пополнение и экологический контроль при распределении». Бюллетень загрязнения морской среды . 52 (5): 549–559. DOI : 10.1016 / j.marpolbul.2005.10.002 . PMID 16300800 .
- ^ Гионис, Аристидес; Маннила, Хейкки; Цапарас, Панайотис (2007). «Агрегация кластеров». ACM-транзакции при обнаружении знаний из данных . 1 (1): 4. CiteSeerX 10.1.1.709.528 . DOI : 10.1145 / 1217299.1217303 . S2CID 433708 .
- ^ Обрадович, Зоран и Слободан Вучетич. Проблемы интеллектуального анализа научных данных: неоднородные, предвзятые и большие выборки . Технический отчет, Центр информационных наук и технологий Университета Темпл, 2004 г.
- ^ Ван дер Путтен, Питер; ван Сомерен, Маартен (2000). "CoIL Challenge 2000: Дело страховой компании". Опубликовано Sentient Machine Research, Амстердам. Также технический отчет Лейденского института передовых компьютерных наук . 9 : 1–43.
- Перейти ↑ Mao, KZ (2002). «Выбор центра нейронной сети RBF на основе меры разделимости классов коэффициента Фишера». IEEE-транзакции в нейронных сетях . 13 (5): 1211–1217. DOI : 10.1109 / tnn.2002.1031953 . PMID 18244518 .
- ^ Олав, Мануэль; Райкович, Владислав; Боханец, Марко (1989). «Заявление о приеме в системы государственных школ» (PDF) . Экспертные системы в государственном управлении . 1 : 145–160.
- ^ Лизотт, Дэниел Дж., Омид Мадани и Рассел Грейнер. « Бюджетное обучение классификаторов Nailve-Bayes ». Труды девятнадцатой конференции по неопределенности в искусственном интеллекте . Морган Кауфманн Паблишерс Инк., 2002 г.
- ^ Лебовиц, Майкл (1986). Изучение концепций в богатой области ввода: память на основе обобщений . Машинное обучение: подход искусственного интеллекта . 2 . С. 193–214. ISBN 9780934613002.
- ^ Ага, И-Ченг; Ян, Кинг-Янг; Тинг, Тао-Мин (2009). «Обнаружение знаний о модели RFM с использованием последовательности Бернулли». Экспертные системы с приложениями . 36 (3): 5866–5871. DOI : 10.1016 / j.eswa.2008.07.018 .
- ^ Ли, Вен-Чен; Ченг, Бор-Вэнь (2011). «Интеллектуальная система повышения эффективности сдачи крови» . Журнал качества Vol . 18 (2): 173.
- ^ Шмидтманн, Ирен и др. « Оценка связи записей Krebsregisters NRW Schwerpunkt ». Abschlußbericht vom 11 (2009).
- ^ Сарийар, Мурат; Борг, Андреас; Поммеренинг, Клаус (2011). «Контроль ложных совпадений при связывании записей с помощью теории экстремальных ценностей». Журнал биомедицинской информатики . 44 (4): 648–654. DOI : 10.1016 / j.jbi.2011.02.008 . PMID 21352952 .
- ^ Кандилье, Лоран и Винсент Лемер. « Разработка и анализ задачи Nomao Активное обучение в реальном мире ». Труды ALRA: активное обучение в реальных приложениях, семинар ECML-PKDD . 2012 г.
- ^ Маркес, Иван Гарридо. « Метод адаптации предметной области для классификации текста, основанный на самонастраиваемом подходе к обучению ». (2013).
- ^ Нагеш, Харша С., Санджай Гойл и Алок Н. Чоудхари. «Адаптивные гриды для кластеризации массивов данных». SDM. 2001 г.
- ^ Кузилек, Якуб и др. « OU Analyze: анализ студентов из группы риска в Открытом университете ». Обзор Learning Analytics (2015): 1–16.
- ^ Сименс, Джордж и др. Open Learning Analytics: интегрированная модульная платформа . Дисс. Издательство Открытого университета, 2011.
- ^ Барлакки, Джанни; Де Надаи, Марко; Ларчер, Роберто; Казелла, Антонио; Читич, Кристиана; Торриси, Джованни; Антонелли, Фабрицио; Веспиньяни, Алессандро; Пентланд, Алекс; Лепри, Бруно (2015). «Набор данных из нескольких источников о городской жизни Милана и провинции Трентино» . Научные данные . 2 : 150055. Bibcode : 2015NatSD ... 250055B . DOI : 10.1038 / sdata.2015.55 . ISSN 2052-4463 . PMC 4622222 . PMID 26528394 .
- ^ Vanschoren Дж, ван Рейн Ю.Н., Bischl В, Торго L (2013). «OpenML: сетевая наука в машинном обучении». SIGKDD Исследования . 15 (2): 49–60. arXiv : 1407,7722 . DOI : 10.1145 / 2641190.2641198 . S2CID 4977460 .
- Перейти ↑ Olson RS, La Cava W, Orzechowski P, Urbanowicz RJ, Moore JH (2017). «PMLB: большой набор тестов для оценки и сравнения машинного обучения» . BioData Mining . 10 : 36. arXiv : 1703.00512 . Bibcode : 2017arXiv170300512O . DOI : 10,1186 / s13040-017-0154-4 . PMC 5725843 . PMID 29238404 .
- ^ "Наборы данных с полки" . appen.com . Appen . Проверено 30 декабря 2020 .
- ^ «Наборы данных с открытым исходным кодом» . appen.com . Appen . Проверено 30 декабря 2020 .