Помеченные данные

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Поиск источников: «Размеченные данные» - новости · газеты · книги · ученый · JSTOR ( май 2017 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )

Машинное обучение и интеллектуальный анализ данных
Часть серии по

Проблемы Классификация Кластеризация Регресс Обнаружение аномалий AutoML Правила ассоциации Обучение с подкреплением Структурированный прогноз Функциональная инженерия Особенности обучения Онлайн обучение Полу-контролируемое обучение Обучение без учителя Учимся ранжировать Введение в грамматику
Обучение с учителем ( классификация • регрессия ) Деревья решений Ансамбли Упаковка Повышение Случайный лес k -NN Линейная регрессия Наивный байесовский Искусственные нейронные сети Логистическая регрессия Перцептрон Вектор релевантности (RVM) Машина опорных векторов (SVM)
Кластеризация БЕРЕЗА ИЗЛЕЧИВАТЬ Иерархический k -средство Ожидание – максимизация (EM) DBSCAN ОПТИКА Средний сдвиг
Снижение размерности Факторный анализ CCA ICA LDA NMF PCA PGD t-SNE
Структурированный прогноз Графические модели Сеть Байеса Условное случайное поле Скрытый Марков
Обнаружение аномалий k -NN Фактор местного выброса
Искусственная нейронная сеть Автоэнкодер Когнитивные вычисления Глубокое обучение DeepDream Многослойный перцептрон RNN LSTM ГРУ ESN Ограниченная машина Больцмана GAN SOM Сверточная нейронная сеть U-Net Трансформатор Пиковая нейронная сеть Мемтранзистор Электрохимическая RAM (ECRAM)
Обучение с подкреплением Q-обучение SARSA Временная разница (TD)
Теория Компромисс смещения и дисперсии Теория вычислительного обучения Минимизация эмпирического риска Обучение Оккама PAC обучение Статистическое обучение Теория ВК
Площадки для машинного обучения NeurIPS ICML ML JMLR ArXiv: cs.LG
Статьи по Теме Глоссарий искусственного интеллекта Список наборов данных для исследований в области машинного обучения Краткое описание машинного обучения
v т е

Помеченные данные - это группа образцов , помеченных одной или несколькими метками. Маркировка обычно берет набор немаркированных данных и дополняет каждую его часть информативными тегами. Например, метка данных может указывать, содержит ли фотография лошадь или корову, какие слова были произнесены в аудиозаписи, какое действие выполняется в видео, какова тема новостной статьи, каковы общие тональность твита, или является ли точка на рентгеновском снимке опухолью.

Ярлыки можно получить, попросив людей вынести суждение о данном фрагменте немаркированных данных. Получение помеченных данных значительно дороже, чем сырых немаркированных данных.

Размеченные данные краудсорсинга [ править ]

В 2006 году Фей-Фей Ли , содиректор Стэнфордского института искусственного интеллекта, ориентированного на человека, задумал улучшить модели и алгоритмы искусственного интеллекта для распознавания изображений путем значительного увеличения обучающих данных . Исследователи загрузили миллионы изображений из всемирной паутины, и группа студентов начала наносить ярлыки для объектов на каждое изображение. В 2007 году Ли передал на аутсорсинг работу по маркировке данных на Amazon Mechanical Turk , онлайн-рынке цифровой штучной продукции . 3,2 миллиона изображений, которые были помечены более чем 49000 сотрудников, легли в основу ImageNet , одной из крупнейших баз данных с ручной маркировкой длясхема распознавания объекта . ^[1]

Автоматическая маркировка данных [ править ]

После получения помеченного набора данных модели машинного обучения могут быть применены к данным, так что новые немаркированные данные могут быть представлены модели и вероятная метка может быть угадана или предсказана для этой части немаркированных данных. ^[2]

Предвзятость, связанная с данными [ править ]

Принятие алгоритмических решений подвержено предвзятости программиста, а также предвзятости, связанной с данными. Данные обучения, основанные на данных с пометкой смещения, приведут к предубеждениям и упущениям в прогнозной модели , несмотря на то, что алгоритм машинного обучения является законным. Помеченные данные, используемые для обучения определенного алгоритма машинного обучения, должны быть статистически репрезентативной выборкой, чтобы не искажать результаты. ^[3] Поскольку маркированные данные, доступные для обучения систем распознавания лиц , не были репрезентативными для населения, недопредставленные группы в маркированных данных позже часто неправильно классифицируются. В 2018 году исследование Джой Буоламвини и Тимнит Гебрупродемонстрировали, что два набора данных анализа лиц, которые использовались для обучения алгоритмов распознавания лиц, IJB-A и Adience, состоят из людей с более светлой кожей на 79,6% и 86,2% соответственно. ^[4]

Ссылки [ править ]

↑ Мэри Л. Грей и Сиддхарт Сури (2019). Призрачная работа: как помешать Кремниевой долине создать новый глобальный низший класс . Houghton Mifflin Harcourt. п. 7. ISBN 9781328566287.CS1 maint: uses authors parameter (link)
^ Джонсон, Лейф. "В чем разница между помеченными и немаркированными данными?" , Переполнение стека , 4 октября 2013. Проверено 13 мая 2017. Эта статья содержит текст по lmjohns3 доступен под CC - BY-SA 3.0 лицензии.
^ Xianhong Ху, Neupane, Bhanu, Echaiz, Лючия Флорес, Sibal, Prateek, Ривера Lam, Макарена (2019). Управление ИИ и передовыми ИКТ для общества знаний: права, открытость, доступ и многосторонняя перспектива . Издательство ЮНЕСКО. п. 64. ISBN 9789231003639.CS1 maint: uses authors parameter (link)
^ Xianhong Ху, Neupane, Bhanu, Echaiz, Лючия Флорес, Sibal, Prateek, Ривера Lam, Макарена (2019). Управление ИИ и передовыми ИКТ для общества знаний: права, открытость, доступ и многосторонняя перспектива . Издательство ЮНЕСКО. п. 66. ISBN 9789231003639.CS1 maint: uses authors parameter (link)

[1] Мэри Л. Грей и Сиддхарт Сури (2019). Призрачная работа: как помешать Кремниевой долине создать новый глобальный низший класс . Houghton Mifflin Harcourt. п. 7. ISBN 9781328566287.CS1 maint: uses authors parameter (link)

[2] Джонсон, Лейф. "В чем разница между помеченными и немаркированными данными?" , Переполнение стека , 4 октября 2013. Проверено 13 мая 2017. Эта статья содержит текст по lmjohns3 доступен под CC - BY-SA 3.0 лицензии.

[3] Xianhong Ху, Neupane, Bhanu, Echaiz, Лючия Флорес, Sibal, Prateek, Ривера Lam, Макарена (2019). Управление ИИ и передовыми ИКТ для общества знаний: права, открытость, доступ и многосторонняя перспектива . Издательство ЮНЕСКО. п. 64. ISBN 9789231003639.CS1 maint: uses authors parameter (link)

[4] Xianhong Ху, Neupane, Bhanu, Echaiz, Лючия Флорес, Sibal, Prateek, Ривера Lam, Макарена (2019). Управление ИИ и передовыми ИКТ для общества знаний: права, открытость, доступ и многосторонняя перспектива . Издательство ЮНЕСКО. п. 66. ISBN 9789231003639.CS1 maint: uses authors parameter (link)