Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Помеченные данные - это группа образцов , помеченных одной или несколькими метками. Маркировка обычно берет набор немаркированных данных и дополняет каждую его часть информативными тегами. Например, метка данных может указывать, содержит ли фотография лошадь или корову, какие слова были произнесены в аудиозаписи, какое действие выполняется в видео, какова тема новостной статьи, каковы общие тональность твита, или является ли точка на рентгеновском снимке опухолью.

Ярлыки можно получить, попросив людей вынести суждение о данном фрагменте немаркированных данных. Получение помеченных данных значительно дороже, чем сырых немаркированных данных.

Размеченные данные краудсорсинга [ править ]

В 2006 году Фей-Фей Ли , содиректор Стэнфордского института искусственного интеллекта, ориентированного на человека, задумал улучшить модели и алгоритмы искусственного интеллекта для распознавания изображений путем значительного увеличения обучающих данных . Исследователи загрузили миллионы изображений из всемирной паутины, и группа студентов начала наносить ярлыки для объектов на каждое изображение. В 2007 году Ли передал на аутсорсинг работу по маркировке данных на Amazon Mechanical Turk , онлайн-рынке цифровой штучной продукции . 3,2 миллиона изображений, которые были помечены более чем 49000 сотрудников, легли в основу ImageNet , одной из крупнейших баз данных с ручной маркировкой длясхема распознавания объекта . [1]

Автоматическая маркировка данных [ править ]

После получения помеченного набора данных модели машинного обучения могут быть применены к данным, так что новые немаркированные данные могут быть представлены модели и вероятная метка может быть угадана или предсказана для этой части немаркированных данных. [2]

Предвзятость, связанная с данными [ править ]

Принятие алгоритмических решений подвержено предвзятости программиста, а также предвзятости, связанной с данными. Данные обучения, основанные на данных с пометкой смещения, приведут к предубеждениям и упущениям в прогнозной модели , несмотря на то, что алгоритм машинного обучения является законным. Помеченные данные, используемые для обучения определенного алгоритма машинного обучения, должны быть статистически репрезентативной выборкой, чтобы не искажать результаты. [3] Поскольку маркированные данные, доступные для обучения систем распознавания лиц , не были репрезентативными для населения, недопредставленные группы в маркированных данных позже часто неправильно классифицируются. В 2018 году исследование Джой Буоламвини и Тимнит Гебрупродемонстрировали, что два набора данных анализа лиц, которые использовались для обучения алгоритмов распознавания лиц, IJB-A и Adience, состоят из людей с более светлой кожей на 79,6% и 86,2% соответственно. [4]

Ссылки [ править ]

  1. Мэри Л. Грей и Сиддхарт Сури (2019). Призрачная работа: как помешать Кремниевой долине создать новый глобальный низший класс . Houghton Mifflin Harcourt. п. 7. ISBN 9781328566287.CS1 maint: uses authors parameter (link)
  2. ^ Джонсон, Лейф. "В чем разница между помеченными и немаркированными данными?" , Переполнение стека , 4 октября 2013. Проверено 13 мая 2017.  Эта статья содержит текст по lmjohns3 доступен под CC - BY-SA 3.0 лицензии.
  3. ^ Xianhong Ху, Neupane, Bhanu, Echaiz, Лючия Флорес, Sibal, Prateek, Ривера Lam, Макарена (2019). Управление ИИ и передовыми ИКТ для общества знаний: права, открытость, доступ и многосторонняя перспектива . Издательство ЮНЕСКО. п. 64. ISBN 9789231003639.CS1 maint: uses authors parameter (link)
  4. ^ Xianhong Ху, Neupane, Bhanu, Echaiz, Лючия Флорес, Sibal, Prateek, Ривера Lam, Макарена (2019). Управление ИИ и передовыми ИКТ для общества знаний: права, открытость, доступ и многосторонняя перспектива . Издательство ЮНЕСКО. п. 66. ISBN 9789231003639.CS1 maint: uses authors parameter (link)