Премия Netflix

Премия Netflix представляла собой открытый конкурс на лучший алгоритм совместной фильтрации для прогнозирования пользовательских рейтингов фильмов на основе предыдущих рейтингов без какой-либо другой информации о пользователях или фильмах, то есть без идентификации пользователей, за исключением номеров, присвоенных для конкурса.

Конкурс проводился сервисом потокового видео Netflix, и в нем могли принять участие все, кто не связан с Netflix (нынешние и бывшие сотрудники, агенты, близкие родственники сотрудников Netflix и т. д.), а также не являются резидентами определенных заблокированных стран (таких как Куба или Северная Корея). ^[1] 21 сентября 2009 года главный приз в размере 1 000 000 долларов США был вручен команде BellKor Pragmatic Chaos, которая превзошла собственный алгоритм Netflix для прогнозирования рейтингов на 10,06%. ^[2]

Netflix предоставил обучающий набор данных из 100 480 507 оценок, которые 480 189 пользователей поставили 17 770 фильмам. Каждый обучающий рейтинг представляет собой четверку вида <user, movie, date of grade, grade>. Поля пользователя и фильма представляют собой целочисленные идентификаторы, а оценки — от 1 до 5 ( целых ) звезд. ^[3]

Квалификационный набор данных содержит более 2 817 131 троек формы , оценки которых известны только жюри. Алгоритм участвующей команды должен предсказать оценки по всему квалификационному набору, но им сообщаются оценки только для половины данных: набора викторин , состоящего из 1 408 342 оценок. Другая половина — это тестовый набор из 1 408 789, и результаты этого теста используются жюри для определения потенциальных победителей. Только судьи знают, какие рейтинги входят в набор викторин, а какие в тестовый набор - такое расположение предназначено для того, чтобы затруднить подъем на холм в тестовом наборе. Представленные прогнозы сравниваются с истинными оценками в виде среднеквадратической ошибки.<user, movie, date of grade>(RMSE), и цель состоит в том, чтобы максимально уменьшить эту ошибку. Обратите внимание: хотя фактические оценки представляют собой целые числа в диапазоне от 1 до 5, представленные прогнозы не обязательно должны быть такими. Netflix также выявил пробную подгруппу из 1 408 395 оценок в наборе обучающих данных. Наборы пробных , тестовых и тестовых данных были выбраны так , чтобы иметь схожие статистические свойства.

Для каждого фильма название и год выпуска указаны в отдельном наборе данных. Никакой информации о пользователях не предоставляется вообще. Чтобы защитить конфиденциальность клиентов, «некоторые рейтинговые данные для некоторых клиентов в обучающих и квалификационных наборах были намеренно изменены одним или несколькими из следующих способов: удалением рейтингов; вставкой альтернативных рейтингов и дат; и изменением рейтинга. даты». ^[2]

Обучающий набор построен таким образом, что средний пользователь оценил более 200 фильмов, а средний фильм оценили более 5000 пользователей. Но данные сильно разнятся : некоторые фильмы в обучающей выборке имеют всего 3 рейтинга ^[4] , в то время как один пользователь оценил более 17 000 фильмов. ^[5]