Справедливость (машинное обучение)

Эта статья поднимает множество проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалить эти сообщения-шаблоны )

Эта статья написана как руководство или путеводитель . Пожалуйста, помогите переписать эту статью с описательной, нейтральной точки зрения и удалить совет или инструкцию. ( Декабрь 2019 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Эта статья может быть слишком технической для понимания большинства читателей . Пожалуйста, помогите улучшить его, чтобы он был понятен неспециалистам , не удаляя технических деталей. ( Декабрь 2019 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Эта статья - приблизительный перевод с испанского . Он мог быть создан компьютером или переводчиком без двойного владения языком. Пожалуйста, помогите улучшить перевод . Исходная статья находится под словом "español" на боковой панели "Языки" .

Если вы только что отметили эту статью как требующую внимания, добавьте в конец раздела WP: PNTCU в Википедии: Страницы, требующие перевода на английский язык .
{{subst:Needtrans|pg=Fairness (machine learning) |language=Spanish |comments= }} ~~~~

( Узнайте, как и когда удалить этот шаблон сообщения )

В машинном обучении данный алгоритм считается честным или справедливым , если его результаты не зависят от заданных переменных , особенно тех, которые считаются чувствительными, например, черты людей, которые не должны коррелировать с результатом (например, пол, этническая принадлежность , сексуальная ориентация, инвалидность и др.).

Контекст [ править ]

Исследования справедливости в машинном обучении - относительно недавняя тема. Большинство статей об этом написано за последние три года. ^[1] Некоторые из наиболее важных фактов в этой теме:

В 2018 году IBM представила AI Fairness 360, библиотеку Python с несколькими алгоритмами для снижения предвзятости программного обеспечения и повышения его справедливости. ^[2]^[3]
В 2018 году Facebook обнародовал использование инструмента Fairness Flow для выявления предвзятости в их ИИ. Однако исходный код инструмента недоступен, и неизвестно, действительно ли он исправляет предвзятость. ^[4]
В 2019 году Google опубликовал на GitHub набор инструментов для изучения эффектов справедливости в долгосрочной перспективе. ^[5]

Споры [ править ]

Алгоритмы, используемые для обеспечения справедливости, все еще совершенствуются. Однако главный прогресс в этой области заключается в том, что некоторые крупные корпорации осознают влияние, которое снижение алгоритмической предвзятости может оказать на общество.

Примером неоднозначного использования алгоритма является то, как Facebook распределяет новостные статьи среди пользователей, что, по мнению некоторых людей, может вносить политическую предвзятость. Перед выборами некоторые кандидаты пытались использовать Facebook в агитационных целях, что может стать предметом горячих споров.

Прозрачность алгоритмов [ править ]

Многие люди жаловались на то, что алгоритмы часто невозможно проверить, чтобы убедиться, что они работают честно, что не может нанести ущерб некоторым пользователям.

Но многие коммерческие компании предпочитают не раскрывать детали используемых ими алгоритмов, поскольку они часто заявляют, что это может помочь конкурирующим компаниям получить выгоду от их технологий.

Последствия [ править ]

Если алгоритм не работает должным образом, последствия для людей могут быть значительными и долгосрочными, например, в отношении возможностей получения образования или трудоустройства, а также доступа к услугам финансового кредита.

Международные стандарты [ править ]

Поскольку алгоритмы постоянно меняются и часто являются частными, существует несколько признанных стандартов для их построения или работы.

Со временем алгоритмы могут стать более строго регулируемыми, но в настоящее время за ними мало общественного надзора.

Критерии справедливости в задачах классификации ^[6] [ править ]

В задачах классификации алгоритм изучает функцию предсказания дискретной характеристики , целевой переменной, на основе известных характеристик . Мы моделируем как дискретную случайную величину, которая кодирует некоторые характеристики, содержащиеся или неявно закодированные в том, что мы рассматриваем как чувствительные характеристики (пол, этническая принадлежность, сексуальная ориентация и т. Д.). Окончательно обозначим предсказанием классификатора . Теперь давайте определим три основных критерия для оценки того, является ли данный классификатор справедливым, то есть если на его прогнозы не влияют некоторые из этих чувствительных переменных. ${\ textstyle Y}$ ${\ textstyle X}$ ${\ textstyle A}$ ${\ textstyle X}$ ${\ textstyle R}$

Независимость [ править ]

Мы говорим , что случайные величины удовлетворяют независимости , если чувствительные характеристики являются статистически независимыми предсказанием , и мы пишем . ${\textstyle (R,A)}$ ${\textstyle A}$ ${\textstyle R}$ ${\textstyle R\bot A}$

Мы также можем выразить это понятие следующей формулой:

P(R=r|A=a)=P(R=r|A=b)\quad \forall r\in R\quad \forall a,b\in A

Это означает, что вероятность быть классифицированным алгоритмом в каждой из групп одинакова для двух человек с разными чувствительными характеристиками.

Еще одно эквивалентное выражение для независимости может быть дано с использованием концепции взаимной информации между случайными величинами , определяемой как

I(X,Y)=H(X)+H(Y)-H(X,Y)

В этой формуле, от случайной величины . Тогда удовлетворите независимость, если .

{\textstyle H}

{\textstyle (R,A)}

{\textstyle H(R,A)=0}

Возможное ослабление определения независимости nce включает введение положительного запаса хода и дается формулой: ${\textstyle \epsilon >0}$ $P(R=r|A=a)\geq P(R=r|A=b)-\epsilon \quad \forall r\in R\quad \forall a,b\in A$

Наконец, требуется еще одно возможное расслабление . ${\textstyle I(R,A)\leq \epsilon }$

Разделение [ править ]

Мы говорим , что случайные величины удовлетворяют разделение , если чувствительные характеристики являются статистически независимыми предсказанием данного целевого значения , и мы пишем . ${\textstyle (R,A,Y)}$ ${\textstyle A}$ ${\textstyle R}$ ${\textstyle Y}$ ${\textstyle R\bot A|Y}$

Мы также можем выразить это понятие следующей формулой:

P(R=r|Y=q,A=a)=P(R=r|Y=q,A=b)\quad \forall r\in R\quad q\in Y\quad \forall a,b\in A

Это означает, что вероятность быть классифицированным алгоритмом в каждой из групп одинакова для двух человек с разными чувствительными характеристиками, учитывая, что они фактически принадлежат к одной группе (имеют одинаковую целевую переменную).

Другое эквивалентное выражение в случае бинарной целевой скорости состоит в том, что истинно положительная частота и ложноположительная частота равны (и, следовательно, ложно отрицательная частота и истинно отрицательная частота равны) для каждого значения чувствительных характеристик:

P(R=1|Y=1,A=a)=P(R=1|Y=1,A=b)\quad \forall a,b\in A

P(R=1|Y=0,A=a)=P(R=1|Y=0,A=b)\quad \forall a,b\in A

Наконец, еще одно возможное ослабление данных определений состоит в том, чтобы позволить значению разницы между ставками быть положительным числом, меньшим, чем данный резерв , а не равным нулю. ${\textstyle \epsilon >0}$

Достаточность [ править ]

Мы говорим , что случайные величины удовлетворяют достаток , если чувствительные характеристики являются статистически независимыми от целевого значения данного предсказания , и мы пишем . ${\textstyle (R,A,Y)}$ ${\textstyle A}$ ${\textstyle Y}$ ${\textstyle R}$ ${\textstyle Y\bot A|R}$

Мы также можем выразить это понятие следующей формулой:

P(Y=q|R=r,A=a)=P(Y=q|R=r,A=b)\quad \forall q\in Y\quad r\in R\quad \forall a,b\in A

Это означает, что вероятность фактического нахождения в каждой из групп одинакова для двух людей с разными чувствительными характеристиками, учитывая, что они были предсказаны как принадлежащие к одной группе.

Отношения между определениями [ править ]

Наконец, мы суммируем некоторые из основных результатов, которые связаны с тремя приведенными выше определениями:

Если и не являются статистически независимыми , то достаточность и независимость не могут быть одновременно. ${\textstyle A}$ ${\textstyle Y}$
Предположение является бинарным, если и не являются статистически независимыми , а также и не являются статистически независимыми , тогда независимость и разделение не могут выполняться одновременно. ${\textstyle Y}$ ${\textstyle A}$ ${\textstyle Y}$ ${\textstyle R}$ ${\textstyle Y}$
Если как совместное распределение имеет положительную вероятность для всех возможных значений и и не статистически независимы , то разделение и достаточность не могут одновременно удерживать. ${\textstyle (R,A,Y)}$ ${\textstyle A}$ ${\textstyle Y}$

Показатели ^[7] [ править ]

Большинство статистических показателей справедливости основаны на разных показателях, поэтому мы начнем с их определения. При работе с двоичным классификатором и прогнозируемый, и фактический классы могут принимать два значения: положительное и отрицательное. Теперь давайте начнем объяснять различные возможные отношения между прогнозируемым и фактическим результатом:

Матрица путаницы

Истинно-положительный (TP) : случай, когда и прогнозируемый, и фактический результат относятся к положительному классу.
Истинно отрицательный (TN) : случай, когда и прогнозируемый, и фактический результат относятся к отрицательному классу.
Ложноположительный (FP) : случай, по которому прогнозируется попадание в положительный класс, присвоенный в фактическом исходе, является отрицательным.
Ложноотрицательный (FN) : случай, по прогнозам, относящийся к отрицательному классу, с фактическим исходом - положительным.

Эти отношения могут быть легко представлены в виде матрицы неточностей , таблицы, которая описывает точность модели классификации. В этой матрице столбцы и строки представляют экземпляры прогнозируемого и фактического случаев соответственно.

Используя эти отношения, мы можем определить несколько показателей, которые позже можно будет использовать для измерения справедливости алгоритма:

Положительное предсказанное значение (PPV) : доля положительных случаев, которые были правильно предсказаны, из всех положительных предсказаний. Это обычно называется точностью и представляет собой вероятность правильного положительного прогноза. Он задается следующей формулой:

PPV=P(actual=+|prediction=+)={\frac {TP}{TP+FP}}

Коэффициент ложного обнаружения (FDR) : доля положительных прогнозов, которые были фактически отрицательными, из всех положительных прогнозов. Он представляет собой вероятность ошибочного положительного прогноза и рассчитывается по следующей формуле:

FDR=P(actual=-|prediction=+)={\frac {FP}{TP+FP}}

Отрицательное предсказанное значение (NPV) : доля отрицательных случаев, которые были правильно предсказаны, из всех отрицательных предсказаний. Он представляет собой вероятность правильного отрицательного прогноза и рассчитывается по следующей формуле:

NPV=P(actual=-|prediction=-)={\frac {TN}{TN+FN}}

Уровень ложных пропусков (FOR) : доля отрицательных прогнозов, которые были фактически положительными, из всех отрицательных прогнозов. Он представляет собой вероятность ошибочного отрицательного прогноза и рассчитывается по следующей формуле:

FOR=P(actual=+|prediction=-)={\frac {FN}{TN+FN}}

Уровень истинных положительных результатов (TPR) : доля правильно предсказанных положительных случаев из всех положительных случаев. Это обычно называется чувствительностью или отзывом и представляет собой вероятность того, что положительные предметы будут правильно классифицированы как таковые. Он задается формулой:

TPR=P(prediction=+|actual=+)={\frac {TP}{TP+FN}}

Уровень ложных отрицательных результатов (FNR) : доля положительных случаев, которые были ошибочно предсказаны как отрицательные, из всех положительных случаев. Он представляет собой вероятность того, что положительные предметы будут неправильно классифицированы как отрицательные, и определяется формулой:

FNR=P(prediction=-|actual=+)={\frac {FN}{TP+FN}}

Истинно отрицательная ставка (TNR) : доля отрицательных случаев, которые были правильно предсказаны, из всех отрицательных случаев. Он представляет собой вероятность того, что отрицательные предметы будут правильно классифицированы как таковые, и рассчитывается по формуле:

TNR=P(prediction=-|actual=-)={\frac {TN}{TN+FP}}

Уровень ложноположительных результатов (FPR) : доля отрицательных случаев, которые были неверно предсказаны как положительные, из всех отрицательных случаев. Он представляет собой вероятность того, что отрицательные предметы будут неправильно классифицированы как положительные, и определяется формулой:

FPR=P(prediction=+|actual=-)={\frac {FP}{TN+FP}}

Другие критерии справедливости [ править ]

Взаимосвязь между критериями справедливости, как показано в Barocas et al. ^[6]

Следующие ниже критерии можно понимать как меры трех определений, данных в первом разделе, или как их ослабление. В таблице ^[6] справа мы можем видеть отношения между ними.

Чтобы определить эти меры конкретно, мы разделим их на три большие группы, как это сделано в Verma et al.: ^[7] определения, основанные на прогнозируемом результате, на прогнозируемых и фактических результатах, и определения, основанные на прогнозируемых вероятностях и фактическом результате.

Мы будем работать с бинарным классификатором и следующей нотацией: относится к баллу, присвоенному классификатором, который представляет собой вероятность того, что определенный объект находится в положительном или отрицательном классе. представляет собой окончательную классификацию, предсказываемую алгоритмом, и ее значение обычно выводится из , например, будет положительным, когда оно выше определенного порога. представляет собой фактический результат, то есть реальную классификацию человека, и, наконец, обозначает чувствительные атрибуты субъектов. ${\textstyle S}$ ${\textstyle R}$ ${\textstyle S}$ ${\textstyle S}$ ${\textstyle Y}$ ${\textstyle A}$

Определения, основанные на прогнозе [ править ]

Определения в этом разделе сосредоточены на прогнозируемом результате для различного распределения субъектов. Это самые простые и интуитивно понятные представления о справедливости. ${\textstyle R}$

Групповая справедливость , также называемая статистическим паритетом , демографическим паритетом , степенью принятия и сравнительным анализом . Классификатор удовлетворяет этому определению, если субъекты в защищенных и незащищенных группах имеют равную вероятность быть отнесенными к положительному предсказанному классу. Это если выполняется следующая формула:

P(R=+|A=a)=P(R=+|A=b)\quad \forall a,b\in A

Условная статистическая четность . В основном состоит в приведенном выше определении, но ограничивается только подмножеством атрибутов. В математической записи это будет:

P(R=+|L=l,A=a)=P(R=+|L=l,A=b)\quad \forall a,b\in A\quad \forall l\in L

Определения, основанные на прогнозируемых и фактических результатах [ править ]

Эти определения не только рассматривают прогнозируемый результат, но и сравнивают его с фактическим результатом . ${\textstyle R}$ ${\textstyle Y}$

Прогнозирующая четность , также называемая тестом результата . Классификатор удовлетворяет этому определению, если субъекты в защищенных и незащищенных группах имеют одинаковую PPV. Это если выполняется следующая формула:

P(Y=+|R=+,A=a)=P(Y=+|R=+,A=b)\quad \forall a,b\in A

Математически, если у классификатора одинаковый PPV для обеих групп, он также будет иметь одинаковый FDR, удовлетворяющий формуле:

P(Y=-|R=+,A=a)=P(Y=-|R=+,A=b)\quad \forall a,b\in A

Ложноположительный баланс частоты ошибок , также называемый прогнозным равенством . Классификатор удовлетворяет этому определению, если субъекты в защищенных и незащищенных группах имеют водные FPR. Это если выполняется следующая формула:

P(R=+|Y=-,A=a)=P(R=+|Y=-,A=b)\quad \forall a,b\in A

Математически, если классификатор имеет равную FPR для обеих групп, он также будет иметь равное TNR, удовлетворяющее формуле:

P(R=-|Y=-,A=a)=P(R=-|Y=-,A=b)\quad \forall a,b\in A

Ложноотрицательный баланс коэффициента ошибок , также называемый равными возможностями . Классификатор удовлетворяет этому определению, если субъекты в защищенных и незащищенных группах имеют равное FNR. Это если выполняется следующая формула:

P(R=-|Y=+,A=a)=P(R=-|Y=+,A=b)\quad \forall a,b\in A

Математически, если классификатор имеет равное FNR для обеих групп, он также будет иметь равный TPR, удовлетворяющий формуле:

P(R=+|Y=+,A=a)=P(R=+|Y=+,A=b)\quad \forall a,b\in A

Выравнивание шансов , также называемое условным равенством точности процедур и несопоставимым плохим обращением . Классификатор удовлетворяет этому определению, если субъекты в защищенной и незащищенной группах имеют равный TPR и равный FPR, удовлетворяющий формуле:

P(R=+|Y=y,A=a)=P(R=+|Y=y,A=b)\quad y\in \{+,-\}\quad \forall a,b\in A

Условное равенство точности использования . Классификатор удовлетворяет этому определению, если субъекты в защищенной и незащищенной группах имеют равные PPV и равные NPV, удовлетворяющие формуле:

P(Y=y|R=y,A=a)=P(Y=y|R=y,A=b)\quad y\in \{+,-\}\quad \forall a,b\in A

Общее равенство точности . Классификатор удовлетворяет этому определению, если субъект в защищенной и незащищенной группах имеет одинаковую точность предсказания, то есть вероятность того, что субъект из одного класса будет отнесен к нему. Это если он удовлетворяет следующей формуле:

P(R=Y,A=a)=P(R=Y|A=b)\quad \forall a,b\in A

Равенство в обращении . Классификатор удовлетворяет этому определению, если субъекты в защищенной и незащищенной группах имеют равное соотношение FN и FP, удовлетворяющее формуле:

{\frac {FN_{A=a}}{FP_{A=a}}}={\frac {FN_{A=b}}{FP_{A=b}}}

Определения, основанные на прогнозируемых вероятностях и фактическом результате [ править ]

Эти определения основаны на фактическом результате и прогнозируемой вероятности . ${\textstyle Y}$ ${\textstyle S}$

Проверка честности , также известная как калибровка или согласование условных частот . Классификатор удовлетворяет этому определению, если люди с одинаковым прогнозируемым значением вероятности имеют одинаковую вероятность быть отнесенными к положительному классу, когда они принадлежат либо к защищенной, либо к незащищенной группе: ${\textstyle S}$

P(Y=+|S=s,A=a)=P(Y=+|S=s,A=b)\quad \forall s\in S\quad \forall a,b\in A

Калибровка скважины - это расширение предыдущего определения. Он гласит, что когда люди внутри или за пределами защищенной группы имеют одинаковый прогнозируемый показатель вероятности, они должны иметь одинаковую вероятность быть отнесенными к положительному классу, и эта вероятность должна быть равна : ${\textstyle S}$ ${\textstyle S}$

P(Y=+|S=s,A=a)=P(Y=+|S=s,A=b)=s\quad \forall s\in S\quad \forall a,b\in A

Весы для положительного класса . Классификатор удовлетворяет этому определению, если субъекты, составляющие положительный класс из защищенных и незащищенных групп, имеют одинаковую среднюю прогнозируемую оценку вероятности . Это означает, что ожидаемое значение вероятностной оценки для защищенных и незащищенных групп с положительным фактическим исходом одинаково, что удовлетворяет формуле: ${\textstyle S}$ ${\textstyle Y}$

E(S|Y=+,A=a)=E(S|Y=+,A=b)\quad \forall a,b\in A

Остаток по отрицательному классу . Классификатор удовлетворяет этому определению, если субъекты, составляющие негативный класс из защищенных и незащищенных групп, имеют равную среднюю прогнозируемую оценку вероятности . Это означает, что ожидаемое значение вероятностной оценки для защищенных и незащищенных групп с отрицательным фактическим исходом одинаково, удовлетворяя формуле: ${\textstyle S}$ ${\textstyle Y}$

E(S|Y=-,A=a)=E(S|Y=-,A=b)\quad \forall a,b\in A

Алгоритмы [ править ]

Справедливость может применяться к алгоритмам машинного обучения тремя разными способами: предварительная обработка данных , оптимизация во время обучения программного обеспечения или постобработка результатов алгоритма.

Предварительная обработка [ править ]

Обычно проблема не только в классификаторе; набор данных также предвзятым. Дискриминацию набора данных по отношению к группе можно определить следующим образом: ${\textstyle D}$ ${\textstyle A=a}$

disc_{A=a}(D)={\frac {|\{X\in D|X(A)\neq a,X(Y)=+\}|}{|\{X\in D|X(A)\neq a\}|}}-{\frac {|\{X\in D|X(A)=a,X(Y)=+\}|}{|\{X\in D|X(A)=a\}|}}

То есть приближение к разнице между вероятностями принадлежности к положительному классу при условии, что субъект имеет защищенную характеристику, отличную от и равную . ${\textstyle a}$ ${\textstyle a}$

Алгоритмы, исправляющие систематическую ошибку при предварительной обработке, удаляют информацию о переменных набора данных, которая может привести к несправедливым решениям, при этом стараясь изменить как можно меньше. Это не так просто, как просто удалить чувствительную переменную, потому что другие атрибуты могут быть соотнесены с защищенной.

Один из способов сделать это - сопоставить каждого человека в исходном наборе данных с промежуточным представлением, в котором невозможно определить, принадлежит ли он к определенной защищенной группе, сохраняя при этом как можно больше информации. Затем новое представление данных корректируется для достижения максимальной точности алгоритма.

Таким образом, люди отображаются в новом многовариантном представлении, где вероятность того, что любой член защищенной группы будет сопоставлен с определенным значением в новом представлении, такая же, как вероятность человека, который не принадлежит к защищенной группе. . Затем это представление используется для получения прогноза для человека вместо исходных данных. Поскольку промежуточное представление конструируется с одинаковой вероятностью для лиц внутри или вне защищенной группы, этот атрибут скрыт для классификатора.

Пример объяснен в Zemel et al. ^[8], где в качестве промежуточного представления используется полиномиальная случайная величина . При этом системе рекомендуется сохранять всю информацию, кроме той, которая может привести к необъективным решениям, и получать как можно более точные прогнозы.

С одной стороны, эта процедура имеет то преимущество, что предварительно обработанные данные можно использовать для любой задачи машинного обучения. Кроме того, нет необходимости изменять классификатор, поскольку поправка применяется к набору данных перед обработкой. С другой стороны, другие методы дают лучшие результаты по точности и справедливости. ^[9]

Повторное взвешивание ^[10] [ править ]

Повторное взвешивание - это пример алгоритма предварительной обработки. Идея состоит в том, чтобы присвоить вес каждой точке набора данных так, чтобы взвешенная дискриминация была равна 0 по отношению к указанной группе.

Если бы набор данных был несмещенным, чувствительная переменная и целевая переменная были бы статистически независимыми, а вероятность совместного распределения была бы произведением вероятностей следующим образом: ${\textstyle D}$ ${\textstyle A}$ ${\textstyle Y}$

P_{exp}(A=a\wedge Y=+)=P(A=a)\times P(Y=+)={\frac {|\{X\in D|X(A)=a\}|}{|D|}}\times {\frac {|\{X\in D|X(Y)=+\}|}{|D|}}

В действительности, однако, набор данных не является беспристрастным, и переменные не являются статистически независимыми, поэтому наблюдаемая вероятность составляет:

P_{obs}(A=a\wedge Y=+)={\frac {|\{X\in D|X(A)=a\wedge X(Y)=+\}|}{|D|}}

Чтобы компенсировать смещение, программа добавляет вес , меньший для избранных объектов и более высокий для нежелательных объектов. Для каждого получаем: ${\textstyle X\in D}$

W(X)={\frac {P_{exp}(A=X(A)\wedge Y=X(Y))}{P_{obs}(A=X(A)\wedge Y=X(Y))}}

Когда у нас есть для каждого связанный вес, мы вычисляем взвешенную дискриминацию по группе следующим образом: ${\textstyle X}$ ${\textstyle W(X)}$ ${\textstyle A=a}$

disc_{A=a}(D)={\frac {\sum W(X)X\in \{X\in D|X(A)\neq a,X(Y)=+\}}{\sum W(X)X\in \{X\in D|X(A)\neq a\}}}-{\frac {\sum W(X)X\in \{X\in D|X(A)=a,X(Y)=+\}}{\sum W(X)X\in \{X\in D|X(A)=a\}}}

Можно показать, что после повторного взвешивания эта взвешенная дискриминация равна 0.

Оптимизация во время обучения [ править ]

Другой подход - исправить систематическую ошибку во время тренировки. Это можно сделать, добавив ограничения к цели оптимизации алгоритма. ^[11] Эти ограничения вынуждают алгоритм повышать справедливость, сохраняя те же уровни определенных мер для защищенной группы и остальных лиц. Например, мы можем добавить к цели алгоритма условие, что частота ложных срабатываний одинакова для лиц в защищенной группе и для лиц вне защищенной группы.

Основными показателями, используемыми в этом подходе, являются частота ложных срабатываний, частота ложных отрицательных результатов и общий уровень ошибочной классификации. К цели алгоритма можно добавить только одно или несколько из этих ограничений. Обратите внимание, что равенство ложноотрицательных показателей подразумевает равенство истинно положительных показателей, поэтому это подразумевает равенство возможностей. После добавления ограничений проблема может стать неразрешимой, поэтому может потребоваться их ослабление.

Этот метод дает хорошие результаты в улучшении справедливости при сохранении высокой точности и позволяет программисту выбирать меры справедливости для улучшения. Однако для каждой задачи машинного обучения может потребоваться применение разных методов, а также необходимо изменить код в классификаторе, что не всегда возможно. ^[9]

Состязательное ослабление ^[12]^[13] [ править ]

Мы обучаем два классификатора одновременно с помощью некоторого метода на основе градиента (например, градиентный спуск ). Первый, предиктор пытается выполнить задачу прогнозирования заданной целевой переменной , входных данных, изменяя ее веса, чтобы минимизировать некоторую функцию потерь . Во втором случае злоумышленник пытается выполнить задачу прогнозирования чувствительной переменной, заданной путем изменения ее весов, чтобы минимизировать некоторую функцию потерь . ${\textstyle Y}$ ${\textstyle X}$ ${\textstyle W}$ ${\textstyle L_{P}({\hat {y}},y)}$ ${\textstyle A}$ ${\textstyle {\hat {Y}}}$ ${\textstyle U}$ ${\textstyle L_{A}({\hat {a}},a)}$

Важным моментом здесь является то, что для правильного распространения вышеупомянутое должно относиться к необработанному результату классификатора, а не к дискретному прогнозу; например, с искусственной нейронной сетью и проблемой классификации может относиться к выходным данным слоя softmax . ${\textstyle {\hat {Y}}}$ ${\textstyle {\hat {Y}}}$

Затем мы обновляем, чтобы минимизировать на каждом этапе обучения в соответствии с градиентом, и модифицируем в соответствии с выражением: ${\textstyle U}$ ${\textstyle L_{A}}$ ${\textstyle \nabla _{U}L_{A}}$ ${\textstyle W}$

\nabla _{W}L_{P}-proj_{\nabla _{W}L_{A}}\nabla _{W}L_{P}-\alpha \nabla _{W}L_{A}

где - настраиваемый гиперпараметр, который может изменяться на каждом временном шаге.

\alpha

Графическое представление векторов, используемых в противодействии сглаживанию, как показано в Zhan et al. ^[12]

Интуитивная идея состоит в том, что мы хотим, чтобы предиктор попытался минимизировать (следовательно, термин ) и в то же время максимизировать (следовательно, термин ), чтобы злоумышленник не смог предсказать чувствительную переменную из . ${\textstyle L_{P}}$ ${\textstyle \nabla _{W}L_{P}}$ ${\textstyle L_{A}}$ ${\textstyle -\alpha \nabla _{W}L_{A}}$ ${\textstyle {\hat {Y}}}$

Этот термин предотвращает движение предсказателя в направлении, которое помогает противнику уменьшить его функцию потерь. ${\textstyle -proj_{\nabla _{W}L_{A}}\nabla _{W}L_{P}}$

Можно показать, что обучение модели классификации предикторов с помощью этого алгоритма улучшает демографический паритет по отношению к обучению без злоумышленника .

Постобработка [ править ]

Последний метод пытается исправить результаты классификатора для достижения справедливости. В этом методе у нас есть классификатор, который возвращает оценку для каждого человека, и нам нужно сделать для них двоичное прогнозирование. Высокие баллы, скорее всего, приведут к положительному результату, а низкие баллы - к отрицательному, но мы можем настроить порог, чтобы определить, когда отвечать «да», по желанию. Обратите внимание, что вариации порогового значения влияют на компромисс между коэффициентами истинно положительных и истинно отрицательных результатов.

Если функция оценки справедлива в том смысле, что она не зависит от защищенного атрибута, то любой выбор порога также будет справедливым, но классификаторы этого типа имеют тенденцию быть предвзятыми, поэтому для каждой защищенной группы может потребоваться другой порог. чтобы добиться справедливости. ^[14] Один из способов сделать это - построить график зависимости истинно положительной частоты от ложноотрицательной при различных настройках порога (это называется кривой ROC) и найти порог, при котором показатели для защищенной группы и других лиц равны. ^[14]

Преимущества постобработки заключаются в том, что метод может применяться после любых классификаторов, не изменяя его, и имеет хорошие показатели по показателям справедливости. Минусы - необходимость доступа к защищенному атрибуту во время тестирования и отсутствие выбора баланса между точностью и справедливостью. ^[9]

Отклонить классификацию на основе вариантов ^[15] [ править ]

Для данного классификатора пусть будет вероятность, вычисленная классификаторами как вероятность того, что экземпляр принадлежит положительному классу +. Когда оно близко к 1 или 0, экземпляр определяется с высокой степенью уверенности как принадлежащий классу + или - соответственно. Однако, когда оно ближе к 0,5, классификация становится более неясной. ${\textstyle P(+|X)}$ ${\textstyle X}$ ${\textstyle P(+|X)}$ ${\textstyle X}$ ${\textstyle P(+|X)}$

Мы говорим , является «отвергнута экземпляром» , если с определенным таким образом, что . ${\textstyle X}$ ${\textstyle max(P(+|X),1-P(+|X))\leq \theta }$ ${\textstyle \theta }$ ${\textstyle 0.5<\theta <1}$

Алгоритм «ROC» состоит в классификации неотклоненных экземпляров в соответствии с приведенным выше правилом и отклоненных экземпляров следующим образом: если экземпляр является примером лишенной группы ( ), то пометьте его как положительный, в противном случае пометьте его как отрицательный. $X(A)=a$

Мы можем оптимизировать различные меры дискриминации (ссылки) как функции, чтобы найти оптимальные для каждой проблемы и избежать дискриминации в отношении привилегированной группы. ^[15] ${\textstyle \theta }$ ${\textstyle \theta }$

См. Также [ править ]

Алгоритмический уклон
Машинное обучение

Ссылки [ править ]

^ Мориц Хардт, Беркли . Проверено 18 декабря 2019 г.
^ «Набор инструментов с открытым исходным кодом IBM AI Fairness 360 добавляет новые функции» . Tech Republic.
^ IBM AI Fairness 360 . Проверено 18 декабря 2019 г.
^ Fairness Flow детектор сообщений Facebook . Проверено 28 декабря 2019 г.
^ ML-Спортзал справедливости . Проверено 18 декабря 2019 г.
^ a b c Солон Барокас; Мориц Хардт; Арвинд Нараянан, Справедливость и машинное обучение . Проверено 15 декабря 2019.
^ a b Сахил Верма; Юлия Рубин, Объяснение определений справедливости . Проверено 15 декабря 2019 г.
^ Ричард Земель; Ю (Леделл) Ву; Кевин Сверски; Тониан Питасси; Цинтия Дворк, Ярмарка образовательных представлений . Дата обращения 1 декабря 2019.
^ a b c Цзыюань Чжун, Учебник по справедливости в машинном обучении . Дата обращения 1 декабря 2019.
^ Фейсал Kamiran; Мультяшный Колдерс, Методы предварительной обработки данных для классификации без дискриминации . Проверено 17 декабря 2019 г.
^ Мухаммад Билал Зафар; Изабель Валера; Мануэль Гомес Родригес; Кришна П. Гуммади, Справедливость за пределами разрозненного обращения и разрозненного воздействия: классификация обучения без несоизмеримого жестокого обращения . Дата обращения 1 декабря 2019.
^ а б Брайан Ху Чжан; Блейк Лемуан; Маргарет Митчелл, Смягчение нежелательных предубеждений с помощью состязательного обучения . Проверено 17 декабря 2019 г.
^ Джойс Сюй, Алгоритмические решения алгоритмического уклона: Техническое руководство . Проверено 17 декабря 2019 г.
^ a b Мориц Хардт; Эрик Прайс; Натан Сребро, Равенство возможностей в обучении с учителем . Дата обращения 1 декабря 2019.
^ a b Фейсал Камиран; Асим Карим; Сянлян Чжан, Теория принятия решений для классификации с учетом дискриминации . Проверено 17 декабря 2019 г.

[Articles-1] Мориц Хардт, Беркли . Проверено 18 декабря 2019 г.

[2] «Набор инструментов с открытым исходным кодом IBM AI Fairness 360 добавляет новые функции» . Tech Republic.

[IBM-3] IBM AI Fairness 360 . Проверено 18 декабря 2019 г.

[Facebook-4] Fairness Flow детектор сообщений Facebook . Проверено 28 декабря 2019 г.

[Google-5] ML-Спортзал справедливости . Проверено 18 декабря 2019 г.

[Barocas-6] Солон Барокас; Мориц Хардт; Арвинд Нараянан, Справедливость и машинное обучение . Проверено 15 декабря 2019.

[metrics_paper-7] Сахил Верма; Юлия Рубин, Объяснение определений справедливости . Проверено 15 декабря 2019 г.

[zemel-8] Ричард Земель; Ю (Леделл) Ву; Кевин Сверски; Тониан Питасси; Цинтия Дворк, Ярмарка образовательных представлений . Дата обращения 1 декабря 2019.

[datascience-9] Цзыюань Чжун, Учебник по справедливости в машинном обучении . Дата обращения 1 декабря 2019.

[reweighing-10] Фейсал Kamiran; Мультяшный Колдерс, Методы предварительной обработки данных для классификации без дискриминации . Проверено 17 декабря 2019 г.

[zafar-11] Мухаммад Билал Зафар; Изабель Валера; Мануэль Гомес Родригес; Кришна П. Гуммади, Справедливость за пределами разрозненного обращения и разрозненного воздействия: классификация обучения без несоизмеримого жестокого обращения . Дата обращения 1 декабря 2019.

[adversarial1-12] а б Брайан Ху Чжан; Блейк Лемуан; Маргарет Митчелл, Смягчение нежелательных предубеждений с помощью состязательного обучения . Проверено 17 декабря 2019 г.

[adversarial2-13] Джойс Сюй, Алгоритмические решения алгоритмического уклона: Техническое руководство . Проверено 17 декабря 2019 г.

[hardt-14] Мориц Хардт; Эрик Прайс; Натан Сребро, Равенство возможностей в обучении с учителем . Дата обращения 1 декабря 2019.

[roc-15] Фейсал Камиран; Асим Карим; Сянлян Чжан, Теория принятия решений для классификации с учетом дискриминации . Проверено 17 декабря 2019 г.

Справедливость (машинное обучение)

Контекст [ править ]

Споры [ править ]

Прозрачность алгоритмов [ править ]

Последствия [ править ]

Международные стандарты [ править ]

Критерии справедливости в задачах классификации [6] [ править ]

Независимость [ править ]

Разделение [ править ]

Достаточность [ править ]

Отношения между определениями [ править ]

Показатели [7] [ править ]

Другие критерии справедливости [ править ]

Определения, основанные на прогнозе [ править ]

Определения, основанные на прогнозируемых и фактических результатах [ править ]

Определения, основанные на прогнозируемых вероятностях и фактическом результате [ править ]

Алгоритмы [ править ]

Предварительная обработка [ править ]

Повторное взвешивание [10] [ править ]

Оптимизация во время обучения [ править ]

Состязательное ослабление [12] [13] [ править ]

Постобработка [ править ]

Отклонить классификацию на основе вариантов [15] [ править ]

См. Также [ править ]

Ссылки [ править ]

Критерии справедливости в задачах классификации ^[6] [ править ]

Показатели ^[7] [ править ]

Повторное взвешивание ^[10] [ править ]

Состязательное ослабление ^[12]^[13] [ править ]

Отклонить классификацию на основе вариантов ^[15] [ править ]