Из Википедии, бесплатной энциклопедии
  (Перенаправлен из целевой функции )
Перейти к навигации Перейти к поиску

В математической оптимизации и теории принятия решений , функция потерь или функцию затрат (иногда называемые также функция ошибки ) [1] является функция , которая отображает события или значения одного или несколько переменных на вещественное число интуитивно представляющие некоторые «стоимость» , связанную с событие. Задача оптимизации стремится к минимизации функции потерь. Целевая функция является либо функцией потерь или его отрицательным (в определенных областях, по- разному называется функцией вознаграждения , А функция прибыли , А функция полезности , Aфункция пригодности и т. д.), в этом случае она должна быть максимизирована.

В статистике обычно для оценки параметров используется функция потерь , а рассматриваемое событие является некоторой функцией разницы между оценочными и истинными значениями для экземпляра данных. Эта старая, как Лаплас , концепция была вновь введена в статистику Абрахамом Вальдом в середине 20 века. [2] В контексте экономики , например, это обычно экономическая цена или сожаление . В классификации это штраф за неправильную классификацию примера. В актуарной науке он используется в контексте страхования для моделирования выплат, выплачиваемых сверх премий, особенно потому, что работыХаральд Крамер в 1920-х годах. [3] При оптимальном управлении потеря - это штраф за неспособность достичь желаемого значения. В управлении финансовыми рисками функция отображается на денежный убыток.

В классической статистике (как частотной, так и байесовской) функция потерь обычно рассматривается как нечто вроде фонового математического соглашения.

Примеры [ править ]

Сожаление [ править ]

Леонард Дж. Сэвидж утверждал, что при использовании небайесовских методов, таких как минимакс , функция потерь должна основываться на идее сожаления , т. Е. Потеря, связанная с решением, должна быть разницей между последствиями лучшего решения, которое могло быть принято. если бы были известны основные обстоятельства дела и фактическое решение, которое было принято до того, как они стали известны.

Квадратичная функция потерь [ править ]

Часто используется квадратичная функция потерь, например, при использовании метода наименьших квадратов . Часто она более математически поддается обработке, чем другие функции потерь из-за свойств дисперсии , а также из-за того , что она симметрична: ошибка выше целевого значения вызывает такие же потери, как и такая же величина ошибки ниже целевого значения. Если целью является t , то квадратичная функция потерь равна

для некоторой константы C ; значение константы не влияет на решение и может быть проигнорировано, установив его равным 1.

Многие общие статистические данные , включая t-тесты , регрессионные модели, план экспериментов и многое другое, используют методы наименьших квадратов, применяемые с использованием теории линейной регрессии , которая основана на квадратичной функции потерь.

Квадратичная функция потерь также используется в линейно-квадратичных задачах оптимального управления . В этих задачах, даже при отсутствии неопределенности, может оказаться невозможным достичь желаемых значений всех целевых переменных. Часто потери выражаются квадратичной формой отклонений интересующих переменных от их желаемых значений; этот подход приемлем, потому что он приводит к линейным условиям первого порядка . В контексте стохастического управления используется математическое ожидание квадратичной формы.

0-1 функция потерь [ править ]

В статистике и теории принятия решений часто используемой функцией потерь является функция потерь 0-1.

где - индикаторная функция .

Построение функций потерь и целей [ править ]

Во многих приложениях целевые функции, включая функции потерь как частный случай, определяются постановкой задачи. В других ситуациях предпочтение лица, принимающего решения, должно быть выявлено и представлено скалярной функцией (называемой также функцией полезности ) в форме, подходящей для оптимизации - проблема, которую Рагнар Фриш выделил в своей лекции о Нобелевской премии. [4] Существующие методы построения целевых функций собраны в трудах двух специализированных конференций. [5] [6] В частности, Андраник Тангянпоказал, что наиболее используемые целевые функции - квадратичные и аддитивные - определяются несколькими точками безразличия. Он использовал это свойство в моделях для построения этих целевых функций из порядковых или кардинальных данных, которые были получены с помощью компьютерных интервью с лицами, принимающими решения. [7] [8] Среди прочего, он построил целевые функции для оптимального распределения бюджетов для 16 университетов Вестфалии [9] и европейских субсидий для выравнивания уровней безработицы между 271 регионом Германии. [10]

Ожидаемая потеря [ править ]

В некоторых контекстах, значение самой функции потерь является случайной величиной , поскольку она зависит от результатов случайной величины X .

Статистика [ править ]

Как частотная, так и байесовская статистическая теория предполагают принятие решения на основе ожидаемого значения функции потерь; однако эта величина определяется по-разному в двух парадигмах.

Ожидаемый убыток Frequentist [ править ]

Сначала мы определяем ожидаемые потери в частотном контексте. Это достигается путем принятия ожидаемого значения относительно распределения вероятностей, P & thetas , наблюдаемых данных, X . Это также называется функцией риска [11] [12] [13] [14] решающего правила δ и параметра θ . Здесь правило принятия решения зависит от исхода X . Функция риска определяется следующим образом:

Здесь θ - фиксированное, но, возможно, неизвестное состояние природы, X - вектор наблюдений, стохастически извлеченный из совокупности , - это ожидание по всем значениям совокупности X , dP θ - мера вероятности в пространстве событий X (параметризованная  θ ) , а интеграл вычисляется по всей поддержке в  X .

Байесовские ожидаемые потери [ править ]

В байесовском подходе математическое ожидание вычисляется с использованием апостериорного распределения π * параметра  θ :

One then should choose the action a* which minimises the expected loss. Although this will result in choosing the same action as would be chosen using the frequentist risk, the emphasis of the Bayesian approach is that one is only interested in choosing the optimal action under the actual observed data, whereas choosing the actual frequentist optimal decision rule, which is a function of all possible observations, is a much more difficult problem.

Examples in statistics[edit]

  • For a scalar parameter θ, a decision function whose output is an estimate of θ, and a quadratic loss function (squared error loss)
the risk function becomes the mean squared error of the estimate,
  • In density estimation, the unknown parameter is probability density itself. The loss function is typically chosen to be a norm in an appropriate function space. For example, for L2 norm,
the risk function becomes the mean integrated squared error

Economic choice under uncertainty[edit]

In economics, decision-making under uncertainty is often modelled using the von Neumann–Morgenstern utility function of the uncertain variable of interest, such as end-of-period wealth. Since the value of this variable is uncertain, so is the value of the utility function; it is the expected value of utility that is maximized.

Decision rules[edit]

A decision rule makes a choice using an optimality criterion. Some commonly used criteria are:

  • Minimax: Choose the decision rule with the lowest worst loss — that is, minimize the worst-case (maximum possible) loss:
  • Invariance: Choose the optimal decision rule which satisfies an invariance requirement.
  • Choose the decision rule with the lowest average loss (i.e. minimize the expected value of the loss function):

Selecting a loss function[edit]

Sound statistical practice requires selecting an estimator consistent with the actual acceptable variation experienced in the context of a particular applied problem. Thus, in the applied use of loss functions, selecting which statistical method to use to model an applied problem depends on knowing the losses that will be experienced from being wrong under the problem's particular circumstances.[15]

A common example involves estimating "location". Under typical statistical assumptions, the mean or average is the statistic for estimating location that minimizes the expected loss experienced under the squared-error loss function, while the median is the estimator that minimizes expected loss experienced under the absolute-difference loss function. Still different estimators would be optimal under other, less common circumstances.

In economics, when an agent is risk neutral, the objective function is simply expressed as the expected value of a monetary quantity, such as profit, income, or end-of-period wealth. For risk-averse or risk-loving agents, loss is measured as the negative of a utility function, and the objective function to be optimized is the expected value of utility.

Other measures of cost are possible, for example mortality or morbidity in the field of public health or safety engineering.

For most optimization algorithms, it is desirable to have a loss function that is globally continuous and differentiable.

Two very commonly used loss functions are the squared loss, , and the absolute loss, . However the absolute loss has the disadvantage that it is not differentiable at . The squared loss has the disadvantage that it has the tendency to be dominated by outliers—when summing over a set of 's (as in ), the final sum tends to be the result of a few particularly large a-values, rather than an expression of the average a-value.

The choice of a loss function is not arbitrary. It is very restrictive and sometimes the loss function may be characterized by its desirable properties.[16] Among the choice principles are, for example, the requirement of completeness of the class of symmetric statistics in the case of i.i.d. observations, the principle of complete information, and some others.

W. Edwards Deming and Nassim Nicholas Taleb argue that empirical reality, not nice mathematical properties, should be the sole basis for selecting loss functions, and real losses often are not mathematically nice and are not differentiable, continuous, symmetric, etc. For example, a person who arrives before a plane gate closure can still make the plane, but a person who arrives after can not, a discontinuity and asymmetry which makes arriving slightly late much more costly than arriving slightly early. In drug dosing, the cost of too little drug may be lack of efficacy, while the cost of too much may be tolerable toxicity, another example of asymmetry. Traffic, pipes, beams, ecologies, climates, etc. may tolerate increased load or stress with little noticeable change up to a point, then become backed up or break catastrophically. These situations, Deming and Taleb argue, are common in real-life problems, perhaps more common than classical smooth, continuous, symmetric, differentials cases.[17]

See also[edit]

  • Bayesian regret
  • Loss functions for classification
  • Discounted maximum loss
  • Hinge loss
  • Scoring rule
  • Statistical risk

References[edit]

  1. ^ Raschka, Sebastian (2019). Python machine learning : machine learning and deep learning with python, scikit-learn, and tensorflow 2. Birmingham: Packt Publishing, Limited. p. 37 - 38. ISBN 1-78995-829-6. OCLC 1135663723.
  2. ^ Wald, A. (1950). Statistical Decision Functions. Wiley.
  3. ^ Cramér, H. (1930). On the mathematical theory of risk. Centraltryckeriet.
  4. ^ Frisch, Ragnar (1969). "From utopian theory to practical applications: the case of econometrics". The Nobel Prize–Prize Lecture. Retrieved 15 February 2021.
  5. ^ Tangian, Andranik; Gruber, Josef (1997). Constructing Scalar-Valued Objective Functions. Proceedings of the Third International Conference on Econometric Decision Models: Constructing Scalar-Valued Objective Functions, University of Hagen, held in Katholische Akademie Schwerte September 5–8, 1995. Lecture Notes in Economics and Mathematical Systems. 453. Berlin: Springer. doi:10.1007/978-3-642-48773-6. ISBN 978-3-540-63061-6.
  6. ^ Tangian, Andranik; Gruber, Josef (2002). Constructing and Applying Objective Functions. Proceedings of the Fourth International Conference on Econometric Decision Models Constructing and Applying Objective Functions, University of Hagen, held in Haus Nordhelle, August, 28 — 31, 2000. Lecture Notes in Economics and Mathematical Systems. 510. Berlin: Springer. doi:10.1007/978-3-642-56038-5. ISBN 978-3-540-42669-1.
  7. ^ Tangian, Andranik (2002). "Constructing a quasi-concave quadratic objective function from interviewing a decision maker". European Journal of Operational Research. 141 (3): 608–640. doi:10.1016/S0377-2217(01)00185-0. S2CID 39623350.
  8. ^ Tangian, Andranik (2004). "A model for ordinally constructing additive objective functions". European Journal of Operational Research. 159 (2): 476–512. doi:10.1016/S0377-2217(03)00413-2. S2CID 31019036.
  9. ^ Tangian, Andranik (2004). "Redistribution of university budgets with respect to the status quo". European Journal of Operational Research. 157 (2): 409–428. doi:10.1016/S0377-2217(03)00271-6.
  10. ^ Tangian, Andranik (2008). "Multi-criteria optimization of regional employment policy: A simulation analysis for Germany". Review of Urban and Regional Development. 20 (2): 103–122. doi:10.1111/j.1467-940X.2008.00144.x.
  11. ^ Nikulin, M.S. (2001) [1994], "Risk of a statistical procedure", Encyclopedia of Mathematics, EMS Press
  12. ^ Berger, James O. (1985). Statistical decision theory and Bayesian Analysis (2nd ed.). New York: Springer-Verlag. Bibcode:1985sdtb.book.....B. ISBN 978-0-387-96098-2. MR 0804611.
  13. ^ DeGroot, Morris (2004) [1970]. Optimal Statistical Decisions. Wiley Classics Library. ISBN 978-0-471-68029-1. MR 2288194.
  14. ^ Robert, Christian P. (2007). The Bayesian Choice. Springer Texts in Statistics (2nd ed.). New York: Springer. doi:10.1007/0-387-71599-1. ISBN 978-0-387-95231-4. MR 1835885.
  15. ^ Pfanzagl, J. (1994). Parametric Statistical Theory. Berlin: Walter de Gruyter. ISBN 978-3-11-013863-4.
  16. ^ Detailed information on mathematical principles of the loss function choice is given in Chapter 2 of the book Klebanov, B.; Rachev, Svetlozat T.; Fabozzi, Frank J. (2009). Robust and Non-Robust Models in Statistics. New York: Nova Scientific Publishers, Inc. (and references there).
  17. ^ Deming, W. Edwards (2000). Out of the Crisis. The MIT Press. ISBN 9780262541152.

Further reading[edit]

  • Aretz, Kevin; Bartram, Söhnke M.; Pope, Peter F. (April–June 2011). "Asymmetric Loss Functions and the Rationality of Expected Stock Returns". International Journal of Forecasting. 27 (2): 413–437. doi:10.1016/j.ijforecast.2009.10.008. SSRN 889323.
  • Berger, James O. (1985). Statistical decision theory and Bayesian Analysis (2nd ed.). New York: Springer-Verlag. Bibcode:1985sdtb.book.....B. ISBN 978-0-387-96098-2. MR 0804611.
  • Cecchetti, S. (2000). "Making monetary policy: Objectives and rules". Oxford Review of Economic Policy. 16 (4): 43–59. doi:10.1093/oxrep/16.4.43.
  • Horowitz, Ann R. (1987). "Loss functions and public policy". Journal of Macroeconomics. 9 (4): 489–504. doi:10.1016/0164-0704(87)90016-4.
  • Waud, Roger N. (1976). "Asymmetric Policymaker Utility Functions and Optimal Policy under Uncertainty". Econometrica. 44 (1): 53–66. doi:10.2307/1911380. JSTOR 1911380.