Это старая версия (1.667) МетодНаименьшихКвадратов.

Содержание

Метод наименьших квадратов

Простейший случай


  • Гильза.

Допустим, в рамках некого эксперимента было проведено n измерений. Каждое измерение представляет собой пару (x sub i , y sub i ), где x sub i — вход, y sub i — выход (такую пару будет называть «точкой»).

Результаты эксперимента могут быть записаны в таблице. В первом столбце будут находиться все значения входов: bold x = (x sub 1 , x sub 2 , ldots , x sub i , ldots , x sub n ), а во втором все значения выходов: bold y = (y sub 1 , y sub 2 , ldots , y sub i , ldots , y sub n ).

Мы хотим описать экспериментальные данные линейной функцией («подогнать» их к прямой). Почти никогда не встречается ситуация, при которой все точки будут лежать на одной прямой. Поэтому наша цель — найти такую линейную функцию (прямую), которая в некотором смысле наилучшим образом описывала бы полученные результаты. Значения этой функции будем называть оценками и обозначим y hat sub i . Сама функция будет иметь вид: y hat sub i = b sub 0 + b sub 1 x sub i .

Каждому измерению входа x sub i будет соответствовать реальное значение y sub i и оценка y hat sub i . Разницу между реальным значением и оценкой будем называть отклонением и обозначим e sub i = y sub i - y hat sub i  = y sub i - b sub 0 - b sub 1 x sub i .

Таким образом, нам нужна такая линейная функция, для которой общее отклонение реальных экспериментальных значений от оценок было бы наименьшим. При этом общее отклонение не обязательно должно быть измерено как сумма отклонений для всех измерений.


  • Первый слой.

Существует большое количество способов измерить общее отклонение реальных экспериментальных значений от их оценок. Приведём самые очевидные из них:

  1. сумма значений отклонений: sum from i=1 to n e sub i
  2. сумма абсолютных значений отклонений: sum from i=1 to n |e sub i |
  3. сумма квадратов отклонений: sum from i=1 to n e sub i sup 2

  • Перенесено из старой версии статьи. Отредактировать.

Каждый из этих способов имеет как свои плюсы, так и свои минусы. В каком-то смысле, все они «плохие», поэтому наша задача выбрать наименее «плохой» из них: тот, чьи плюсы перевесят минусы. Для выбора рассмотрим их по отдельности.

Несомненным достоинством первого способа является его чрезвычайная простота. Однако такой способ небезопасен с точки зрения статистических выбросов.


  • Абзац ниже переписать.

Однако, такой способ не гарантирует нам защиты от того, что статистики называют «робастностью», т. е. статистическими выбросами. Действительно, если у нас есть два значительных выброса в разные стороны от прямой, то они могут друг друга погасить. И мы получим картину неверную вплоть до неверного знака коэффициента b sub 1.


  • Первая фраза — безграмотна и стилистически убога. Переделать.

Казалось бы, недостатки первого способа полностью снимаются вторым. Взятие абсолютного значения (модуля) должно обезопасить нас от проблем с взаимопогашающимися разносторонними выбросами. Однако и у этого способа есть существенные недостатки.

Забегая несколько вперед, скажем, что для получения коэффициентов наилучшей линейной функции мы воспользуемся математическим аппаратом дифференцирования. Модуль же не является всюду дифференцируемой функций. И если это кажется не такой большой проблемой в нашем примере, то когда мы расширим МНК на случай многих независимых переменных, это может сделать вычислительную задачу чрезвычайно трудноразрешимой (а в момент, когда этот метод был открыт и просто практически неразрешимой). Кроме того, неприемлимость данного способа (бо́льшую приемлимость другого) доказал в своё время великий русский математик Андрей Андреевич Марков, чьи работы позволили использовать метод наименьших квадратов в статистическом оценивании.


  • Вставить ссылку на Маркова через boref.

Третий способ, давший имя методу наименьших квадратов, позволяет избежать проблем, связанных с робастностью. Вместе с этим, уходит и проблема, связанная с дифференцированием: квадратическая функция является всюду дифференцируемой. Этим, а также и другими причинами (в том числе и причинами, выявленными А. А. Марковым в связи с использованием МНК в статистическом оценивании), был обусловлен выбор способа.


  • Я не Кристобаль Хунта, поэтому надо переписать: плохо, много понтов.

Таким образом мы можем формализовать лексически описанную нами задачу: необходимо наити такие значения коэффициентов b sub 0 и b sub 1, при которых функция sum from i=1 to n e sub i sup 2 примет наименьшее значение.


КатегорияПрикладнаяМатематика