Это старая версия (1.536) МетодНаименьшихКвадратов.

Содержание

Метод наименьших квадратов

Допустим, у нас имеются два набора (выборки) данных: bold x = (x sub 1 , x sub 3 , ldots , x sub i , ldots , x sub n )

— независимая (объясняющая, экзогенная) переменная

и bold y = (y sub 1 , y sub 3 , ldots , y sub i , ldots , y sub n )

— зависимая (объясняемая, эндогенная) переменная, а n — размер (объём) выборки или, проще говоря, число наблюдений.

Каждая из пар (x sub i , y sub i ) описывает результаты одного наблюдения. Все пары описывают результаты эксперимента (например, лабораторного физического опыта, съёмки данных с промышленных контроллеров) или статистического наблюдения (экономическая статистика или данные социологических опросов). Каждая из пар (x sub i , y sub i ) может быть изображена на координатной плоскости как точка (кажое x sub i отлжим по оси абсцисс OX, а соответствующее ему y sub i — по оси ординат OY), поэтому для краткости будем называть эту парой «точкой», а множество всех точек будем называть «диаграмма рассеяния».

Мы предполагаем, что эти две переменные связаны[1] линейно, т. е. зависимость между переменными описывается линейной функцией. Как известно, любая линейная функция может быть однозначно задана парой коэффициентов:

  • b sub 0 — свободным членом
  • b sub 1 — коэффициентом при переменной, который численно является тангенсом угла наклона прямой к положительному направлению оси абсцисс.

Наша задача — подобрать такие коэффициенты линейной фунцкии b sub 0 и b sub 1, чтобы линейная функция наилучшим образом описывала (аппроксимировала) наши наборы данных bold x и bold y.

Чрезвычайно редко (практически никогда) возникает ситуация, при которой все точки лежат на одной прямой. Поэтому наша искомая наилучшая линейная функция будет выглядеть следующим образом: y hat sub i = b sub 0 + b sub 1 x sub i

, где y hat sub i — оцененное значение линейной функции, отличающееся как правило, от реального значения y sub i.

Разницу между оцененным значение y hat sub i и реальным значением y sub i обозначим: e sub i= ( y hat sub i - y sub i )

, от англ. «error» — здесь в значении «отклонение».

Мы должны подобрать, таким образом такие b sub 0 и b sub 1, чтобы некая агрегированная мера (через «ять») этих отклонений была бы наименьшей.

Существует большое количество способов задания такой меры. Приведем самые очевидные:

  1. сумма значений отлонений: sum from i=1 to n e sub i
  2. сумма модулей отклонений: sum from i=1 to n | e sub i |
  3. сумма квадратов отклонений: sum from i=1 to n e sub i sup 2.

Каждый из этих вариантов имеет как свои плюсы, так и свои минусы. В каком-то смысле, все они «плохие», поэтому наша задача выбрать наименее «плохой» из них: тот, чьи плюсы перевесят минусы. Для выбора рассмотрим их по отдельности

Несомненным достоинством первого способа (суммы отклонений) является его чрезвычайная простота. Однако, такой способ не гарантирует нам защиты от того, что статистики называют «робастностью», т. е. статистическими выбросами. Действительно, если у нас есть два значительных выброса в разные стороны от прямой, то они могут друг друга погасить. И мы получим картину неверную вплоть до неверного знака коэффициента b sub 1.

Казалось бы, недостатки первого способа полностью снимаются вторым. Взятие абсолютного значения должно гарантировать нас от проблем с взаимопогашающимися разносторонними выбросами. Однако и у этого способа есть существенные недостатки. Забегая несколько вперед, скажем, что для получения коэффициентов наилучшей линейной функции мы воспользуемся математическим аппаратом дифференцирования. Модуль же не является всюду дифференцируемой функций. И если это кажется не такой большой проблемой в нашем примере, то когда мы расширим метод наименьших квадратов на случай многих независимых переменных, это может сделать вычислительную задачу чрезвычайно трудноразрешимой (а в момент, когда этот метод был открыт и просто практически неразрешимой). Кроме того, неприемлимость данного способа (бо́льшую приемлимость другого) доказал в своё время великий русский математик Андрей Андреевич Марков, чьи работы позволили использовать метод наименьших квадратов в статистическом оценивании.

Третий способ, давший имя методу наименьших квадратов, позволяет избежать проблем, связанных с робастностью. Вместе с этим, уходит и проблема, связанная с дифференцированием: квадратическая функция является всюду дифференцируемой. Этим, а также и другими причинами, был обусловлен выбор способа.

Таким образом мы можем формализовать лексически и математически описанную нами задачу: необходимо наити такие значения коэффициентов b sub 0 и b sub 1, при которых функция sum from i=1 to n e sub i sup 2 примет наименьшее значение. Формальная математическая запись будем выглядеть следующим образом: SSE = sum from i=1 to n e sub i sup 2 \\(-> min from {b sub 0 , b sub 1}

, от англ. «sum of square errors» — «сумма квадратов отклонений»

Зная, что e sub i = (y hat sub i - y sub i ), а y hat i = b sub 0 + b sub 1 x sub i можем расписать эту задачу следующим образом: SSE = sum from i=1 to n e sub i sup 2 =
sum from i=1 to n (y hat sub i - y sub i ) =
sum from i=1 to n \\(-> min from {b sub 0 , b sub 1}


[1] Речь идет не о причинно-следственной (вернее, не обязательно о ней), а о статистической связи.

КатегорияПрикладнаяМатематика