Содержание
Метод наименьших квадратов
Простейший (парный) случай
Допустим, у нас имеются два набора (выборки) данных:
— независимая (объясняющая, экзогенная) переменная
и
— зависимая (объясняемая, эндогенная) переменная, — размер (объём) выборки или, проще говоря, число наблюдений.
Каждая из пар описывает результаты одного наблюдения. Все пары описывают результаты эксперимента (например, лабораторного физического опыта, съёмки данных с промышленных контроллеров) или статистического наблюдения (экономическая статистика или данные социологических опросов). Каждая из пар может быть изображена на координатной плоскости как точка (кажое отлжим по оси абсцисс , а соответствующее ему — по оси ординат ), поэтому для краткости будем называть эту парой «точкой», а множество всех точек будем называть «диаграмма рассеяния».
Мы предполагаем, что эти две переменные связаны ¹) линейно, т. е. зависимость между переменными описывается линейной функцией. Как известно, любая линейная функция может быть однозначно задана парой коэффициентов:
- — свободным членом
- — коэффициентом при переменной, который численно является тангенсом угла наклона прямой к положительному направлению оси абсцисс .
Наша задача — подобрать такие коэффициенты линейной фунцкии и , чтобы линейная функция наилучшим образом описывала (аппроксимировала) наши наборы данных и .
Чрезвычайно редко (практически никогда) возникает ситуация, при которой все точки лежат на одной прямой. Поэтому наша искомая наилучшая линейная функция будет выглядеть следующим образом:
, где — оцененное значение линейной функции, отличающееся как правило, от реального значения .
Разницу между оцененным значение реальным значением и обозначим:
, от англ. «error» — здесь в значении «отклонение».
Мы должны подобрать, таким образом такие и , чтобы некая агрегированная мера (через «ять») этих отклонений была бы наименьшей.
Существует большое количество способов задания такой меры. Приведем самые очевидные:
- сумма значений отлонений:
- сумма модулей отклонений:
- сумма квадратов отклонений: .
Каждый из этих вариантов имеет как свои плюсы, так и свои минусы. В каком-то смысле, все они «плохие», поэтому наша задача выбрать наименее «плохой» из них: тот, чьи плюсы перевесят минусы. Для выбора рассмотрим их по отдельности
Несомненным достоинством первого способа (суммы отклонений) является его чрезвычайная простота. Однако, такой способ не гарантирует нам защиты от того, что статистики называют «робастностью», т. е. статистическими выбросами. Действительно, если у нас есть два значительных выброса в разные стороны от прямой, то они могут друг друга погасить. И мы получим картину неверную вплоть до неверного знака коэффициента .
Казалось бы, недостатки первого способа полностью снимаются вторым. Взятие абсолютного значения (модуля) должно обезопасить нас от проблем с взаимопогашающимися разносторонними выбросами. Однако и у этого способа есть существенные недостатки. Забегая несколько вперед, скажем, что для получения коэффициентов наилучшей линейной функции мы воспользуемся математическим аппаратом дифференцирования. Модуль же не является всюду дифференцируемой функций. И если это кажется не такой большой проблемой в нашем примере, то когда мы расширим МНК на случай многих независимых переменных, это может сделать вычислительную задачу чрезвычайно трудноразрешимой (а в момент, когда этот метод был открыт и просто практически неразрешимой). Кроме того, неприемлимость данного способа (бо́льшую приемлимость другого) доказал в своё время великий русский математик Андрей Андреевич Марков, чьи работы позволили использовать метод наименьших квадратов в статистическом оценивании.
Третий способ, давший имя методу наименьших квадратов, позволяет избежать проблем, связанных с робастностью. Вместе с этим, уходит и проблема, связанная с дифференцированием: квадратическая функция является всюду дифференцируемой. Этим, а также и другими причинами (в том числе и причинами, выявленными А. А. Марковым в связи с использованием МНК в статистическом оценивании), был обусловлен выбор способа.
Таким образом мы можем формализовать лексически описанную нами задачу: необходимо наити такие значения коэффициентов и , при которых функция примет наименьшее значение.
Формальная математическая запись будем выглядеть следующим образом:
, от англ. «sum of square errors» — «сумма квадратов отклонений»
Зная, что , а можем расписать эту задачу следующим образом:
- Формулы-формулы-формулы, родименькие, как я вас всех люблю, но напишу потом. На гильзу даже первый слой пока не лёг.
Множественный случай
¹) Речь идет не о причинно-следственной (вернее, не обязательно о ней), а о статистической связи.
КатегорияПрикладнаяМатематика