Содержание
Метод наименьших квадратов
Допустим, у нас имеются два набора (выборки) данных:
— независимая (объясняющая, экзогенная) переменная
и
— зависимая (объясняемая, эндогенная) переменная, а — размер (объём) выборки или, проще говоря, число наблюдений.
Каждая из пар описывает результаты одного наблюдения. Все пары описывают результаты эксперимента (например, лабораторного физического опыта, съёмки данных с промышленных контроллеров) или статистического наблюдения (экономическая статистика или данные социологических опросов). Каждая из пар может быть изображена на координатной плоскости как точка (кажое отлжим по оси абсцисс , а соответствующее ему — по оси ординат ), поэтому для краткости будем называть эту парой «точкой», а множество всех точек будем называть «диаграмма рассеяния».
Мы предполагаем, что эти две переменные связаны[1] линейно, т. е. зависимость между переменными описывается линейной функцией. Как известно, любая линейная функция может быть однозначно задана парой коэффициентов:
- — свободным членом
- — коэффициентом при переменной, который численно является тангенсом угла наклона прямой к положительному направлению оси абсцисс.
Наша задача — подобрать такие коэффициенты линейной фунцкии и , чтобы линейная функция наилучшим образом описывала (аппроксимировала) наши наборы данных и .
Чрезвычайно редко (практически никогда) возникает ситуация, при которой все точки лежат на одной прямой. Поэтому наша искомая наилучшая линейная функция будет выглядеть следующим образом:
, где — оцененное значение линейной функции, отличающееся как правило, от реального значения .
Разницу между оцененным значение и реальным значением обозначим:
, от англ. «error» — здесь в значении «отклонение».
Мы должны подобрать, таким образом такие и , чтобы некая агрегированная мера (через «ять») этих отклонений была бы наименьшей.
Существует большое количество способов задания такой меры. Приведем самые очевидные:
- сумма отлонений:
- сумма модулей отклонений:
- сумма квадратов отклонений: .
Каждый из этих вариантов имеет как свои плюсы, так и свои минусы. В каком-то смысле, все они «плохие», поэтому наша задача выбрать наименее «плохой» из них: тот, чьи плюсы перевесят минусы.
[1] Речь идет не о причинно-следственной (вернее, не обязательно о ней), а о статистической связи.
КатегорияПрикладнаяМатематика