Содержание
Метод наименьших квадратов
Допустим, у нас имеются два набора (выборки) данных:
— независимая (объясняющая, экзогенная) переменная
и
— зависимая (объясняемая, эндогенная) переменная.
Каждая из пар описывает результаты одного наблюдения. Все пары описывают результаты эксперимента (например, лабораторного физического опыта, съёмки данных с промышленных контроллеров) или статистического наблюдения (экономическая статистика или данные социологических опросов). Каждая из пар может быть изображена на координатной плоскости как точка (кажое отлжим по оси абсцисс , а соответствующее ему — по оси ординат ), поэтому для краткости будем называть эту парой «точкой», а множество всех точек будем называть «диаграмма рассеяния».
Мы предполагаем, что эти две переменные связаны[1] линейно, т. е. зависимость между переменными описывается линейной функцией. Как известно, любая линейная функция может быть однозначно задана парой коэффициентов:
- — свободным членом
- — коэффициентом при переменной, который численно является тангенсом угла наклона прямой к положительному направлению оси абсцисс.
Наша задача — подобрать такие коэффициенты линейной фунцкии и , чтобы линейная функция наилучшим образом описывала (аппроксимировала) наши наборы данных и .
Чрезвычайно редко возникает ситуация, при которой все точки лежат на одной прямой. Поэтому наша искомая наилучшая линейная функция будет выглядеть следующим образом:
, где — оцененное значение линейной функции, отличающееся как правило, от реального значения .
Разницу между оцененным значение и реальным значением обозначим:
, от англ. «error» — здесь в значении «отклонение».
[1] Речь идет не о причинно-следственной (вернее, не обязательно о ней), а о статистической связи.
КатегорияПрикладнаяМатематика