Содержание
Метод наименьших квадратов
- ToDo статьи:
- картинки: http://rextester.com/DUX29094
- ссылки на литературу
- формулы: типографика + вывод в терминах
- ТеоремаГауссаМаркова
- статья удовлетворяет слабому критерию Никитенкова и частично — сильному критерию Никитенкова.
В данной статье все вектора по умолчанию являются векторами-столбцами. Внимательно следите за размерностями матриц и векторов по ходу объяснения.
Простейший случай
Общая постановка задачи
Допустим, в рамках некого эксперимента было проведено измерений ¹). Каждое измерение представляет собой пару где — вход, — выход (такую пару будем называть «точкой»).
Результаты эксперимента могут быть записаны в таблице, в первом столбце которой будут находиться все значения входов, а во втором — все значения выходов:
Графически можно представить результаты проведённого эксперимента на графике: по оси абсцисс будем откладывать входы, а по оси ординат — выходы. Такой график называется диаграмма рассеяния (scatter diagram, scatter plot, scatter chart).
Почти никогда не встречается ситуаций, при которых все точки будут лежать на одной прямой. Поэтому мы хотим описать экспериментальные данные линейной функцией («подогнать» их к прямой). По рисунку интуитивно очевидно, что синяя линяя лучше описывать полученные экспериментальные данные, но без какого-либо чёткого математического критерия, нельзя однозначно сказать, какая из линий: синяя или зелёная — более приемлема для целей анализа и прогнозирования (канцелярит в полный рост).
[|http://rextester.com/VGWGO78956| 450px]
Таким образом, наша цель — найти такую линейную функцию (прямую), которая, в некотором смысле, наилучшим образом описывала бы полученные результаты.
Значения этой функции будем называть оценками и обозначим Сама функция будет иметь вид
Каждому измерению входа будет соответствовать реальное значение и оценка Разницу между реальным значением и оценкой будем называть отклонением и обозначим
- http://rextester.com/PXN34584 , pin =c(6.5, 6.5)
Таким образом, нам нужна такая линейная функция, для которой общее отклонение реальных экспериментальных значений от оценок было бы наименьшим. При этом общее отклонение не обязательно должно быть измерено как сумма отклонений для всех измерений.
Выбор способа «подгонки»
Существует большое количество способов измерить общее отклонение реальных экспериментальных значений от их оценок. Приведём самые очевидные из них:
- сумма значений отклонений
- сумма абсолютных значений отклонений
- сумма квадратов отклонений
Каждый из этих способов имеет как свои плюсы, так и свои минусы. В каком-то смысле, все они «плохие», поэтому наша задача выбрать наименее «плохой» из них: тот, чьи плюсы перевесят минусы. Для выбора рассмотрим их по отдельности.
Несомненным достоинством первого способа является его чрезвычайная простота. Однако такой способ небезопасен с точки зрения статистических выбросов. Если в наших данных есть два выброса, лежащие по разные стороны от прямой на примерно одном и том же расстоянии, то они погасят друг друга. Если таких выбросов будет много (при малых выборках бывает достаточно и двух), то это может дать нам прямую с неверным угловым коэффициентом .
Казалось бы, недостатки первого способа полностью снимаются вторым. Взятие абсолютного значения (модуля) должно обезопасить нас от проблем с взаимопогашающимися разносторонними выбросами. Однако и у этого способа есть существенные недостатки.
Забегая несколько вперед, скажем, что для получения коэффициентов наилучшей линейной функции мы воспользуемся математическим аппаратом дифференциального исчисления. Модуль же не является всюду дифференцируемой функций. И если это кажется не такой большой проблемой в нашем примере, то когда мы расширим МНК на случай многих независимых переменных, это может сделать вычислительную задачу чрезвычайно трудноразрешимой (а в момент, когда этот метод был открыт и просто практически неразрешимой). Кроме того, неприемлемость данного способа (бо́льшую приемлемость другого) доказал в своё время великий русский математик Андрей Андреевич Марков, чьи работы позволили использовать МНК в статистическом оценивании.
Третий способ, давший имя методу наименьших квадратов, позволяет избежать проблем, связанных с робастностью. Более сильные отклонения вносят бо́льшие вклады, а слабые отклонения нивелируются — взаимного погашения при этом возникнуть не может, т. к. квадрат числа неотрицателен. Вместе с этим, уходит и проблема, связанная с дифференцированием: квадратическая функция является всюду дифференцируемой. Этим, а также и другими причинами (в том числе и причинами, выявленными А. А. Марковым в связи с использованием МНК в статистическом оценивании), был обусловлен выбор способа.
Таким образом мы можем формализовать описанную нами задачу: необходимо наити такие значения коэффициентов и , при которых функция примет наименьшее значение.
Математическая формализация
Необходимое условие минимума (условие первого порядка):
Обратите внимание: условие первого порядка — система дифференциальных уравнений в частных производных размерности два.
Разделим оба уравнения системы на и перепишем их используя принятые в математической статистике обозначения
Выразив из второго уравнения и подставив в первое получим
В итоге получим коэффициенты:
Обратите внимание: линия наилучшей линейной аппроксимации проходит через «центр масс».
[|http://rextester.com/UFPG93288|450px]
Необходимое условие минимума (условие первого порядка), вообще говоря, даёт нам точку, подозрительную на экстремум. Для того, чтобы математически строго доказать, что полученное решение — точка минимума функции , исследуем определённость матрицы вторых частных производных. Если матрица вторых частных производных будет положительно определена, то это гарантирует, что найденное решение даст минимум функции . В соответствии с критерием Сильвестра, матрица является положительно определённой, когда все ее угловые миноры положительны.
Достаточное условие максимума (условие второго порядка):
Напомним, что , поэтому можем рассматривать матрицу с вынесенной двойкой: умножение матрицы на положительное число не изменит знака её угловых миноров.
Значение первого углового минора будет неотрицательным всегда. Единственный случай, при котором этот минор обратиться в ноль, — это равенство всех входов нулю. Данный случай не представляет для нас интереса: при нём обработка данных методом наименьших квадратов не будет иметь смысла. Поэтому мы можем утверждать: первый угловой минор матрицы вторых частных производных функции строго положителен.
Неотрицательность второго углового минора матрицы вторых частных производных функции следует из неравенство о средних (также называемого неравенством Коши, не путайте с неравенством Коши-Буняковского).
Последнее выражение выполняется как равенство, когда значения, для которых вычисляются средние, равны между собой (попробуйте доказать это самостоятельно). Этот случай не представляет интереса для задач обработки данных методом наименьших квадратов. Можем заключить: второй угловой минор матрицы вторых частных производных функции также положителен.
Матрица вторых частных производных, таким образом, по критерию Сильвестра явлется положительно определённой, что даёт нам основания утверждать, что полученное решение — точка минимума функции .
Множественный случай
Общая постановка задачи
Расширим наш эксперимент: по-прежнему было проведено измерений, но замерялся не один вход, а различных входов (выход по-прежнему один).
Результаты эксперимента могут быть компактно записаны с помощью матриц. Входы будут находиться в матрице , а выходы — в векторе-столбце .
По строкам матрицы расположены результаты измерений, по столбцам — значения входов. Например, — значение 4-го входа в 3-ем измерении.
Мы по-прежнему хотим «подогнать» наши экспериментальные данные к линейной функции, но, в отличие от предыдущего случая это будет не прямая, а -мерная плоскость (для это будет обычная плоскость, для — гиперплоскость). Вектор значений линейной функции назовём вектором оценкок и обозначим где — вектор-столбец коэффициентов линейной функции.
Проиллюстрируем случай следующим примером. Представьте, что в комнате в разных местах на разной высоте висят воздушные шарики. Вы хотите растянуть в этой комнате несгибаемое полотно (из ткани, бумаги, картона) так, чтобы это полотно находилось ближе всего к шарикам. Высота шарика относительно пола будет являться выходом , координаты проекции шарика на пол — входами , расстояние от проекции шарика на пол до полотна — оценкой , расстояние от шарика до полотна по линии проекции шарика на пол — отклонением .
Если мы предполагаем, что в нашей линейной функции имеется свободный член, то значения крайнего правого столбца матрицы будут состоять только из единиц. Соответственно, и будет значением свободного члена.
Разницу между реальным значением и оценкой будем по-прежнему называть отклонением и обозначим
Сумма квадратов отклонений может быть получена как Нам необходимо, найти такой вектор , чтобы сумма квадратов отклонений была минимальна:
Математическая формализация
Список литературы
- Марков, А. А. Исчисление вероятностей, изд. 4 / Андрей Андреевич Марков. — ГИЗ, 1924.
- Марков, А. А. Закон больших чисел и метод наименьших квадратов (1898) Избр. труды / Андрей Андреевич Марков. — Изд. АН СССР, 1951. — C. 233—251.
- Линник, Ю. В. Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений / Юрий Владимирович Линник. — М. : ''''''ФизМатГИЗ'''''', 1962. — C. 10—16. — http://books.e-herit....
- Доугерти, К. Введение в эконометрику / Кристофер Доугерти. — М. : Инфра-М, 1999. — C. 53—58.
- Angrist, J. D. Mostly Harmless Econometrics: An Empiricist's Companion / Joshua D. Angrist, Jörn-Steffen Pischke. — Princeton University Press, 2009. — pp. 21—38. — http://egei.vse.cz/e....
- Атрашкевич, А. А. Занимательная эконометрика для дошкольников / Андрей Анатольевич Атрашкевич, Григорий Александрович Ситкарев. — Сыктывкар : Издательство Лаборатории прикладной математики и программирования, 2015. — 65 c.
Примечания
¹) В случае, если МНК используется для обработки социально-экономических данных, вместо «измерение» говорят «наблюдение», вместо «опыт» — «статистическое наблюдение».
КатегорияПрикладнаяМатематика