МетодГрадиентногоСпуска

Разница между 1.1 и текущей версией МетодГрадиентногоСпуска.
@@ -1,73 +1,102 @@
 ----
-	* Я доведу её до вменяемого состояния, честно! -- ЛипинБорис
+	* Я доведу статью до вменяемого состояния и поправлю всё что напитиримил, честно! -- ЛипинБорис
 	* Будет здорово услышать чью-нибудь критику по поводу статьи. :)
+		* Ограниченность метода. Где (и почему?) нельзя использовать.
+		* Примеры и причины плохой сходимости методы (структура функции потерь, плохой в смысле сходимости выбор шага).
+		* Вообще сама идея сходимости метода. Туда же неравенство Канторовича (за корректность не ручаюсь).
+		* Можно ещё указать, что метод используется (будучу немного модифицированным) в обратном распространении ошибки.
+		* Это можно будет указать в будущей статье про НейронныеСети :)
+			*  «...И жить торопиться, и чувствовать спешит...», П.А.Вяземский, кажется -- АтрашкевичАндрей
+		* Боря, в алгоритме я не увидел выхода: когда завершается алгоритм? Я тупой, наверное. -- АтрашкевичАндрей
+			* Действительно пока нету)
+	* Мне одному режет глаз эти прыжки вниз формулы $$ Y sup i $$?
+	* Может стоит сделать реквест на возможность авторизованным пользователям аплоадить картинки?
+	* «Функция потерь $$ J( THETA ) $$, считающая средний квадрат ошибки для всей выборки, выглядит следующим образом» : средний половинный, если быть точным, но это уже так, придурь из учебников по прикладной матстатистике. Понятно, что это делается для удобства, чтобы в производной меньше возьни было и что это монотонная операция, она экстремальное поведение функции не меняет, но всё же. -- АтрашкевичАндрей
+
 ----
 
-- Метод градиентного спуска (Gradient descent method)
+= Метод градиентного спуска (Gradient descent method)
+
+Для заданного набора пар (Входное значение; Результат) или же
+$$ ( X sup i; Y sup i ) $$
+МетодГрадиентногоСпуска
+получает коэффициенты функции '''h(x)''',
+которая для всех входных параметров $$ X sup i $$ получает значение,
+максимально близкое к $$ Y sup i $$.
+
+'''NOTE:''' Здесь и далее буква '''i''' в выражениях 
+$$ X sup i $$,
+$$ Y sup i $$ обозначает не степень,
+а номер пары в выборке.
+
+ТУТ_НУЖНА_ВСЁ_НАГЛЯДНО_ОПИСЫВАЮЩАЯ_КАРТИНКА
+https://psv4.vk.me/c612717/u16487792/docs/1f6840a05bc4/Screenshot_-_04052015_-_04_11_51_AM.png
+
+Ошибкой для каждой пары
+$$ ( X sup i; Y sup i ) $$
+будем считать разницу между фактическим значением
+$$ Y sup i$$
+и тем значением,
+которое удалось получить с помощью '''h(x)'''.
 
-Метод градиентного спуска используется для подбора оптимальных коэффициентов произвольной функции
-$$ h(x) $$
-при наборе известных пар 
-$$ (x, y) $$ (Входной параметр, результат).
-Например, в результате эксперимента мы получили следующие значения:
-
- i	X	Y
-
- 1	1	6
- 2	4	12
- 3	5	14
- 4	10	24
 
-Мы можем предположить что зависимость $$X$$ от $$Y$$ имеет линейный характер
-и хотим узнать коэффициенты $$THETA sub 1, THETA sub 2 $$ для функции  $$ h(x) $$,
+Функция потерь $$ J( THETA ) $$,
+считающая средний квадрат ошибки для всей выборки, выглядит следующим образом 
 
 %EQ
-h(x) = THETA sub 1  + THETA sub 2 X
+J( THETA )
+=
+1 over {2m} sum {(h sub theta (x sup (i) ) - y sup (i) ) sup 2}
 %EN
+'''[1]'''
 
-которая для каждого $$i$$ -того эксперимента в соответствие
-$$x sup (i)$$
-получит значение $$ h(x) $$ максимально близкое к
-$$y sup (i)$$ (В данном случае и дальше в этой статье символ $$sup (i)$$ будет обозначать не степень, а номер пары $$ (x, y) $$). 
-
-Метод используется для решения тех же задач что и МетодНаименьшихКвадратов.
-
-----
-	* К:  с той существенной разницей, что МНК без дополнительных действий (линеаризация или взятие весов, например) пригоден только для аппроксимации данных линейными полиномами, а МГС используется для аппроксимации данных и полиномами со старшей степенью $$ n >= 2$$ --АтрашкевичАндрей
-----
+	$$THETA$$ : искомые коэффициенты функции '''h(x)''';
+	'''m''' : количество пар в выборке.
 
-Для измерения того, на сколько значения, полученные с помощью  нашей функции,
-далеки от значений, полученных в результате измерения, 
-используют квадрат расстояния:
+Найти минимум функции потерь (минимизировать потери) можно используя производную.
 
 %EQ
-h(x) - h sub theta (x sup i) - y sup (i) $$
+{partial {J( THETA )}} over
+{ partial THETA }
+=
+1 over m sum {(h sub theta (x sup (i) ) - y sup (i) ) x sup (i)}
 %EN
+'''[2]'''
+
+Так как функция потерь - квадратичная, она достигает минимума там, где её производная равна нулю.
 
-Функцию, считающую среднюю ошибку на всех измерениях будем называть функцией потерь.
-Её значения зависят от параметров
-$$ THETA $$,
-поэтому будем обозначать её как
-$$J( THETA )$$. Она считается по формуле
+Часто аналитическое решение уравнения '''[2]'''
+это слишком дорогая операция и
+легче с помощью формулы '''[3]''' пошагово получать значения
+$$ THETA $$
+наиболее близкие к оптимальным.
 
 %EQ
-J( THETA )
+THETA
 =
-1 over {2m} sum {(h sub theta (x sup i) - y sup (i) ) sup 2}
+THETA - alpha partial over { partial THETA} J( THETA )
 %EN
+'''[3]'''
 
-''NOTE:'' $$ 1 over 2 $$ в формуле нужно только для того, чтобы упростить вычисления производной
-$$ THETA $$,
-никакого другого смысла в дроби нет.
-
-Т.к. функция потерь - квадратичная, 
-её минимум будет расположен там, где производная
-$$J( THETA )$$
-равна нулю, сама производная выглядит следующим образом.
+В формуле выше
+$$ alpha $$ - коэффициент, который называют скоростью обучения.
+При слишком низких его значениях поиск оптимальных коэффициентов будет занимать слишком много времени.
+Однако если коэффициент слишком высокий алгоритм не будет сходиться (опишу потом что это значит).
 
-%EQ
-{partial {J( THETA )}} over
-{ partial THETA }
-=
-1 over m sum {(h sub theta (x sup i) - y sup (i) ) x sup (i)}
-%EN
+Алгоритм метода градиентного спуска:
+	1 Случайно инициализируем коэффициенты $$ THETA $$;
+	1 Считаем значение производной функции потерь по формуле '''[2]''';
+	1 Вычисляем новые коэффициенты $$ THETA $$ по формуле '''[3]''';
+	1 Переходим на шаг №2.
+
+- Пример
+
+НапишиМиня!
+
+
+- Список дополнительной литературы:
+
+	* http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D1%80%D0%B0%D0%B4%D0%B8%D0%B5%D0%BD%D1%82%D0%BD%D0%BE%D0%B3%D0%BE_%D1%81%D0%BF%D1%83%D1%81%D0%BA%D0%B0
+	* something else
+
+# КатегорияПрикладнаяМатематика | КатегорияМетодыОптимизации
Поиск Wiki

Пользовательские действия