МетодГрадиентногоСпуска

Разница между 1.15 и текущей версией МетодГрадиентногоСпуска.
@@ -5,69 +5,55 @@
 		* Примеры и причины плохой сходимости методы (структура функции потерь, плохой в смысле сходимости выбор шага).
 		* Вообще сама идея сходимости метода. Туда же неравенство Канторовича (за корректность не ручаюсь).
 		* Можно ещё указать, что метод используется (будучу немного модифицированным) в обратном распространении ошибки.
-		* Удалил свой комментарий из тела, т. к. написал, не подумав. --АтрашкевичАндрей
-----
+		* Это можно будет указать в будущей статье про НейронныеСети :)
+			*  «...И жить торопиться, и чувствовать спешит...», П.А.Вяземский, кажется -- АтрашкевичАндрей
+		* Боря, в алгоритме я не увидел выхода: когда завершается алгоритм? Я тупой, наверное. -- АтрашкевичАндрей
+			* Действительно пока нету)
+	* Мне одному режет глаз эти прыжки вниз формулы $$ Y sup i $$?
+	* Может стоит сделать реквест на возможность авторизованным пользователям аплоадить картинки?
+	* «Функция потерь $$ J( THETA ) $$, считающая средний квадрат ошибки для всей выборки, выглядит следующим образом» : средний половинный, если быть точным, но это уже так, придурь из учебников по прикладной матстатистике. Понятно, что это делается для удобства, чтобы в производной меньше возьни было и что это монотонная операция, она экстремальное поведение функции не меняет, но всё же. -- АтрашкевичАндрей
 
-- Метод градиентного спуска (Gradient descent method)
+----
 
+= Метод градиентного спуска (Gradient descent method)
 
+Для заданного набора пар (Входное значение; Результат) или же
+$$ ( X sup i; Y sup i ) $$
 МетодГрадиентногоСпуска
-используется для подбора оптимальных коэффициентов произвольной функции
-$$ h(x) $$
-при наборе известных пар 
-$$ (x, y) $$ (Входной параметр, результат).
-
-Например, в результате эксперимента мы получили следующие значения:
-
- i	X	Y
-
- 1	1	6
- 2	4	12
- 3	5	14
- 4	10	24
-
-Мы можем предположить что зависимость $$X$$ от $$Y$$ имеет линейный характер
-и хотим узнать коэффициенты $$THETA sub 1, THETA sub 2 $$ для функции  $$ h(x) $$,
+получает коэффициенты функции '''h(x)''',
+которая для всех входных параметров $$ X sup i $$ получает значение,
+максимально близкое к $$ Y sup i $$.
+
+'''NOTE:''' Здесь и далее буква '''i''' в выражениях 
+$$ X sup i $$,
+$$ Y sup i $$ обозначает не степень,
+а номер пары в выборке.
+
+ТУТ_НУЖНА_ВСЁ_НАГЛЯДНО_ОПИСЫВАЮЩАЯ_КАРТИНКА
+https://psv4.vk.me/c612717/u16487792/docs/1f6840a05bc4/Screenshot_-_04052015_-_04_11_51_AM.png
+
+Ошибкой для каждой пары
+$$ ( X sup i; Y sup i ) $$
+будем считать разницу между фактическим значением
+$$ Y sup i$$
+и тем значением,
+которое удалось получить с помощью '''h(x)'''.
 
-%EQ
-h(x) = THETA sub 1  + THETA sub 2 X
-%EN
 
-которая для каждого $$i$$ -того эксперимента в соответствие
-$$x sup (i)$$
-получит значение $$ h(x) $$ максимально близкое к
-$$y sup (i)$$ (В данном случае и дальше в этой статье символ (i) будет обозначать не степень, а номер пары $$ (x, y) $$ в выборке).
-
-Метод используется для решения тех же задач что и МетодНаименьшихКвадратов.
-
-Для измерения того, на сколько значения, полученные с помощью  нашей функции,
-далеки от значений, полученных в результате измерения, 
-используют квадрат расстояния:
-
-%EQ
-{( h sub theta (x sup (i) ) - y sup (i) )} sup 2
-%EN
-
-Функцию, измеряющую среднюю ошибку на всех измерениях будем называть функцией потерь.
-Её значения зависят от параметров
-$$ THETA $$,
-поэтому будем обозначать её как
-$$J( THETA )$$. Она считается по формуле
+Функция потерь $$ J( THETA ) $$,
+считающая средний квадрат ошибки для всей выборки, выглядит следующим образом 
 
 %EQ
 J( THETA )
 =
 1 over {2m} sum {(h sub theta (x sup (i) ) - y sup (i) ) sup 2}
 %EN
+'''[1]'''
 
-'''NOTE:''' $$ 1 over 2 $$ в формуле нужно только для того, чтобы упростить вычисления производной
-$$ THETA $$,
-никакого другого смысла в дроби нет.
-
-Т.к. функция потерь - квадратичная, 
-её минимум будет расположен там, где производная
-$$J( THETA )$$
-равна нулю, сама производная выглядит следующим образом.
+	$$THETA$$ : искомые коэффициенты функции '''h(x)''';
+	'''m''' : количество пар в выборке.
+
+Найти минимум функции потерь (минимизировать потери) можно используя производную.
 
 %EQ
 {partial {J( THETA )}} over
@@ -75,6 +61,42 @@
 =
 1 over m sum {(h sub theta (x sup (i) ) - y sup (i) ) x sup (i)}
 %EN
+'''[2]'''
+
+Так как функция потерь - квадратичная, она достигает минимума там, где её производная равна нулю.
+
+Часто аналитическое решение уравнения '''[2]'''
+это слишком дорогая операция и
+легче с помощью формулы '''[3]''' пошагово получать значения
+$$ THETA $$
+наиболее близкие к оптимальным.
+
+%EQ
+THETA
+=
+THETA - alpha partial over { partial THETA} J( THETA )
+%EN
+'''[3]'''
+
+В формуле выше
+$$ alpha $$ - коэффициент, который называют скоростью обучения.
+При слишком низких его значениях поиск оптимальных коэффициентов будет занимать слишком много времени.
+Однако если коэффициент слишком высокий алгоритм не будет сходиться (опишу потом что это значит).
+
+Алгоритм метода градиентного спуска:
+	1 Случайно инициализируем коэффициенты $$ THETA $$;
+	1 Считаем значение производной функции потерь по формуле '''[2]''';
+	1 Вычисляем новые коэффициенты $$ THETA $$ по формуле '''[3]''';
+	1 Переходим на шаг №2.
+
+- Пример
+
+НапишиМиня!
+
+
+- Список дополнительной литературы:
 
+	* http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D1%80%D0%B0%D0%B4%D0%B8%D0%B5%D0%BD%D1%82%D0%BD%D0%BE%D0%B3%D0%BE_%D1%81%D0%BF%D1%83%D1%81%D0%BA%D0%B0
+	* something else
 
 # КатегорияПрикладнаяМатематика | КатегорияМетодыОптимизации
Поиск Wiki

Пользовательские действия