Разница между 1.57
и текущей версией
АлгоритмKСредних.
@@ -1,19 +1,14 @@
-- Алгоритм k-средних
+= Алгоритм k-средних
----
- 1 Картинка: http://rextester.com/OBB28239
+ 1 Картинка: http://rextester.com/CMTMO13832 (старый вариант)
+ 1 Картинка: http://rextester.com/ZNO68353 (новый вариант)
----
-Простейший алгоритм кластеризации ‒
-деления данных на относительно однородные группы, т. н. кластеры.
-
-Алгоритм k-средних делит имеющиеся данные на заданное число групп (кластеров) $$k$$.
-
-Алгоритм стремится минимизировать сумму
-квадратов расстояний от точек кластеров до центров кластеров.
-
-Алгоритм гарантирует только локальный,
-но не глобальный оптимум.
+Простейший алгоритм кластеризации ‒
+деления данных на относительно однородные группы, т. н. кластеры.
+Алгоритм $$k$$-средних делит имеющиеся данные на заданное число групп (кластеров) $$k$$.
+Алгоритм стремится минимизировать сумму квадратов расстояний от точек кластеров до центров кластеров. Алгоритм гарантирует только локальный, но не глобальный оптимум.
Алгоритм является частным случаем АлгоритмEM.
@@ -55,7 +50,7 @@
Все модификации алгоритма можно свести к следующим улучшениям:
- 1 Поиск начального оптимального выбора центров масс. Допустим, мы хотим выбрать начальные центры масс таким образом, чтобы сумма расстояний между точками была наибольшей. Если у нас $$n = 2000$$ наблюдений и мы хотим разбить данные на $$k = 3$$ кластера, то число возможных вариантов разбиения будет равно $$C sub n sup k$$ (числу сочетаний из $$n$$ по $$k$$): $$ C sub n sup k = n! over {k!(n - k)!} = 2000! over {3!(2000-3)!} = 2000! over {3!1997!} approx 1,3 cdot 10 sup 9$$ вариантов. Поэтому для выбора оптимальноых начальноых центров масс используют иные методы, например МетодГрадиентногоСпуска и его вероятностные (стохастические) модификации.
+ 1 Поиск начального оптимального выбора центров масс. Допустим, мы хотим выбрать начальные центры масс таким образом, чтобы сумма расстояний между точками была наибольшей. Если у нас $$n = 2000$$ наблюдений и мы хотим разбить данные на $$k = 3$$ кластера, то число возможных вариантов разбиения будет равно $$C sub n sup k$$ (числу сочетаний из $$n$$ по $$k$$): $$ C sub n sup k = size -2 { n! } over size -2 {k!(n - k)!} = size -2 { 2000! } over size -2 {3!(2000-3)!} = size -2 2000! over size -2 {3!1997!} approx 1","3 cdot 10 sup 9$$ вариантов. Поэтому для выбора оптимальных начальных центров масс используют иные методы, например, МетодГрадиентногоСпуска и его вероятностные (стохастические) модификации.
1 Изменение алгоритма, по которому считаются расстояния (с обычного евклидового расстояния до, например, суммы средних по разнице координат, т. н. «расстояние городских кварталов»).
1 Различные процедуры поиска оптимального числа кластеров (обычно такие процедуры опираются на вероятностные методы).