Стохастический градиентный спуск

2018-07-06

1059

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 5 6 7 8 91011 12 13 14 Следующая ⇒

Стохастический градиентный спуск [47] (часто обозначается SGD – от англ. «stochastic gradient descent») обновляет каждый весовой коэффициент нейронной сети посредством вычитания градиента оптимизируемой функции по этому параметру из его текущего значения и масштабирования его на шаг обучения (или скорость обучения, learning rate) η:

(13)

где f_i – функция, подсчитанная на i-м батче, i выбирается случайным образом;

Шаг обучения является гиперпараметром; при слишком больших значениях алгоритм обучения будет расходиться, при слишком маленьких – будет сходиться медленно.

Стохастический градиентный спуск с инерцией

В методе стохастического градиентного спуска нередка ситуация, когда градиент на каждой итерации изменяется в большой степени. Это происходит из-за того, что функционал вычисляется на различных данных, которые могут в значительной степени отличаться. Такое изменение можно сгладить, если использовать градиенты, вычисленные на предыдущих итерациях и масштабированные на гиперпараметр инерции μ:

	(14)
	(15)

Как несложно догадаться, гиперпараметр инерции μ имеет такое название из-за того, что, подобно так называемой ньютоновой силе инерции, т.е. силе противодействия, «сопротивляется» изменениям градиента и смягчает изменения весовых коэффициентов на протяжении обучения. Такой алгоритм обучения называется стохастическим градиентным спуском с инерцией [48] или SGDМ (stochastic gradient descent with momentum).

Метод адаптивного градиента

Метод адаптивного градиента [49] (Adagrad – от англ. «adaptive gradient algorithm») основан на идее масштабирования. Он перемасштабирует скорость обучения для каждого настраиваемого параметра в отдельности, при этом учитывая историю всех прошлых градиентов для этого параметра. Для этого каждый элемент градиента делится на квадратный корень от суммы квадратов предыдущих соответствующих элементов градиента. Такой подход эффективно уменьшает скорость обучения для тех весовых коэффициентов, которые имеют большое значение градиента, а также со временем снижает скорость обучения для всех параметров, так как сумма квадратов неуклонно увеличивается для всех параметров при каждой итерации. При задании нулевого начального масштабирующего параметра g = 0 формула для пересчета весовых коэффициентов имеет вид (деление выполняется поэлементно):

	(16)
	(17)

где – константа, добавляемая для численной стабильности.

2018-07-06

1059

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 5 6 7 8 91011 12 13 14 Следующая ⇒

Обсуждение в статье: Стохастический градиентный спуск

Обсуждений еще не было, будьте первым... ↓↓↓