Оптимизация структуры сети
Основной задачей проектирования нейронной сети является определение числа скрытых слоев и числа нейронов в скрытых слоях, так как число нейронов во входном и выходном слоях определяется известным числом входов и выходов сети. Теоретические оценки показывают только качественные зависимости. Из теории Колмогорова‑Арнольда‑Хехт‑Нильсена (см. раздел 1.2) следует [32], что для аппроксимации непрерывной функции достаточно одного скрытого слоя с Существует ряд эвристических правил определения числа нейронов скрытых слоев сети. Одним из таких правил является правило геометрической пирамиды [41]. Оно утверждает, что для многих практических сетей количество нейронов имеет форму пирамиды, при этом число нейронов уменьшается от входа к выходу в геометрической прогрессии. По этому правилу число нейронов единственного скрытого слоя в трехслойной сети вычисляется по формуле
где Для приблизительной оценки числа нейронов в скрытом слое трехслойной сети можно воспользоваться формулой для оценки минимального числа синаптических весов
где Приведенные оценки приближенный характер и требуют экспериментальной проверки. Подбор оптимальной архитектуры сети производится экспериментально. При этом возможны два подхода [32–33]: 1. Наращивание сети (Network Growing) — постепенное наращивание сети (конструктивные методы). 2. Упрощение структуры сети (Network Pruning) — прореживание сети (редукция, контрастирование, деструктивные методы). Для оптимизации структуры нейронных сетей применяются также генетические алгоритмы [43]. Особенности применения генетических алгоритмов для конструирования нейронных сетей можно найти в [44–47]. Наращивание сети (конструктивные методы) заключается в первоначальном включении небольшого количества скрытых нейронов. По мере обучения сети число нейронов увеличивается. Конструктивные методы более трудоемки, чем редукция и редко применяются. Рассмотрим упрощение структуры сети. Существует два подхода к решению данной проблемы: уменьшение количества весов сети (Weight Pruning) и уменьшения количества нейронов (Unit Pruning) [48]. Второй подход применяется довольно редко. Рассмотрим подходы к удалению весов. Простейшим способом редукции является удаление весов, значения которых существенно меньше средних значений. Удаление производится после обучения сети. После удаления производится повторное обучение. Если погрешность сети не возрастает, то удаление весов обоснованно. Неплохой результат дают методы, основанные на регуляризации сложности сети [33]. Эти методы имеют много общего с теорией регуляризации А. Н. Тихонова [49]. В процедуре снижения весов (Weight Decay) в функционал ошибки работы сети вводится штрафное слагаемое
где При использовании градиентных методов обучения сети (см. главу 4) коррекция веса производится по формуле
то есть введение штрафного слагаемого дополнительно уменьшает вес на величину В удалении (регуляризации) весов по Вигенду (Weigend A.) [33] функционал ошибки работы сети имеет вид
где Функционал сильнее уменьшает малые веса, чем большие. Однако в некоторых случаях малые значения весов могут оказывать существенное влияние на поведение нейрона. Более точный способ состоит в учете чувствительности функционала ошибки к изменениям весов и удалении тех весов, к которым функционал ошибки наименее чувствителен. Обозначим вектор-столбец всех весов сети
где
— Гессиан (Hessian), или матрица Гессе. Выражение — это локальная аппроксимация функционала ошибки в окрестности
Удаление веса Однако вычисление Гессиана весьма трудоемко. В методе OBD (Optimal Brain Damage — "оптимальное повреждение мозга"), предложенном ЛеКуном (Y. LeCun) и соавторами [32–33], учитываются только диагональные элементы Гессиана (Гессиан является положительно определенной матрицей и с диагональным преобладанием). В качестве меры значимости (Saliency) веса
который рассчитывается для каждого веса после обучения сети. Вычисление второй производной в довольно сложный процесс, основанный на алгоритме обратного распространения ошибки (см. раздел 4). Удаляются те веса, которым соответствуют наименьшие значения Развитием метода ODB является метод OBS (Optimal Brain Surgeon — "оптимальная хирургия мозга"), предложенный Б. Хассиби (Hassibi B.) и соавторами [32–33]. В этом методе учитываются все элементы Гессиана. В методе также как и в ODB используется изменение функционала ошибки сети до и после удаления весов , но обнуляется только один из весов. Пусть удаляется вес
где Тогда задача исключения веса формулируется как задача условной минимизации: необходимо минимизировать изменение функционала ошибки, то есть квадратичную форму
где Для определения экстремума возьмем производную от по
Применяя , получаем
Приравнивая производную нулю, учитывая, что
Транспонируя левую и правую части последнего равенства с учетом симметрии матрицы
Для определения множителя Лагранжа
где Окончательно оптимальный вектор коррекции весов имеет вид
Обратите внимание, что согласно корректируются все веса. Так как мы учли равенство , после коррекции Вычислим изменение функционала ошибки после удаления веса
Подставляя в и учитывая симметрию матрицы
Выражение является мерой значимости при выборе удаляемого веса: необходимо удалять вес Метод OBS реализуется по следующему алгоритму. 1. Обучение нейронной сети до допустимого значения 2. Вычисление матрицы 3. Вычисление меры значимости для всех весов. Выбор веса, для которого мера значимости минимальна. Если для выбранного веса изменение целевой функции намного меньше 4. Коррекция значений весов по формуле . Переход на пункт 2. Таким образом, метод OBS отличается от OBD не только определением меры значимости. В методе OBS веса удаляются по одному с последующей коррекцией всех весов без повторного обучения сети. Но вычисление обратной матрицы
Популярное: Почему человек чувствует себя несчастным?: Для начала определим, что такое несчастье. Несчастьем мы будем считать психологическое состояние... Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас... ![]() ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (1262)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |