Встроенные методы отбора признаков на основе байесовского подхода

2019-11-13

180

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 123 Следующая ⇒

Наиболее часто используемым встроенным методом отбора признаков является регуляризация. Основная идея заключается во включении в целевую функцию слагаемого (регуляризатора), который «штрафует» коэффициенты модели, устремляя их к нулю.

При регуляризации вектор параметров w рассматривается как вектор случайных чисел с априорным распределением 𝑝(𝒘).

Апостериорная плотность распределения параметров ищется по формуле Байеса:

Так как не зависит от w, следовательно:

∞

Используя принцип максимизации апостериорной плотности, получаем точечную оценку значений вектора параметров:

= = (4)

= (5)

В формуле (5) второе слагаемое является вышеупомянутым регуляризатором или, так называемой, штрафной функцией. Обычно штрафная функция включается в модель с коэффициентом, с помощью которого можно контролировать количество отбираемых в модель признаков.

Перечислим самые распространенные методы регуляризации:

· Гребневая регрессия (ridge). В данном методе в качестве априорного распределения выбирается нормальное распределение. Штрафная функция будет выглядеть следующим образом:

(6)

Метод сжимает коэффициенты. Количество признаков не меняется, но понижается эффективная размерность задачи.

· Метод Lasso. В данном методе в качестве априорного распределения выбирается закон Лапласа. Штрафная функция примет следующий вид:

(7)

Данный метод производит отбор признаков, но при этом если признаки сильно коррелированны, то отберется только один из них, что является недостатком.

· Метод Elastic Net. Данный метод комбинирует два предыдущих:

+ (8)

Основной целью его создания было желание преодолеть неспособность метода Lasso отбирать коррелируемые признаки в модель.

Разработка модели

При решении задачи бинарной классификации условное распределение зависимой переменной представляет собой распределение Бернулли:

= (9)

где = – логистическая функция (сигмоида),

а = – линейная гиперплоскость.

Тогда вероятности того, что заемщик принадлежит к классам «плохих» и «хороших» равны соответственно:

(10)

(11)

Можно записать это одним выражением:

= (12)

Мы предполагали, что наблюдения в обучающей выборке независимы, поэтому функция правдоподобия будет выглядеть следующим образом:

) = p( = (13)

Используя принцип максимума правдоподобия, получаем оценку вектора параметров:

} (14)

Прологарифмируем функцию правдоподобия (14) и будем решать задачу минимизации:

= arg min (15)

В соответствии с (15) оценивают коэффициенты в классической нерегуляризованной логистической регрессии. Предположим, что априорной плотностью распределения параметра является нормальное распределение с нулевым матожиданием и дисперсией r. В модели дисперсия будет являться случайной величиной.

Тогда совместное распределение вектора параметров будет иметь вид:

(16)

Параметры с малым значением могут быть удалены из модели, а остальные параметры будут называться релевантными. Здесь – является гиперпараметром модели.

Попробуем величины, обратные дисперсиям, использовать в качестве штрафных функций. Тогда предполагаем, что априорная плотность распределения величин обратных дисперсиям является гамма-распределением:

(17)

Из (17) видно, что обратная дисперсия зависит от двух параметров гаммараспределения 𝛼,𝛽. Для облегчения процесса подбора параметров предположим, что они являются функциями от одного и того же параметра 𝜇.

Для случайной величины, имеющей гамма-распределение, известно:

● E = – математическое ожидание

● = – дисперсия

Рассмотрим отношение = :

● Если → 0, то значит все распределения дисперсий

сконцентрированы возле математического ожидания. Тогда можно сказать, что оцененные дисперсии практически фиксированы и равны единице при 𝛼 ≅ 𝛽.

● Если → 1, то априорные распределения становятся практически равномерными.

При → 0: ln → −∞ и критерию выгодно уменьшать все дисперсии. Но в этом случае невозможно выполнить ограничения, предписывающие достаточно хорошо приближать обучающую совокупность. Из-за этого противоречия критерий проявляет ярко выраженную склонность к чрезмерной селективности отбора признаков, подавляя большинство из них, в том числе и релевантные.

Получается, что необходимо выполнение следующих требований:

(18)