Использование метода главных компонент
Популярным и мощным средством понижения размерности входных данных является метод (анализ) главных компонент (МГК), или по-английски PCA — Principal-Component Analysis. В теории сигналов такое преобразование векторов известно как преобразование Карунена‑Лоэва (Karhunen‑Loève Transformation). Это метод использует проектирование данных с высокой размерностью в пространство с меньшей размерностью [21, 24]. Метод главных компонент использует линейное преобразование, аналогичное преобразованию , использовавшемуся для ортогонализации входных векторов. Но в отличие от преобразования , в котором матрица
В МГК отбрасываются компоненты, имеющие малое значение . Таким образом, МГК преобразует входные векторы в ортогональные и оставляет только наиболее изменчивые векторы. Метод главных компонент производит сжатие данных. Но как уже указывалось, преобразованные векторы не несут физического смысла. Реконструкция исходного вектора с учетом ортогональности матрицы
где вектор Рассмотренный метод главных компонент показывает, что в случае коррелированных входных векторов пропуски компонентов векторов можно восстановить с помощью МГК (см. раздел 3.2.3). Рассмотрим пример применения МГК, заимствованный из [32]. Вектор измерений
В системе MATLAB получены собственные значения
Матрица преобразования имеет вид
Вклады главных компонентов, вычисленные по , составляют Вычисление главных компонент представляет существенную вычислительную сложность. Известны нейронные сети (сети PCA) [32, 33], вычисляющие главные компоненты.
Ресэмплинг и сэмплинг
Для обучения нейронной сети и проверки качества обучения часто требуется несколько выборок данных. Например, при прогнозировании стоило бы повторить процесс обучения несколько раз, каждый раз используя новые обучающие и тестовые наблюдения из генеральной совокупности. После этого можно усреднить общий результат для всех выборок и получить более реальные показатели. Но получить несколько выборок трудно, а иногда и невозможно. Например, для диагностики заболевания отбираются данных в определенном месте и в определенное время. Построить другие выборки невозможно, потому что это будут уже данные из другого места или же взятые в другое время. Поэтому возникает проблема: как, имея лишь одну единственную выборку, искусственно сформировать несколько "псевдовыборок", необходимых для обучения сети. Для формирования "псевдовыборок" используют методы ресэмплинга (resampling — повторная выборка) [34, 35] (в русской литературе используются разные термины: "ресамплинг", "ресэмплинг", "ресемплинг", "методы генерации повторных выборок"). Ресэмплинг объединяет несколько близких по сути подходов: рандомизация, или перестановочный тест (permutation), метод "складного ножа" (jackknife), бутстреп (bootstrap). Перестановочный тест применяется, когда необходимо сравнить работу нейронной сети на двух выборках: обучающей и тестовой. Сеть обучается на обучающей выборке, а обобщающие возможности сети проверяются на тестовой выборке (подробнее этот подход будет рассмотрен в разделе, посвященном обучению сетей). При недостатке примеров можно использовать перестановочный тест: выборку разделяют на обучающую и тестовую. Сеть многократно обучается на обучающей выборке и тестируется на тесовой выборке. При каждом обучении происходит случайный обмен примерами между обучающей и тестовой выборками. Показатели качества работы сети усредняются по всем результатам обучениям. Часто применяется перекрестная проверка (Cross-validation) без случайного обмена данными [33]. При оценке модели имеющиеся в наличии данные разбиваются на Метод "складного ножа" [36, 37] состоит в том, чтобы из одной выборки сделать много, исключая по одному примеру и возвращая ранее исключенные. Бутстреп [35, 36] был предложен Б. Эфроном (B. Efron) как обобщение метода "складного ножа", чтобы не уменьшать число элементов по сравнению с исходной совокупностью. По одной из версий [35] слово "bootstrap" означает кожаную полоску в виде петли, прикрепляемую к заднику ботинка для облегчения его натягивания на ногу. Благодаря этому термину появилась английская поговорка: "Lift oneself by the bootstrap", которую можно перевести как "Пробить себе дорогу благодаря собственным усилиям". В бутстреп берется исходная выборка из Известен параметрический бутстреп [35], который позволяет генерировать значения новых выборок на основе эмпирического распределения величин исходной выборки. Параметрический бутстреп, как уже указывалось, может быть применен для заполнения пропусков обучающей выборке. Мы рассматривали ситуации, когда не хватает данных для обучения и тестирования сети. Но в аналитике [6] возможны ситуации, когда в хранилище данных накапливаются такие объемы информации, что их использование для анализа затруднено. В этой ситуации решается задача сэмплинга. Сэмплинг (sampling — выборка) — это процесс отбора из исходной совокупности данных выборки, представляющей интерес для анализа. При реализации сэмплинга используются специальные методы отбора, которые должны обеспечить репрезентативность выборки с точки зрения решаемой аналитической задачи. Различают равномерный случайный, стратификационный и другие виды сэмплинга [6]. При равномерном случайном сэмплинге (Uniform Random Sampling) все элементы исходной выборки разделяются на группы, в каждой из которых содержится одинаковое количество элементов. Из каждой группы случайным образом выбирается один элемент и помещается в результирующую выборку. Количество групп, на которые следует разбить исходную совокупность, зависит от размера исходной выборки и размера результирующей выборки. Размер результирующей выборки зависит от особенностей решаемой задачи. Возможен вариант случайного выбора элементов из всей исходной выборки без разбиения на группы. Равномерный случайный сэмплинг отличается простотой, но при неоднородной исходной совокупности результирующая выборка может оказаться не репрезентативной. Например, могут быть нарушены вероятности появления разных элементов. В стратифицированном сэмплинге исходная выборка разбивается на несколько непересекающихся страт (слоев — от англ. Strata — слой). В качестве признака деления на страты используются значения одного или нескольких полей элементов выборки. Из каждой страты элементы извлекаются случайным образом. Размер выборки, извлекаемой из каждой страты, может выбираться двумя способами: – пропорционально доли элементов страты в исходной выборке (из большей страты выборка больше); – размер выборки пропорционален стандартному отклонению распределения некоторой переменной (наибольшие выборки берутся в стратах с большей вариабельностью). Кластерный сэмплинг отличается тем, что предварительно по степени близости элементов (по некоторому расстоянию между элементами) строятся кластеры элементов, а затем так же, как и в стратифицированном сэмплинге, производится случайный выбор из кластеров. Рассмотрим теперь, как случайным образом выбираются элементы из выборки и генерируются значения величин по эмпирическим законам распределения. Выбор с равной вероятностью одного из Вероятность этого события равна
где Таким образом, для моделирования случайного события, происходящего с вероятностью Рассмотрим моделирование полной группы несовместных событий
где Выбор с равной вероятностью одного из элементов выборки представляет собой моделирование полной группы Дискретную случайную величину Для построения эмпирического закона распределения непрерывной случайной величины диапазон изменения величины разбивается на ряд интервалов, и подсчитывается относительная частота попадания реализаций случайной величины в каждый из интервалов. Зависимость частот от интервалов определяет эмпирическое распределение вероятностей случайной величины, графическое представление которой называется гистограммой. Для генерирования случайных величин, распределенных по эмпирическому закону можно не идентифицировать закон распределения. Генерирование сведется к генерированию дискретной случайной величины.
Популярное: Как распознать напряжение: Говоря о мышечном напряжении, мы в первую очередь имеем в виду мускулы, прикрепленные к костям ... Личность ребенка как объект и субъект в образовательной технологии: В настоящее время в России идет становление новой системы образования, ориентированного на вхождение... ![]() ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (1179)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |