Обработка аномалий, противоречий и дубликатов
Дубликаты — это данные с одинаковыми, а точнее, с близкими значениями. Противоречивые данные содержат одинаковые исходные (входные) данные, но различные значения выходных данных. Аномальные значения (выбросы) — данные, сильно отличающиеся от окружающих данных или несовместимые с ними. Дубликаты кроме увеличения объема выборки могут привести к ухудшению обучения сети, так как снижают энтропию входных данных. Противоречия нарушают общие закономерности в данных и затрудняют обучение сети. Дубликаты — одинаковые данные. Они могут дублировать информацию об одном и том же событии, а могут содержать идентичную информацию о двух различных, но похожих событиях. В первом случае дубликаты должны быть удалены, а во втором требуется более тонкая обработка. Особенно сложным является вопрос выявления аномалий (выбросов). Резко отличающиеся значения могут нести полезную информацию. Некоторые методы анализа данных основаны на обнаружении аномальных значений. Например, аномально большая сумма, снимаемая со счета, может рассматриваться как признак мошенничества с кредитной картой. Для обнаружения выбросов, дубликатов и противоречий данных удобно использовать представление данных в многомерном пространстве признаков. Рассмотрим такое представление на примере обучающей выборки для задачи классификации. Обучающая выборка представляет собой множество примеров
где Гипотеза компактности — в задачах классификации предположение о том, что схожие объекты гораздо чаще лежат в одном классе, чем в разных классах. Пример В теории распознавания образов разработаны методы цензурирования выборки [8-10] — исключения выбросов, близких примеров и противоречий. Методы цензурирования можно применять и при обучении нейронных сетей. Например, в алгоритме СТОЛП (STOLP) [8] объект считается выбросом, если степень риска Аномальные значения в обучающей выборке могут быть заменены на некоторые значения, полученные теми же методами, что и при восстановлении пропущенных данных (фактически считаем, что аномальные значения пропущены). Ещё раз напомним, что удаление или замена аномальных значений могут исказить результаты анализа.
Популярное: Личность ребенка как объект и субъект в образовательной технологии: В настоящее время в России идет становление новой системы образования, ориентированного на вхождение... Как распознать напряжение: Говоря о мышечном напряжении, мы в первую очередь имеем в виду мускулы, прикрепленные к костям ... Модели организации как закрытой, открытой, частично открытой системы: Закрытая система имеет жесткие фиксированные границы, ее действия относительно независимы... Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной... ![]() ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (988)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |