Мегаобучалка Главная | О нас | Обратная связь


Методы, основанные на нейронных сетях



2018-07-06 553 Обсуждений (0)
Методы, основанные на нейронных сетях 0.00 из 5.00 0 оценок




Несколько лет назад, благодаря появлению на рынке относительно недорогих и высокопроизводительных вычислителей (графических процессоров, GPU) и успешным разработкам эффективных нейросетевых архитектур и подходов к обучению, применение нейронных сетей для распознавания изображений (классификации, обнаружения, сегментации) не только стало возможным и во многих случаях - целесообразным и эффективным, но и открыло новые перспективы в области компьютерного зрения и обработки информации. Для распознавания изображений применяются сверточные нейронные сети, входной слой которых принимает не вектор значений, а матрицу (которой и является изображение в цифровом формате, с одним каналом в случае черно-белого изображения и с тремя - в случае цветного). Такие сети выполняют над изображением ряд свёрток с фильтрами (которые также являются матрицами, обычно 1×1, 3×3, 5×5 и 7×7, с произвольным количеством каналов), веса которых настраиваются в процессе обучения. После свёрточных слоёв могут идти несколько полносвязных слоёв для представления результата в виде вероятностей принадлежности к классам. В случае архитектур для обнаружения все слои зачастую являются свёрточными, ведь результат работы таких сетей - выделение областей, в которых находятся объекты. Все современные архитектуры являются глубокими, т.е. содержат большое количество слоёв: для классификации более 10, для обнаружения - десятки.

Одна из основных особенностей и преимуществ нейронных сетей - универсальность. Одну и ту же архитектуру можно использовать для обнаружения различных классов объектов посредством обучения на соответствующих выборках данных. Недостатком является то, что из-за сложности нейронной сети, из-за большого числа настраиваемых параметров, сложно проанализировать её работу и процесс её обучения, из-за чего обучение не всегда даёт ожидаемый результат. Однако в настоящее время активно разрабатываются новые подходы к обучению глубоких сетей (глубинному, глубокому обучению), их анализу и визуализации.

Существующие работы

Среди исследований, связанных с обнаружением объектов, можно выделить по типу объектов три наиболее распространённые (и значимые) группы, являющиеся объектами дорожной обстановки. Это исследования, темой которых является:

- обнаружение людей, пешеходов;

- обнаружение транспортных средств;

- обнаружение дорожных знаков, светофоров.

Далее будут рассмотрены исследования по каждой из этих групп.

Обнаружение людей

Поскольку рассматриваются системы технического зрения, которые устанавливаются на ТС, т.е. предполагается, что фон на отснятом камерами видеоряде меняется, а также учитывая, что пешеходы являются сравнительно небольшими объектами, использование методов вычитания фона или разности кадров нецелесообразно для обнаружения пешеходов. Такие методы могут использоваться лишь для обнаружения людей при съемке из неподвижной точки, например, при съемке дороги или перекрестка камерой видеонаблюдения, закрепленной на фасаде здания, столбе, светофоре.

В работе [3] предлагается система, представляющая собой трехэтапный алгоритм, который работает в одном потоке изображений, полученных с инфракрасной камеры дальнего диапазона. На первом этапе алгоритм извлекает на основании симметрии и вертикальных ребер всех возможных кандидатов, которые могут быть классифицированы как пешеходы. Затем алгоритм отфильтровывает те варианты, которые не могут являться пешеходами из-за соотношения сторон и особенностей формы. Наконец, оставшийся набор кандидатов сопоставляется с набором моделей. Именно данный этап работы алгоритма исследуется в работе - изучаются способы создания базы моделей и их сопоставления.

На рисунке 7 показан пример модели пешехода. Модель учитывает, что используется инфракрасная камера, а голова и руки человека, как правило, не покрыты одеждой, т.е. являются более теплыми областями - на модели эти области являются белыми, а области, обычно покрытые одеждой - серыми. Однако этот подход не показал значительного улучшения эффективности и был отброшен.

Лучшую эффективность показало использование большого набора моделей различных форм без учета термических разностей; модели в таком наборе отличаются лишь позой и точкой обзора. В итоге был сгенерирован набор из 72 моделей (9 поз и 8 точек обзора). Такой набор моделей позволял выполнять обнаружение более точно, однако не позволял обнаруживать бегущих людей, велосипедистов, и ложно срабатывал на высоких узких объектах - деревьях, столбах. Рисунок 8, слева иллюстрирует попытку исследователей учесть в модели особенности показаний камеры - черный ореол вокруг пешехода и зашумленный фон. Однако этот подход также не улучшил точность работы алгоритма.

 

Рисунок 7 – Трехмерные модели людей с учетом одежды

 

Был опробован набор моделей, учитывающих реальное телосложение людей и принимающих более реальные позы (рисунок 8, справа). Это улучшило результат, но незначительно.

Исследователи проверили работу алгоритма с использованием реальных моделей (рисунок 9, слева). Результаты были многообещающими, и их возможно улучшить, создав набор с большим количеством моделей, однако важно соблюсти баланс, поскольку увеличение числа моделей приводит к снижению скорости работы.

Рисунок 8 – Модели с учетом особенностей съемки инфракрасной камерой (слева) и приближенные по форме к реальным людям (справа)

 

На рисунке 9, справа показан подход разбиения модели на три части. Дело в том, что голову и ноги легче обнаружить из-за их небольшой площади в ограничивающем прямоугольнике и довольно определенной формы, в то время как размеры и форма туловища у разных людей на изображении имеет большой разброс. Установка различных весов на различные части тела позволило улучшить точность обнаружения на 5 %, что является хорошим результатом.

Скорость и точность работы алгоритма в работе не была указана.

 

Рисунок 9 – Реальные модели пешеходов (слева) и установка различных весовых коэффициентов на разные части тела (справа)

 

В работе [4] описывается система обнаружения пешеходов в стерео-инфракрасных изображениях. Система основана на трех различных подходах: обнаружение тепла, обнаружение на основе краев и вычисление карты смещений. Стереосъемка также используется для вычисления расстояния и размера обнаруженных объектов. Окончательный процесс валидации выполняется с использованием морфологических и тепловых характеристик головы. В этой обработке не используются ни временная корреляция, ни информация о движении. Разработанная система была реализована на экспериментальном автомобиле, оснащенном двумя инфракрасными камерами и предварительно испытанном в разных ситуациях.

Точность работы системы показана на рисунке 10, кривой (а). Кривая (b) показывает точность алгоритма, использующего только метод обнаружения тепла. Как видно, максимальная точность обнаружения составила около 83 %. Также авторы привели сведения о скорости работы: на процессоре Pentium IV с частотой 2,80 ГГц и с размером кэш-памяти 512 кб и 1 Гб оперативной памяти - около 12 кадров в секунду.

 

Рисунок 10 – Точность работы системы

Рассмотренные работы [3] и [4] опубликованы в 2005 году, более 10 лет назад. Более современные методы используют алгоритмы, основанные на признаках и глубоком обучении.

Работа [5], опубликованная в 2012 году, предлагает быстрый метод обнаружения объектов; эксперименты проводились на задаче обнаружения пешеходов. Исследователи отметили, что есть два многообещающих способа обнаружения объектов:

- сочетание вейвлетов и признаков Хаара с подходом AdaBoost - один из самых быстрых способов распознавания образов;

- сочетание методов HOG и SVM - один из самых точных способов обнаружения пешеходов.

Работа описывает объединение этих двух способов для получения быстрой и точной системы. Работу предложенной системы можно свести к трем этапам.

Этап 1 - Предобработка входного изображения.

Входное изображение преобразуется из цветного в черно-белое, проходит эквализацию (выравнивание) гистограммы, затем уменьшается в два раза (высота и ширина становятся в два раза меньше исходных значений). Таким образом, количество пикселей, участвующих в вычислениях, уменьшается до одной четвертой от первоначального количества.

Этап 2 - Грубое обнаружение.

На этом этапе используется каскадный классификатор Хаара, который должен выдавать как можно меньше ложноотрицательных результатов, поскольку результатом данного этапа являются области интереса, содержащие пешеходов, которые проходят на следующий этап алгоритма.

Этап 3 - Точное обнаружение.

На данном этапе применяется метод HOG (histogram of oriented gradients, гистограмма направленных градиентов), использующий на конечном этапе метод SVM для классификации области интереса (Support Vector Machine, метод опорных векторов).

Результат работы алгоритма представлен на рисунке 11. Слева - результат грубого обнаружения, видно, что алгоритм выделил не только человека, но и дорожный знак. Справа - результат точного обнаружения, дорожный знак был отброшен алгоритмом.

 

Рисунок 11 – Результат работы метода [5] после грубого (слева) и точного (справа) обнаружения

 

Также эксперименты показали, что скорость работы полученного алгоритма была близка к скорости работы каскадного классификатора Хаара, при этом точность была выше, а число ложных обнаружений ниже, чем у метода HOG, применённого отдельно – 86,2 %. На центральном процессоре Intel 2,7 ГГц предложенный алгоритм имел скорость работы около 13 кадров в секунду при разрешении изображений 704 х 576.

В последние 2 - 3 года появилось большое количество исследований и разработок, применяющих нейронные сети для распознавания образов. Обычно это глубокие свёрточные нейронные сети, особенностью которых является то, что они работают не с вектором значений, а с матрицей (которой и является любое изображение). Существует множество открытых размеченных баз данных для обучения и тестирования нейронных сетей, а также большое разнообразие архитектур и методов обучения, среди которых можно найти варианты, позволяющие достичь рекордно высокой точности и скорости работы среди всех методов распознавания образов.

Работа [6] выполнена исследовательской группой из корпорации Google, активно использующей нейронные сети и также являющейся одним из ведущих разработчиков автономных автомобилей. Исследователи отмечают, что несмотря на высокую точность работы нейронных сетей, их скорость работы невысока, поэтому в работе предлагается построить каскад быстрых нейронных сетей и функций выделения признаков. Полученный с использованием данного подхода метод оказался точным и быстрым - его место среди других существующих методов показано на рисунке 12.

 

Рисунок 12 – Сравнение предложенного метода (черного цвета) с существующими

Скорость работы исследователи оценивали на графическом процессоре NVIDIA K20 Tesla; при размере входного изображения 640х480 она составила около 15 кадров в секунду.

Точность работы предложенного метода показана на рисунке 13 в сравнении с другими существующими методами, использующими нейронные сети.

 

Рисунок 13 – Точность работы предложенного метода

Пример предсказаний сети можно увидеть на рисунке 14 – обнаруженные пешеходы выделены рамками синего цвета.

 

Рисунок 14 – Результат работы предложенной сети



2018-07-06 553 Обсуждений (0)
Методы, основанные на нейронных сетях 0.00 из 5.00 0 оценок









Обсуждение в статье: Методы, основанные на нейронных сетях

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Как распознать напряжение: Говоря о мышечном напряжении, мы в первую очередь имеем в виду мускулы, прикрепленные к костям ...
Организация как механизм и форма жизни коллектива: Организация не сможет достичь поставленных целей без соответствующей внутренней...
Как выбрать специалиста по управлению гостиницей: Понятно, что управление гостиницей невозможно без специальных знаний. Соответственно, важна квалификация...



©2015-2020 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (553)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.012 сек.)