Метрики для оценки качества работы алгоритмов

2018-07-06

3183

Обсуждений (0)

4.80 из 5.00 5 оценок

⇐ Предыдущая 6 7 8 9 10 11 12 131415 Следующая ⇒

Помимо измерения скорости работы (или среднего времени обработки одного кадра), для оценки и сравнения нейросетевых алгоритмов используются различные метрики. В проводимом экспериментальном исследовании вычислялись стандартные метрики для алгоритмов обнаружения объектов:

- IoU (intersection over union), или пересечение, деленное на объединение. Это мера соответствия двух рамок (рисунок 49), может принимать значения от 0 (полное несовпадение) до 1 (полное совпадение) или от 0 до 100 %. Это отношение площади пересечения двух рамок к площади их объединения;

Рисунок 49 – Иллюстрация расчета метрики IoU и примеры значений

- полнота и точность.

Обнаружения модели можно разделить на три группы:

1) TP (true positives), истинно-положительные – когда предсказанная рамка объекта имеет IoU с истинной не ниже порогового значения IoU, а его класс предсказан с уверенностью не ниже порогового значения уверенности;

2) FP (false positives), ложноположительные – все предсказанные объекты, не являющиеся истинно-положительными;

3) FN (false negatives), ложноотрицательные – все объекты, присутствующие в истинной разметке данных, но не предсказанные моделью.

Тогда точность – это доля истинно-положительных обнаружений от всех предсказанных, а полнота – доля истинно-положительных обнаружений от всех

объектов, содержащихся на изображениях:

	2(29)
	((30)

Обычно составляют график, где по оси абсцисс отмечают значения полноты, а по оси ординат – значения точности при разных пороговых значениях уверенности классификатора;

- cредняя точность по классу (average precision, AP).

Устанавливается класс объекта и ряд пороговых значений уверенности. Для выбранного класса и каждого такого значения уверенности получают полноту и точность. Получается ряд точек, по которым можно построить график зависимости точности от полноты. Так как значения точности и полноты находятся в диапазоне от 0 до 1, средней точностью по классу будет площадь под полученной кривой. На практике среднюю точность по классу считают приближенно – например, рассчитывают среднее арифметическое по ряду значений точности;

- cредняя точность по всем классам (mean average precision, mAP).

Это среднее арифметическое по средним точностям по классам. Если в выборке всего один класс, то очевидно, что средняя точность по всем классам совпадает со средней точностью по классу.

Анализ результатов

Конфигурации экспериментов приведены в таблице 5. Для моделей, имеющих в конце названия символ «*», весовые коэффициенты всех слоёв, кроме последнего, инициализовались значениями, полученными при их обучении на базах данных, содержащих большое количество различных классов, т.е. в начале обучения сверточные фильтры этих моделей были настроены на признаки различных классов. Остальные модели обучались «с нуля». Минимальные значения ошибки, приведенные в таблице – это минимальные значения функции ошибки при валидации за всё время обучения.

Эксперименты 1 – 4 были проведены для сравнения качества работы используемой модели для одного, двух узких классов (элементарных классов), а также суперкласса (класса, объединяющего в себе объекты нескольких узких классов) и сочетания узких классов с суперклассом.

Таблица 5 – Проведенные эксперименты

№	Модель	№ набора данных	Число эпох	Размер батча	Время обучения (ч)	Минимальное значение ошибки
	tiny YOLOv2*				11,5	0,0242
	tiny YOLOv2*				20,5	0,0970
	tiny YOLOv2*				55,5	0,2615
	tiny YOLOv2*				63,5	0,0474
	tiny YOLOv2					0,2332
	Модель В					0,1985
	Модель А					0,1532
	Модель Б					0,2216
	full YOLOv2					–

Эксперименты 5 – 9 проводились на одном наборе данных, содержащем два узких класса и суперкласс, но с различными моделями, чтобы сравнить качество и скорость работы. Также по результатам этих экспериментов можно судить о целесообразности изменений, внесенных в модифицированные модели. Эксперимент с моделью full YOLOv2 (№ 9 в таблице 5) был проведен для сравнения скорости работы, качество работы при этом не рассматривалось в связи с необходимостью слишком больших временных затрат на обучение модели – по этой причине нет смысла сравнивать минимальное значение ошибки модели.

На рисунках 50 и 51 показаны графики функции ошибки за время обучения для экспериментов 1 – 4 и 5 – 9 соответственно.

Рисунок 50 – График функции ошибки для экспериментов 1 – 4

Рисунок 51 – График функции ошибки для экспериментов 5 – 9

В приложении А приведены графики точности и полноты для различных значений IoU. В таблице 6 приведены результаты экспериментов для значения IoU, приводящего к лучшему результату. По графикам в приложении А можно заметить, что при увеличении порогового значения IoU снижаются полнота и точность, при этом при IoU более 0,5 полнота снижается в большой степени. Общепринятым значением считается пороговое значение IoU, равное 0,3, в данном случае наилучшие точность и полнота получены при IoU = 0,2.

Таблица 6 – Сводная таблица результатов экспериментов

№	IoU	AP	mAP	Лучший результат
5.19.1	2.1	знак	Увер.	TP	FP	FN	Точность	Полнота	Т*П
	0,2	0,89	-	-	0,89	0,4				0,90	0,88	0,80
	0,2	0,88	0,94	-	0,91	0,4				0,91	0,91	0,83
	0,2	0,91	0,93	0,82	0,89	0,4				0,77	0,87	0,67
	0,2	-	-	0,84	0,84	0,5				0,87	0,87	0,76
	0,2	0,91	0,93	0,82	0,89	0,4				0,86	0,79	0,68
	0,2	0,87	0,90	0,78	0,85	0,5				0,85	0,80	0,68
	0,2	0,87	0,90	0,76	0,84	0,6				0,88	0,83	0,73
	0,2	0,90	0,92	0,80	0,87	0,4				0,83	0,82	0,68

Как видно из таблицы, средняя точность по узким классам 5.19.1 («пешеходный переход») и 2.1 («главная дорога») довольно высока, в то время как средняя точность по суперклассу «знак» не превышает 85 %. В эксперименте № 3 с выборкой, содержащей и узкие классы, и суперкласс, средняя точность по всем классам ниже, чем в эксперименте № 2 без суперкласса, именно из-за влияния на общий результат точности по суперклассу. При этом, точность по узким классам не претерпела значительных изменений в сторону ухудшения.

Также в таблице для наглядности указаны лучшие результаты для каждого эксперимента. Лучшим результатом считался вариант с такими пороговыми значениями IoU и уверенности, при которых произведение точности и полноты (Т*П) по всем классам было максимальным. В колонках TP, FP, FN указаны числа истинно-положительных, ложноположительных и ложноотрицательных обнаружений соответственно.

В экспериментах 5 – 8 наибольшая средняя точность была достигнута с моделью tiny YOLOv2, причем полученное значение равно средней точности для этой же модели, но с использованием предобученных начальных весовых коэффициентов. Из этого следует, что для задачи обнаружения дорожных знаков предобученные весовые коэффициенты не оказывают значительного влияния на точность работы. Однако средняя точность не учитывает значение полноты обнаружения. Наибольшей полнотой обнаружения обладает модель А, и произведение точности и полноты также имеет наибольшее значение для этой модели. Таким образом, при подборе оптимальных параметров модель А показывает наилучшие характеристики точности и полноты среди всех исследуемых моделей.

В таблице 7 сведены основные характеристики для сравнения моделей. Столбец «Т*П» показывает значение произведения точности и полноты при оптимальных параметрах, а столбец «Размер» – размер в мегабайтах файла весов стандартного для библиотеки Keras формата. Время работы определялось как время обработки одного изображения при работе алгоритма на графическом процессоре NVIDIA GeForce GTX 1070.

Таблица 7 – Характеристики моделей

Модель	Размер, Мб	Т*П	Время работы, с
tiny YOLOv2	62,2	0,68	0,03
full YOLOv2	202,5	-	0,06
модель В	20,6	0,68	0,04
модель А	20,6	0,73	0,06
модель Б		0,68	0,03

Максимальной скоростью работы обладают модели tiny YOLOv2 и модель Б. Время обработки одного изображения у этих моделей составило 0,03 с, что соответствует 30 кадрам в секунду. Время работы модели В составила 0,04 с, что соответствует 25 кадрам в секунду. Время работы моделей full YOLOv2 и модели Б составила 0,06 с, что соответствует 17 кадрам в секунду. Это удовлеторяет требованиям, выдвинутым в подразделе 3.1, и позволяет использовать модели в режиме реального времени для указанного оборудования.

Наименьшими размерами обладают модели В и А – файл с весовыми коэффициентами для этих моделей имеет размер 20,6 Мб, что в 3 раза меньше, чем у модели tiny YOLOv2, и в 10 раз меньше, чем у модели full YOLOv2.

Вывод по разделу

В четвертом разделе представлены метрики для оценки качества работы нейросетевых методов обнаружения, проанализировано несколько моделей нейронных сетей в задаче обнаружения дорожных знаков, выявлены модели, обладающие наилучшими характеристиками быстродействия и качества обнаружения.

В результате экспериментальных исследований было обнаружено, что возможно повысить качество обнаружения, не снижая быстродействия модели в значительной степени. Для этого можно включить в архитектуру нейронной сети последовательности из нескольких сверточных слоёв с размером фильтра 1×1 и отбросить слои в конце сети с большим числом каналов выхода. Добавление в архитектуру параллельной последовательности слоёв не улучшило качество обнаружения. Перспективно проведение дальнейших исследований архитектур нейронных сетей для обнаружения с целью выявить принципы построения, влияющие на скорость и качество работы нейросетевых методов.

Была предложена модификация архитектуры YOLOv2, обладающая лучшим качеством обнаружения дорожных знаков, чем остальные рассмотренные модели, и обладающая в 10 раз меньшим размером занимаемой памяти, чем full YOLOv2, и в 3 раза - чем tiny YOLOv2, что упрощает требования к вычислительному оборудованию.

ЗАКЛЮЧЕНИЕ

В ходе выполнения работы:

1) сформулирована задача обнаружения объектов на изображении, рассмотрены существующие методы решения задачи обнаружения, обоснован выбор нейросетевого подхода для решения поставленной задачи, проведен аналитический обзор нейросетевых методов обнаружения объектов на изображении, представлен обзор существующих программных продуктов, позволяющих работать с алгоритмами глубокого обучения, а также обзор существующих наборов данных для обучения, сформулированы задачи работы;

2) представлено математическое описание сверточных нейронных сетей, представлены различные функции активации, алгоритм стохастического градиентного спуска как метода глубокого обучения и его модификации, проведен анализ особенностей современных нейросетевых методов для обнаружения объектов, выбрана базовая архитектура нейронной сети;

3) разработан облик системы технического зрения для мобильных систем, разработано программное обеспечение для системы технического зрения, также приведено описание используемых библиотек;

4) представлены методы оценки качества методов обнаружения, представлены результаты экспериментов по применению алгоритмов глубокого обучения в задаче обнаружения дорожных знаков, предложена модификация нейросетевой архитектуры tiny YOLOv2, обладающая лучшим качеством обнаружения и меньшим размером занимаемой памяти.

В результате экспериментальных исследований были получены следующие значения произведения точности и полноты: 0,83 для модели tiny YOLOv2 при обучении на базе данных № 2, содержащей два узких класса знаков, и 0,73 для собственной предложенной модели А, обученной на базе

№ 3, содержащей две узких класса знаков и один суперкласс. При этом значение произведения точности и полноты для всех других моделей, обученных на базе № 3, не превышало 0,68. Наибольшая скорость работы была получена для модели tiny YOLOv2 и модели Б и составила 0,03 с, что соответствует 30 кадрам в секунду. Наименьшая скорость работы была зафиксировна у моделей full YOLOv2 и модели А и составила 0,06 с, что удовлетворяет установленным требованиям.

В качестве дальнейших исследований предлагается изучить влияние структуры и элементов архитектуры нейронной сети на скорость её работы и качество обнаружения. Это позволит разрабатывать новые, более эффективные модели нейронных сетей.

2018-07-06

3183

Обсуждений (0)

4.80 из 5.00 5 оценок

⇐ Предыдущая 6 7 8 9 10 11 12 131415 Следующая ⇒

Обсуждение в статье: Метрики для оценки качества работы алгоритмов

Обсуждений еще не было, будьте первым... ↓↓↓