Neuronové sítě pro automatickou detekci log v obraze

Novák, Zbyněk

Neuronové sítě pro automatickou detekci log v obraze

Files

Priloha_A.zip(36.34 MB)

bakalarska_prace_2019_Zbynek_Novak.pdf(1.53 MB)

BP_Zbynek_Novak_oponent.pdf(676.16 KB)

BP_Zbynek_Novak_vedouci.pdf(717.85 KB)

ProtokolSPrubehemObhajobySTAG.pdf(15.18 KB)

Authors

Novák, Zbyněk

Abstract

Tato práce se zabývá problematikou hlubokého učení a neuronových sítí v rámci detekce log v obraze. Cílem je vytvoření rešerše v oblasti aplikace neuronových sítí pro detekci objektů a log v obraze a otestování vybraných modelů pro detekci log v obraze na vybraných testovacích databázích.V rešeršní části je vysvětlen pojem hluboké učení a uvedeny příklady jeho konkrétního využití v praxi v rámci detekce objektů v obraze. Jsou popsány neuronové sítě, architektura dopředné neuronové sítě a typ učení s učitelem, které se využívají pro detekci objektů v obraze. Dále je popsána klasifikace objektů pomocí konvolučních neuronových sítí. Jsou představeny stávající systémy, používané pro detekci log v obraze, a trénovací databáze log.Pro otestování byly vybrány dva modely, a to YOLOv3, implementovaný pomocí frameworku PyTorch, a Faster R-CNN, implementovaný pomocí frameworku Tensorflow. V rešeršní části jsou tyto modely a použité frameworky popsány a navzájem porovnány. Pro testování byly vybrány dva datasety, a to dataset FlickrLogos-32 a dataset TopLogo-10.Detektor YOLOv3 byl testován ve dvou variantách - ve verzi YOLOv3-tiny, která je rychlejší a méně výpočetně náročná, a v plnohodnotné verzi YOLOv3. Tento detektor dosáhl ve verzi YOLOv3 nejvyšší přesnosti 45 % v čase 22 hodin na datasetu FlickrLogos-32 a přesnosti 59 % v čase 11 hodin na datasetu TopLogo-10. Verze YOLOv3-tiny byla čtyřikrát rychlejší, ale oproti plnohodnotné verzi měla na obou datasetech třetinovou přesnost.Detektor Faster R-CNN dosáhl nejvyšší přesnosti 60 % na datasetu FlickrLogos-32 a 67 % na datasetu TopLogo-10. V obou případech trvalo trénování 7 hodin. Z výsledků testování vyplývá, že ačkoli měl být detektor YOLOv3 rychlejší než detektor Faster R-CNN a měl dosahovat obdobné přesnosti, byl pomalejší a dosahoval menších přesností na obou datasetech. To mohlo být způsobeno implementací detektoru YOLOv3, která obsahovala implementační chyby. Detektor Faster R-CNN je tak v tomto případě lepší volbou pro detekci log v obraze.
This thesis deals with the topic of deep learning and neural networks. The aim is to do research in the field of application of neural networks for object and logo detection and to test the chosen models for logo detection on chosen databases. In the research part, the concept of deep learning is explained and examples of its practical use in object detection are given. Neural networks are described/explained, as well as Feed-Forward architecture and supervised learning, which are used for object detection. Next, object classification using convolutional neural networks is described. Existing systems, used for logo detection, and logo training databases are presented. Two models were selected for testing , namely YOLOv3, implemented with PyTorch framework, and Faster R-CNN, implemented with Tensorflow framework. In the research part these models and used frameworks are described and compared. Two datasets, the FlickrLogos-32 dataset and the TopLogo-10 dataset, were selected for testing. The YOLOv3 detector was tested in two versions - the YOLOv3-tiny version, which is faster and less computationally demanding, and in the full-featured version of YOLOv3. The YOLOv3 detector achieved the highest accuracy of 45 % at 22 hours on the FlickrLogos-32 dataset and accuracy of 59 % at 11 hours on the TopLogo-10 dataset. The YOLOv3-tiny version was four times faster, but compared to the full-featured version, it had a one-third accuracy on both datasets. The Faster R-CNN detector reached the highest accuracy of 60 % on the FlickrLogos-32 dataset and 67 % on the TopLogo-10. In both cases, model was trained for 7 hours. The test results indicate that although the YOLOv3 detector supposed to be faster than Faster R-CNN detector and should achieve similar accuracy (according to the documentation), it was slower and less accurate on both datasets. This could be due to bad implementation of the YOLOv3 detector. In this case, the Faster R-CNN detector proved to be a better choice for logo detection.

Subject(s)

COCO, Detekce objektů, detekce log, Faster R-CNN, FlickrLogos-32, hluboké učení, konvoluční neuronové sítě, neuronové sítě, openCV, Python, PyTorch, TopLogo-10, Tensorflow, YOLOv3, COCO, Object detection, logo detection, Faster R-CNN, FlickrLogos-32, deep learning, convolutional neural network, neural network, openCV, Python, PyTorch, TopLogo-10, Tensorflow, YOLOv3

Item identifier

https://dspace.tul.cz/handle/15240/153303

Collections

Fakulta mechatroniky, informatiky a mezioborových studií

Show full item record