Malé velké multimodální jazykové modely pro mobilní platformy

Abstract
Tato diplomová práce se zabývá lokálním nasazením multimodálních jazykových modelů, konkrétně modelů se schopností přijmout na vstup obraz, na mobilních zařízeních. Rešeršní část práce uvádí velké jazykové modely, problematiku multimodality, a představuje jednotlivé malé modely. Pro účely srovnání modelů bylo nasbíráno více než deset tisíc generovaných popisků pro obrázky z datových sad MS COCO a Pascal-50S. Ke každému popisku byla sledována podrobná informace o časovém průběhu a hodnocení metrikami podobnosti s popisky datové sady. Následně jsou v práci interpretovány výsledky ze srovnání modelů z hlediska kvality popisků a nároků na systémové zdroje. Z pozorování byl odvozen návrh modulární mobilní aplikace, která kromě zvoleného modelu umí načíst kterýkoli ze zkoumaných modelů z disku. Modulární architektura navíc umožňuje implementovat další modely nebo lokálně nasadit jiné části aplikace. Návrh, implementace a vyhodnocení výkonu v reálném prostředí jsou v práci zdokumentovány.
This master thesis is focused on local deployment of multimodal language models, specifically models with the ability to accept image input, on mobile devices. Literary research describes large language models, multimodality, and introduces the individual small models. For the purposes of comparisons, more than ten thousand generated captions for images from the MS COCO and Pascal-50S datasets were collected. For each caption, detailed timing information and scores given by metrics of similarity with dataset ground-truth captions were measured. Next, results of model comparison with regards to generated caption quality and system resource demands were interpreted. From the results, a modular design of a mobile application was derived, such that it could support the model of choice as well as other considered models. The modular architecture additionally enables the implementation of future models or local deployment of other modules than the multimodal language model itself. The design and implementation of the mobile application, as well as its evaluation in a real environment, are documented in this work.
Description
Subject(s)
Velké jazykové modely, multimodální modely, zpracování přirozeného jazyka, počítačové vidění
Citation
ISSN
ISBN