Malé velké multimodální jazykové modely pro mobilní platformy

dc.contributor.advisorPaleček Karel, Ing. Ph.D. :61120cs
dc.contributor.authorNavrátil, Matějcs
dc.contributor.otherKynych František, Ing. :67735cs
dc.contributor.refereeRott Michal, Ing. Ph.D. :67959cs
dc.date.accessioned2025-07-14T17:19:14Z
dc.date.available2025-07-14T17:19:14Z
dc.date.committed9.5.2025cs
dc.date.defense11.6.2025cs
dc.date.issued2025-06-11cs
dc.date.submitted14.10.2024cs
dc.description.abstractTato diplomová práce se zabývá lokálním nasazením multimodálních jazykových modelů, konkrétně modelů se schopností přijmout na vstup obraz, na mobilních zařízeních. Rešeršní část práce uvádí velké jazykové modely, problematiku multimodality, a představuje jednotlivé malé modely. Pro účely srovnání modelů bylo nasbíráno více než deset tisíc generovaných popisků pro obrázky z datových sad MS COCO a Pascal-50S. Ke každému popisku byla sledována podrobná informace o časovém průběhu a hodnocení metrikami podobnosti s popisky datové sady. Následně jsou v práci interpretovány výsledky ze srovnání modelů z hlediska kvality popisků a nároků na systémové zdroje. Z pozorování byl odvozen návrh modulární mobilní aplikace, která kromě zvoleného modelu umí načíst kterýkoli ze zkoumaných modelů z disku. Modulární architektura navíc umožňuje implementovat další modely nebo lokálně nasadit jiné části aplikace. Návrh, implementace a vyhodnocení výkonu v reálném prostředí jsou v práci zdokumentovány.cs
dc.description.abstractThis master thesis is focused on local deployment of multimodal language models, specifically models with the ability to accept image input, on mobile devices. Literary research describes large language models, multimodality, and introduces the individual small models. For the purposes of comparisons, more than ten thousand generated captions for images from the MS COCO and Pascal-50S datasets were collected. For each caption, detailed timing information and scores given by metrics of similarity with dataset ground-truth captions were measured. Next, results of model comparison with regards to generated caption quality and system resource demands were interpreted. From the results, a modular design of a mobile application was derived, such that it could support the model of choice as well as other considered models. The modular architecture additionally enables the implementation of future models or local deployment of other modules than the multimodal language model itself. The design and implementation of the mobile application, as well as its evaluation in a real environment, are documented in this work.en
dc.format54 strancs
dc.identifier.urihttps://dspace.tul.cz/handle/15240/177332
dc.language.isoCScs
dc.subjectVelké jazykové modelycs
dc.subjectmultimodální modelycs
dc.subjectzpracování přirozeného jazykacs
dc.subjectpočítačové viděnícs
dc.titleMalé velké multimodální jazykové modely pro mobilní platformycs
dc.titleSmall large multimodal language models for mobile platformsen
dc.typediplomová prácecs
local.degree.abbreviationNavazujícícs
local.identifier.authorM23000124cs
local.identifier.stag47832cs
Files
Original bundle
Now showing 1 - 5 of 5
Loading...
Thumbnail Image
Name:
attachment.zip
Size:
4.35 MB
Format:
Unknown data format
Description:
VŠKP - příloha ( 9.5.2025 10:22 )
Loading...
Thumbnail Image
Name:
thesis.pdf
Size:
2.55 MB
Format:
Adobe Portable Document Format
Description:
VŠKP ( 12.5.2025 14:03 )
Loading...
Thumbnail Image
Name:
DP_Matěj Navrátil_oponent.pdf
Size:
739.77 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP ( 21.5.2025 15:07 )
Loading...
Thumbnail Image
Name:
DP_Matěj Navrátil_vedoucí.pdf
Size:
55.05 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího VŠKP ( 29.5.2025 8:45 )
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobySTAG.pdf
Size:
39.36 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP ( 11.6.2025 12:21 )