Tvorba jazykového modelu pro vektorizaci textu

dc.contributor.advisorPoláček Martin, Ing. :68956cs
dc.contributor.authorTauchman, Deniscs
dc.contributor.refereeHalada Martin, Ing. :69482cs
dc.date.accessioned2025-07-14T12:43:58Z
dc.date.available2025-07-14T12:43:58Z
dc.date.committed9.5.2025cs
dc.date.defense10.6.2025cs
dc.date.issued2025-06-10cs
dc.date.submitted14.10.2024cs
dc.description.abstractTato bakalářská práce se zabývá tvorbou jazykového modelu pro český jazyk, určeného k vektorizaci textu v rámci metody Retrieval- -Augmented Generation (RAG). Cílem práce bylo navrhnout a natrénovat model, který umožní efektivní převod vstupních textových dotazů a dokumentů do vektorového prostoru, a tím zlepšit proces vyhledávání informací. Navržený model vychází z předtrénované architektury XLM-RoBERTa-base typu transformer, která byla dále doladěna (fine-tuned) na českých datech, včetně vlastního datasetu vytvořeného pro účely této práce. Experimentální část se zaměřuje na výběr základního modelu, úpravu hyperparametrů a přípravu trénovacích dat. Dosažené výsledky byly porovnány s alternativními přístupy běžně používanými pro podobné úlohy, přičemž navržený model dosáhl lepší přesnosti. V závěrečné části práce je model integrován do webové aplikace pro vektorizaci dokumentů v rámci techniky RAG, čímž je ověřena jeho praktická použitelnost.cs
dc.description.abstractThis bachelor thesis deals with the creation of a language model for Czech, which is designed for text vectorization within the Retrieval- -Augmented Generation (RAG) method. The aim of the thesis was to design and train a model that will enable efficient conversion of input text queries and documents into vector space, thus improving the information retrieval process. The proposed model is based on the pre-trained XLM-RoBERTa-base transformation architecture, which was further tuned on Czech data, including a custom dataset created for the purpose of this work. The experimental part focuses on the selection of the base model, the adjustment of the hyperparameters and the preparation of the training data. The results obtained were compared with alternative approaches commonly used for similar tasks, with the proposed model achieving higher accuracy. In the final part of the work, the model is integrated into a web application for document vectorization within the RAG technique, thus verifying its practical applicabilityen
dc.format53 scs
dc.identifier.urihttps://dspace.tul.cz/handle/15240/177319
dc.language.isoCScs
dc.subjectVelké jazykové modelycs
dc.subjectRAGcs
dc.subjectvektorizace textucs
dc.subjectRoBERTacs
dc.subjecttransformerycs
dc.titleTvorba jazykového modelu pro vektorizaci textucs
dc.titleDevelopment of a language model for text vectorizationen
dc.typediplomová prácecs
local.degree.abbreviationBakalářskýcs
local.identifier.authorM22000192cs
local.identifier.stag47840cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
BP_final.pdf
Size:
1.27 MB
Format:
Adobe Portable Document Format
Description:
VŠKP ( 3.5.2025 10:33 )
Loading...
Thumbnail Image
Name:
BP_Denis Tauchman_vedoucí.pdf
Size:
145.05 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího VŠKP ( 21.5.2025 15:08 )
Loading...
Thumbnail Image
Name:
BP_Denis Tauchman_oponent.pdf
Size:
728.08 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP ( 23.5.2025 13:28 )
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobySTAG.pdf
Size:
39.05 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP ( 10.6.2025 14:37 )