Selektivní získávání informací s využitím LLM

Doanová, Helena

Selektivní získávání informací s využitím LLM

Files

DP_Doanova.pdf(712.84 KB)

Přílohy_DP_Doanova.zip(211.01 KB)

Doanová - posudek vedoucího.pdf(578.14 KB)

Doanová - posudek oponenta.pdf(130.86 KB)

ProtokolSPrubehemObhajobySTAG.pdf(39.36 KB)

Date

2025-01-28

Authors

Doanová, Helena

Abstract

Tato diplomová práce se zaměřuje na vývoj aplikace pro automatizovaný sběr dokumentů z internetového prostředí na základě uživatelského dotazu. Klasifikace dokumentů ve vztahu k uživatelskému dotazu je realizována sémantickou analýzou za využití velkých jazykových modelů. Teoretická část práce představuje velké jazykové modely a jejich význam při klasifikaci textu. Pro usnadnění a zefektivnění tohoto procesu byla navržena aplikace s modulární architekturou, skládající se z pěti na sebe navazujících modulů: modul pro optimalizaci uživatelského dotazu, modul pro vyhledávání na internetu, modul pro extrakci textu, modul pro klasifikaci dokumentů a modul pro správu databáze. Jednotlivé moduly jsou v práci podrobně popsány, včetně jejich vzájemného propojení a možnosti jejich výměny za nové moduly, což přispívá k flexibilitě navrženého systému. Funkčnost aplikace byla ověřena simulací reálného používání, která testovala správnou komunikaci mezi jednotlivými moduly a jejich integraci do systému. Během testování bylo získáno a klasifikováno více než 10 tisíc dokumentů, a to bez výskytu závažných problémů, čímž byla potvrzena funkčnost navržené aplikace.
This master thesis focuses on the development of an application for the automated collection of documents from the Internet environment based on a user query. The classification of documents in relation to the user query is performed by semantic analysis using large language models. The theoretical part of the thesis presents large language models and their importance in text classification. In order to simplify and improve the efficiency of this process, an application with a modular architecture was designed. Aplication is composed of five interrelated modules: a module for optimizing the user query, a module for web search, a module for text extraction, a module for document classification and a module for database management. The individual modules are described in detail, including their interconnection and the possibility of replacing them with new modules, which contributes to the flexibility of the proposed system. The functionality of the application was verified by a real-use simulation, which tests the correct communication between the modules and their integration into the system. During the testing, more than 10 thousand documents were retrieved and classified without any major problems, which confirmed the functionality of the proposed application.

Subject(s)

velké jazykové modely, zpracování přirozeného jazyka, sémantická analýza textu, extrakce textu, klasifikace textu

Item identifier

https://dspace.tul.cz/handle/15240/176632

Collections

Fakulta mechatroniky, informatiky a mezioborových studií

Show full item record