Identifikace autorství textu pomocí jazykových modelů

Abstract
Tato bakalářská práce se zaměřuje na identifikaci a ověření autorství textu s využitím jazykových modelů. Cílem práce je prozkoumat schopnosti různých jazykových modelů, jako jsou GPT, BERT, distilBERT a roBERTa, nejen v přisuzování autorství, ale také v ověřování pravosti autora textů. Práce představuje teoretické základy jazykových modelů a metod identifikace a ověření autorství. Dále je zkoumána a porovnána jejich efektivita a přesnost na základě imdb62 datasetu textů od různých autorů. V praktické části jsou implementovány vybrané jazykové modely a jejich schopnosti jsou ověřeny na testovacích datech. Výsledky práce ukazují potenciál i omezení jazykových modelů v kontextu identifikace a ověření autorství a nastiňují možnosti dalšího výzkumu v této oblasti.
This bachelor's thesis focuses on authorship identification and verification using language models. The objective is to explore the capabilities of various language models, such as GPT and BERT, distilBERT and roBERTa, not only in attributing authorship but also in verifying the authenticity of authors. The thesis introduces the theoretical foundations of language models and methods for authorship identification and verification. It then examines and compares their effectiveness and accuracy using the imdb62 dataset of texts from various authors. In the practical section, a selected language models are implemented, and their abilities are tested on sample data. The findings demonstrate the potential and limitations of language models in the context of authorship identification and verification, outlining possibilities for further research in this field. These revisions better reflect the dual focus on identification and verification, giving a comprehensive overview of the thesis's scope.
Description
Subject(s)
Analýza textu, BERT, GPT, Identifikace autor- ství, Jazykové modely, Ověření autorství, Strojové učení, Umělá inteligence, Zpracování přirozeného jazyka
Citation
ISSN
ISBN