Identifikace autorství textu pomocí jazykových modelů
Loading...
Date
2024-06-11
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Tato bakalářská práce se zaměřuje na identifikaci a
ověření autorství textu s využitím jazykových modelů.
Cílem práce je prozkoumat schopnosti různých jazykových modelů, jako jsou GPT,
BERT, distilBERT a roBERTa, nejen v přisuzování autorství, ale
také v ověřování pravosti autora textů. Práce představuje teoretické
základy jazykových modelů a metod identifikace a ověření autorství.
Dále je zkoumána a porovnána jejich efektivita a přesnost na
základě imdb62 datasetu textů od různých autorů. V praktické části
jsou implementovány vybrané jazykové modely a jejich schopnosti
jsou ověřeny na testovacích datech. Výsledky práce ukazují
potenciál i omezení jazykových modelů v kontextu identifikace a ověření
autorství a nastiňují možnosti dalšího výzkumu v této oblasti.
This bachelor's thesis focuses on authorship identification and verification using language models. The objective is to explore the capabilities of various language models, such as GPT and BERT, distilBERT and roBERTa, not only in attributing authorship but also in verifying the authenticity of authors. The thesis introduces the theoretical foundations of language models and methods for authorship identification and verification. It then examines and compares their effectiveness and accuracy using the imdb62 dataset of texts from various authors. In the practical section, a selected language models are implemented, and their abilities are tested on sample data. The findings demonstrate the potential and limitations of language models in the context of authorship identification and verification, outlining possibilities for further research in this field. These revisions better reflect the dual focus on identification and verification, giving a comprehensive overview of the thesis's scope.
This bachelor's thesis focuses on authorship identification and verification using language models. The objective is to explore the capabilities of various language models, such as GPT and BERT, distilBERT and roBERTa, not only in attributing authorship but also in verifying the authenticity of authors. The thesis introduces the theoretical foundations of language models and methods for authorship identification and verification. It then examines and compares their effectiveness and accuracy using the imdb62 dataset of texts from various authors. In the practical section, a selected language models are implemented, and their abilities are tested on sample data. The findings demonstrate the potential and limitations of language models in the context of authorship identification and verification, outlining possibilities for further research in this field. These revisions better reflect the dual focus on identification and verification, giving a comprehensive overview of the thesis's scope.
Description
Subject(s)
Analýza textu, BERT, GPT, Identifikace autor-
ství, Jazykové modely, Ověření autorství, Strojové učení, Umělá
inteligence, Zpracování přirozeného jazyka