Vektorová reprezentace slov a její aplikace

Abstract
Bakalářská práce se zabývá vektorovou reprezentací slov založenou na metodě Word2Vec. V první kapitole představuje problematiku reprezentace slov pomocí vektorů, zmiňuje různé způsoby a varianty jejího učení a nastiňuje možnosti jejího praktického využití. Druhá kapitola se zabývá vlastní implementací zmíněné metody, uvádí postup přípravy dat, vytvoření pracovního lexikonu a trénování neuronové sítě. Třetí kapitola se věnuje pěti možným aplikacím, jako jsou hledání podobných resp. opačných slov, tvorba slovních analogií, analýza sentimentu a zařazování článků do vybraných kategorií. První tři aplikace pracují přímo s natrénovanými vektory, neboť využívají informace o pozicích slov ve vektorovém prostoru. Další dvě aplikace používají vektory jako vstup do neuronové sítě natrénované jako klasifikátor do vybraných tříd. U všech úloh byl experimentálně vyhodnocován vliv několika základních parametrů (velikost slovníku, dimenze vektorového prostoru a délka kontextového okna) na úspěšnost. Nejdůležitějším parametrem byla velikost pracovního lexikonu, menší roli mělo nastavení počtu slov v kontextovém okně.
The bachelor thesis deals with vector representation of words based on Word2Vec method. The first chapter presents the issue of representation words using vectors, mentions different ways and variants of its learning and outlines the possibilities of its practical use. The second chapter deals with the actual implementation of the mentioned method, describes the procedure of data preparation, creation of a lexicon and training neural network. The third chapter deals with five possible applications, such as searching for similar and opposite words, creation of verbal analogies, sentiment analysis and classification of articles into selected categories. First three applications work directly with trained vectors, because they use information from word positions in vector space. The other two applications use vectors as input into a neural network trained as classifier into selected classes. On all tasks were tested the influence of several basic parameters (dictionary size, dimension of vector space and length of context window) on success. The most important parameter was the size of the dictionary, the setting of the number of words in the context window had a smaller role.
Description
Subject(s)
Vektorová reprezentace slov, Word2Vec, CBOW, skip-gram, negative sampling, neuronové sítě, aplikace, analýza sentimentu, analogie, kategorizace textů, Vector representation of words, Word2Vec, CBOW, skip-gram, negative sampling, neural networks, applications, sentiment analysis, analogy, text categorisation
Citation
ISSN
ISBN