Vektorová reprezentace slov a její aplikace
dc.contributor | Rott Michal, Ing. : 67959 | |
dc.contributor.advisor | Nouza Jan, prof. Ing. CSc. : 54737 | |
dc.contributor.author | Halada, Martin | |
dc.date.accessioned | 2021-08-20T07:39:58Z | |
dc.date.available | 2021-08-20T07:39:58Z | |
dc.date.committed | 2021-5-17 | |
dc.date.defense | 2021-06-15 | |
dc.date.submitted | 2020-10-19 | |
dc.date.updated | 2021-6-15 | |
dc.degree.level | Bc. | |
dc.description.abstract | Bakalářská práce se zabývá vektorovou reprezentací slov založenou na metodě Word2Vec. V první kapitole představuje problematiku reprezentace slov pomocí vektorů, zmiňuje různé způsoby a varianty jejího učení a nastiňuje možnosti jejího praktického využití. Druhá kapitola se zabývá vlastní implementací zmíněné metody, uvádí postup přípravy dat, vytvoření pracovního lexikonu a trénování neuronové sítě. Třetí kapitola se věnuje pěti možným aplikacím, jako jsou hledání podobných resp. opačných slov, tvorba slovních analogií, analýza sentimentu a zařazování článků do vybraných kategorií. První tři aplikace pracují přímo s natrénovanými vektory, neboť využívají informace o pozicích slov ve vektorovém prostoru. Další dvě aplikace používají vektory jako vstup do neuronové sítě natrénované jako klasifikátor do vybraných tříd. U všech úloh byl experimentálně vyhodnocován vliv několika základních parametrů (velikost slovníku, dimenze vektorového prostoru a délka kontextového okna) na úspěšnost. Nejdůležitějším parametrem byla velikost pracovního lexikonu, menší roli mělo nastavení počtu slov v kontextovém okně. | cs |
dc.description.abstract | The bachelor thesis deals with vector representation of words based on Word2Vec method. The first chapter presents the issue of representation words using vectors, mentions different ways and variants of its learning and outlines the possibilities of its practical use. The second chapter deals with the actual implementation of the mentioned method, describes the procedure of data preparation, creation of a lexicon and training neural network. The third chapter deals with five possible applications, such as searching for similar and opposite words, creation of verbal analogies, sentiment analysis and classification of articles into selected categories. First three applications work directly with trained vectors, because they use information from word positions in vector space. The other two applications use vectors as input into a neural network trained as classifier into selected classes. On all tasks were tested the influence of several basic parameters (dictionary size, dimension of vector space and length of context window) on success. The most important parameter was the size of the dictionary, the setting of the number of words in the context window had a smaller role. | en |
dc.description.mark | ||
dc.format | 58 s. | |
dc.format.extent | nejsou | |
dc.identifier.signature | V 202102948 | |
dc.identifier.uri | https://dspace.tul.cz/handle/15240/160448 | |
dc.language.iso | cs | |
dc.relation.isbasedon | par[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S.Corrado, and Jeffrey Dean. 2013. Distributed representations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems 2013. pp 3111textendash3119.par par[2] Yoav Goldberg and Omer Levy 2014. word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method. CoRR Vol. abs/1402.3722 (2014).par par[3] Armand Joulin, Edouard Grave, Piotr Bojanowski, Matthijs Douze, Herve Jegou, and Tomas Mikolov. 2016. Fasttext.zip: Compressing text classificationmodels. arXiv preprint arXiv:1612.03651.par par[4] Joulin, A., Grave, E., Bojanowski, P., and Mikolov, T. Bagof tricks for efficient text classification. arXiv preprint arXiv:1607.01759, 2016par | |
dc.rights | Vysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26 | cs |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26 | en |
dc.rights.uri | https://knihovna.tul.cz/document/26 | |
dc.rights.uri | https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf | |
dc.subject | Vektorová reprezentace slov | cs |
dc.subject | Word2Vec | cs |
dc.subject | CBOW | cs |
dc.subject | skip-gram | cs |
dc.subject | negative sampling | cs |
dc.subject | neuronové sítě | cs |
dc.subject | aplikace | cs |
dc.subject | analýza sentimentu | cs |
dc.subject | analogie | cs |
dc.subject | kategorizace textů | cs |
dc.subject | Vector representation of words | en |
dc.subject | Word2Vec | en |
dc.subject | CBOW | en |
dc.subject | skip-gram | en |
dc.subject | negative sampling | en |
dc.subject | neural networks | en |
dc.subject | applications | en |
dc.subject | sentiment analysis | en |
dc.subject | analogy | en |
dc.subject | text categorisation | en |
dc.title | Vektorová reprezentace slov a její aplikace | cs |
dc.title | Vector representation of words and its applications | en |
dc.type | bakalářská práce | cs |
local.degree.abbreviation | Bakalářský | |
local.degree.discipline | IT | |
local.degree.programme | Informační technologie | |
local.degree.programmeabbreviation | B2646 | |
local.department.abbreviation | ITE | |
local.faculty | Fakulta mechatroniky, informatiky a mezioborových studií | cs |
local.faculty.abbreviation | FM | |
local.identifier.author | M18000074 | |
local.identifier.stag | 41350 | |
local.identifier.verbis | ||
local.identifier.verbis | 53fdcd66-aef0-434b-8aec-c0ed3d74c938 | |
local.note.administrators | automat | |
local.note.secrecy | Povoleno ZverejnitPraci Povoleno ZverejnitPosudky | |
local.poradovecislo | 2948 |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- Bakalarska_prace_halada.pdf
- Size:
- 475.26 KB
- Format:
- Adobe Portable Document Format
- Description:
- VSKP
Loading...
- Name:
- BP_Martin_Halada_oponent.pdf
- Size:
- 264.22 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek_oponenta_VSKP
Loading...
- Name:
- BP_Martin_Halada_vedouci.pdf
- Size:
- 304.51 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek_vedouciho_VSKP
Loading...
- Name:
- ProtokolSPrubehemObhajobySTAG.pdf
- Size:
- 21.39 KB
- Format:
- Adobe Portable Document Format
- Description:
- Prubeh_obhajoby_VSKP