Vektorová reprezentace slov a její aplikace

dc.contributorRott Michal, Ing. : 67959
dc.contributor.advisorNouza Jan, prof. Ing. CSc. : 54737
dc.contributor.authorHalada, Martin
dc.date.accessioned2021-08-20T07:39:58Z
dc.date.available2021-08-20T07:39:58Z
dc.date.committed2021-5-17
dc.date.defense2021-06-15
dc.date.submitted2020-10-19
dc.date.updated2021-6-15
dc.degree.levelBc.
dc.description.abstractBakalářská práce se zabývá vektorovou reprezentací slov založenou na metodě Word2Vec. V první kapitole představuje problematiku reprezentace slov pomocí vektorů, zmiňuje různé způsoby a varianty jejího učení a nastiňuje možnosti jejího praktického využití. Druhá kapitola se zabývá vlastní implementací zmíněné metody, uvádí postup přípravy dat, vytvoření pracovního lexikonu a trénování neuronové sítě. Třetí kapitola se věnuje pěti možným aplikacím, jako jsou hledání podobných resp. opačných slov, tvorba slovních analogií, analýza sentimentu a zařazování článků do vybraných kategorií. První tři aplikace pracují přímo s natrénovanými vektory, neboť využívají informace o pozicích slov ve vektorovém prostoru. Další dvě aplikace používají vektory jako vstup do neuronové sítě natrénované jako klasifikátor do vybraných tříd. U všech úloh byl experimentálně vyhodnocován vliv několika základních parametrů (velikost slovníku, dimenze vektorového prostoru a délka kontextového okna) na úspěšnost. Nejdůležitějším parametrem byla velikost pracovního lexikonu, menší roli mělo nastavení počtu slov v kontextovém okně.cs
dc.description.abstractThe bachelor thesis deals with vector representation of words based on Word2Vec method. The first chapter presents the issue of representation words using vectors, mentions different ways and variants of its learning and outlines the possibilities of its practical use. The second chapter deals with the actual implementation of the mentioned method, describes the procedure of data preparation, creation of a lexicon and training neural network. The third chapter deals with five possible applications, such as searching for similar and opposite words, creation of verbal analogies, sentiment analysis and classification of articles into selected categories. First three applications work directly with trained vectors, because they use information from word positions in vector space. The other two applications use vectors as input into a neural network trained as classifier into selected classes. On all tasks were tested the influence of several basic parameters (dictionary size, dimension of vector space and length of context window) on success. The most important parameter was the size of the dictionary, the setting of the number of words in the context window had a smaller role.en
dc.description.mark
dc.format58 s.
dc.format.extentnejsou
dc.identifier.signatureV 202102948
dc.identifier.urihttps://dspace.tul.cz/handle/15240/160448
dc.language.isocs
dc.relation.isbasedonpar[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S.Corrado, and Jeffrey Dean. 2013. Distributed representations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems 2013. pp 3111textendash3119.par par[2] Yoav Goldberg and Omer Levy 2014. word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method. CoRR Vol. abs/1402.3722 (2014).par par[3] Armand Joulin, Edouard Grave, Piotr Bojanowski, Matthijs Douze, Herve Jegou, and Tomas Mikolov. 2016. Fasttext.zip: Compressing text classificationmodels. arXiv preprint arXiv:1612.03651.par par[4] Joulin, A., Grave, E., Bojanowski, P., and Mikolov, T. Bagof tricks for efficient text classification. arXiv preprint arXiv:1607.01759, 2016par
dc.rightsVysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26cs
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26en
dc.rights.urihttps://knihovna.tul.cz/document/26
dc.rights.urihttps://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subjectVektorová reprezentace slovcs
dc.subjectWord2Veccs
dc.subjectCBOWcs
dc.subjectskip-gramcs
dc.subjectnegative samplingcs
dc.subjectneuronové sítěcs
dc.subjectaplikacecs
dc.subjectanalýza sentimentucs
dc.subjectanalogiecs
dc.subjectkategorizace textůcs
dc.subjectVector representation of wordsen
dc.subjectWord2Vecen
dc.subjectCBOWen
dc.subjectskip-gramen
dc.subjectnegative samplingen
dc.subjectneural networksen
dc.subjectapplicationsen
dc.subjectsentiment analysisen
dc.subjectanalogyen
dc.subjecttext categorisationen
dc.titleVektorová reprezentace slov a její aplikacecs
dc.titleVector representation of words and its applicationsen
dc.typebakalářská prácecs
local.degree.abbreviationBakalářský
local.degree.disciplineIT
local.degree.programmeInformační technologie
local.degree.programmeabbreviationB2646
local.department.abbreviationITE
local.facultyFakulta mechatroniky, informatiky a mezioborových studiícs
local.faculty.abbreviationFM
local.identifier.authorM18000074
local.identifier.stag41350
local.identifier.verbis
local.identifier.verbis53fdcd66-aef0-434b-8aec-c0ed3d74c938
local.note.administratorsautomat
local.note.secrecyPovoleno ZverejnitPraci Povoleno ZverejnitPosudky
local.poradovecislo2948
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
Bakalarska_prace_halada.pdf
Size:
475.26 KB
Format:
Adobe Portable Document Format
Description:
VSKP
Loading...
Thumbnail Image
Name:
BP_Martin_Halada_oponent.pdf
Size:
264.22 KB
Format:
Adobe Portable Document Format
Description:
Posudek_oponenta_VSKP
Loading...
Thumbnail Image
Name:
BP_Martin_Halada_vedouci.pdf
Size:
304.51 KB
Format:
Adobe Portable Document Format
Description:
Posudek_vedouciho_VSKP
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobySTAG.pdf
Size:
21.39 KB
Format:
Adobe Portable Document Format
Description:
Prubeh_obhajoby_VSKP