Analýza textů online periodik pomocí metod strojového učení

dc.contributorRott Michal, Ing. : 63020
dc.contributor.advisorPaleček Karel, Ing. Ph.D. : 61120
dc.contributor.authorKrechler, Tomáš
dc.date.accessioned2021-03-02T04:20:14Z
dc.date.available2021-03-02T04:20:14Z
dc.date.committed2020-5-18
dc.date.defense2021-02-02
dc.date.submitted2019-10-9
dc.date.updated2021-2-2
dc.degree.levelBc.
dc.description.abstractCílem této práce je příprava pro analýzu politického smýšlení obyvatelstva, rozdílnost mezi komentáři různých webů a snaha o zjištění funkčnosti rekurentních neuronových sítí pro český jazyk. Zaměřil jsem se na webové portály novinky.cz a idnes.cz, data byla sbírána po dobu pěti let. K řešení zvoleného problému jsem využil právě rekurentních neuronových sítí s Long short-term memory buňkami. Navrhl jsem tři různé modely. První po natrénování na textu generuje texty po znacích. Druhý použije word2vec slovník slov a jejich příslušných číselných vektorů ke klasifikaci sentimentu komentářů a poslední za použití stejných slovníků generuje texty po slovech. K naprogramování modelů jsem použil jazyk Python a nástroj JupyterLab. Obě metody generování vytvářely text, vypadající jako čeština, ovšem občas postrádající smysl. Jelikož roli hraje náhoda, lépe vygenerované komentáře by mohly být na první pohled zaměnitelné s člověkem psaným textem. Klasifikace sentimentu dosáhla pro web iDnes 61 % přesnosti a pro web Novinky 71 %. Tyto dva modely se při klasifikaci shodovaly v 80 % případů. Provedený výzkum naznačil, s relativně nízkou hladinou významnosti, trend v podobných náladách diskutujících na obou periodikách. Při porovnání podobnosti slov jsou vidět patrné rozdíly v použití slova. Na každém webu je použito v různých větách s rozdílnými citovými zabarveními. Hlavním zjištěním této práce je, že rekurentní neuronové sítě lze dobře použít i pro český jazyk. Vyšších přesností klasifikace a menší chybovosti a smysluplnosti generování by se dalo dosáhnout především delším či paralelním trénováním na více zařízeních. Na stejném principu lze analyzovat i další periodika a utvořit si tak ucelený přehled o politické náladě ve společnosti.cs
dc.description.abstractThe main goal of this bachelor thesis is to prepare basis for analysis of the political mindset of the population, differences between the comments from different web sites and to determine functionality of recurrent neural networks for Czech language. I focused on web portals novinky.cz and idnes.cz. The data were collected for five years. To solve the problem, I used recurrent neural networks with long short-term memory cells. I designed three different models. The first for generating texts by characters. Second one uses word2vec dictionary of words and their respective number vectors to classify sentiment of the comments. Last one uses same dictionaries to generate text by words. To program the models, I used language Python and JupyterLab tool. Both text generation models produced text that looked like Czech, but sometimes lacking in meaning. Since chance plays a role, better generated comments could at first glance be interchangeable with human written text. The sentiment classification model reached 61% accuracy for the website iDnes and 71% for Novinky. However, these two models agreed in classification of same comments in 80% of cases. The research indicated with relatively low level of significance a trend of similar moods of discussing in both periodicals. When comparing the similarities of words, obvious differences in different uses of the word are seen. On each site words are used in distinct sentences with unalike emotions behind. The main finding of this thesis is that recurrent neural networks can also be well used for the Czech language. However, higher accuracy of classification and lower error of meaningfulness of generated texts could be achieved by longer or parallel training on multiple devices. The same principle can be applied to analyze other periodicals and thus create a comprehensive overview of political moods in societies.en
dc.description.mark
dc.format53 s. (70 000 znaků)
dc.format.extent5 souborů s příponou ipynb pro použití v JupyterLabu
dc.identifier.signatureV 202102575
dc.identifier.urihttps://dspace.tul.cz/handle/15240/159857
dc.language.isocs
dc.relation.isbasedonbeginarab renewcommandlabelenumi[arabicenumi] item parGoodfellow, I., Bengio, Y., Courville, A. Deep learning. MIT Press, 2016 Bishop, C. Pattern Recognition and Machine Learning. 2006. ISBN 13: 978-038731073 Karpathy, A., Johnson, J., Li, F. Convolutional neural neworks for visual recognition. dostupné online: http://cs231n.stanford.edu/par endarab
dc.rightsVysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26cs
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26en
dc.rights.urihttps://knihovna.tul.cz/document/26
dc.rights.urihttps://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subjectrekurentní neuronové sítěcs
dc.subjectLong short-term memorycs
dc.subjectAdamcs
dc.subjectPythoncs
dc.subjectJupyterLabcs
dc.subjectklasifikace sentimentucs
dc.subjectgenerování textucs
dc.subjectpo slovechcs
dc.subjectpo znacíchcs
dc.subjectword2veccs
dc.subjectperiodikacs
dc.subjectrecurrent neural networken
dc.subjectLong short-term memoryen
dc.subjectAdamen
dc.subjectPythonen
dc.subjectJupyterLaben
dc.subjectsentiment classificationen
dc.subjecttext generatingen
dc.subjectword levelen
dc.subjectchar levelen
dc.subjectword2vecen
dc.subjectjournalen
dc.titleAnalýza textů online periodik pomocí metod strojového učenícs
dc.titleAnalysis of online news text and user comments using machine learningen
dc.typebakalářská prácecs
local.degree.abbreviationBakalářský
local.degree.disciplineIT
local.degree.programmeInformační technologie
local.degree.programmeabbreviationB2646
local.department.abbreviationITE
local.facultyFakulta mechatroniky, informatiky a mezioborových studiícs
local.faculty.abbreviationFM
local.identifier.authorM16000039
local.identifier.stag40096
local.identifier.verbis
local.identifier.verbiskpw06676457
local.note.administratorsautomat
local.note.secrecyPovoleno ZverejnitPraci Povoleno ZverejnitPosudky
local.poradovecislo2575
Files
Original bundle
Now showing 1 - 5 of 5
Loading...
Thumbnail Image
Name:
BP_Tomas_Krechler.pdf
Size:
1.06 MB
Format:
Adobe Portable Document Format
Description:
VSKP
Loading...
Thumbnail Image
Name:
BP_Tomas_Krechler_priloha.zip
Size:
29.07 KB
Format:
Unknown data format
Description:
VSKP__priloha
Loading...
Thumbnail Image
Name:
BP_Tomas_Krechler_oponent.pdf
Size:
741.78 KB
Format:
Adobe Portable Document Format
Description:
Posudek_oponenta_VSKP
Loading...
Thumbnail Image
Name:
hodnoticiarchprovedoucihobpdp.pdf
Size:
106.12 KB
Format:
Adobe Portable Document Format
Description:
Posudek_vedouciho_VSKP
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobySTAG.pdf
Size:
16.88 KB
Format:
Adobe Portable Document Format
Description:
Prubeh_obhajoby_VSKP