Analýza textů online periodik pomocí metod strojového učení

Abstract
Cílem této práce je příprava pro analýzu politického smýšlení obyvatelstva, rozdílnost mezi komentáři různých webů a snaha o zjištění funkčnosti rekurentních neuronových sítí pro český jazyk. Zaměřil jsem se na webové portály novinky.cz a idnes.cz, data byla sbírána po dobu pěti let. K řešení zvoleného problému jsem využil právě rekurentních neuronových sítí s Long short-term memory buňkami. Navrhl jsem tři různé modely. První po natrénování na textu generuje texty po znacích. Druhý použije word2vec slovník slov a jejich příslušných číselných vektorů ke klasifikaci sentimentu komentářů a poslední za použití stejných slovníků generuje texty po slovech. K naprogramování modelů jsem použil jazyk Python a nástroj JupyterLab. Obě metody generování vytvářely text, vypadající jako čeština, ovšem občas postrádající smysl. Jelikož roli hraje náhoda, lépe vygenerované komentáře by mohly být na první pohled zaměnitelné s člověkem psaným textem. Klasifikace sentimentu dosáhla pro web iDnes 61 % přesnosti a pro web Novinky 71 %. Tyto dva modely se při klasifikaci shodovaly v 80 % případů. Provedený výzkum naznačil, s relativně nízkou hladinou významnosti, trend v podobných náladách diskutujících na obou periodikách. Při porovnání podobnosti slov jsou vidět patrné rozdíly v použití slova. Na každém webu je použito v různých větách s rozdílnými citovými zabarveními. Hlavním zjištěním této práce je, že rekurentní neuronové sítě lze dobře použít i pro český jazyk. Vyšších přesností klasifikace a menší chybovosti a smysluplnosti generování by se dalo dosáhnout především delším či paralelním trénováním na více zařízeních. Na stejném principu lze analyzovat i další periodika a utvořit si tak ucelený přehled o politické náladě ve společnosti.
The main goal of this bachelor thesis is to prepare basis for analysis of the political mindset of the population, differences between the comments from different web sites and to determine functionality of recurrent neural networks for Czech language. I focused on web portals novinky.cz and idnes.cz. The data were collected for five years. To solve the problem, I used recurrent neural networks with long short-term memory cells. I designed three different models. The first for generating texts by characters. Second one uses word2vec dictionary of words and their respective number vectors to classify sentiment of the comments. Last one uses same dictionaries to generate text by words. To program the models, I used language Python and JupyterLab tool. Both text generation models produced text that looked like Czech, but sometimes lacking in meaning. Since chance plays a role, better generated comments could at first glance be interchangeable with human written text. The sentiment classification model reached 61% accuracy for the website iDnes and 71% for Novinky. However, these two models agreed in classification of same comments in 80% of cases. The research indicated with relatively low level of significance a trend of similar moods of discussing in both periodicals. When comparing the similarities of words, obvious differences in different uses of the word are seen. On each site words are used in distinct sentences with unalike emotions behind. The main finding of this thesis is that recurrent neural networks can also be well used for the Czech language. However, higher accuracy of classification and lower error of meaningfulness of generated texts could be achieved by longer or parallel training on multiple devices. The same principle can be applied to analyze other periodicals and thus create a comprehensive overview of political moods in societies.
Description
Subject(s)
rekurentní neuronové sítě, Long short-term memory, Adam, Python, JupyterLab, klasifikace sentimentu, generování textu, po slovech, po znacích, word2vec, periodika, recurrent neural network, Long short-term memory, Adam, Python, JupyterLab, sentiment classification, text generating, word level, char level, word2vec, journal
Citation
ISSN
ISBN