Alzheimer's dementia recognition from spontaneous speech using deep neural networks

Abstract
Tato práce je zaměřena na výzvu ADReSS (Alzheimer's Dementia Recognition through Spontaneous Speech) z konference INTERSPEECH 2020. K řešení této výzvy byly použity různé přístupy k dosažení základních výsledků pro klasifikační a regresní úlohy. V rámci předzpracování dat bylo nutné provést extrakci příznaků pro akustická a lingvistická data. Byly použity předtrénované modely: příznaky ze zvukového záznamu byly extrahovány modelem SpeechBrain pro verifikaci mluvčích založeným na Time-Delay Neural Network (TDNN) a příznaky z přepisů byly extrahovány modelem Bidirectional Encoder Representations from Transformers (BERT). První část této práce se zaměřuje na vývoj klasifikačního modelu pro rozpoznávání Alzheimerovy choroby (AD). Výsledky ukazují, že model neuronové sítě dosahuje nejvyšší klasifikační přesnosti 85 % na dané testovací množině s použitím transkripcí a překonává základní model o 10 % pro lingvistická data. Model K-Nearest Neighbour (KNN) dosáhl přesnosti 71 % pro akustická data, což je o 14 % více než základní výsledek. Druhá část studie se zaměřuje na vývoj regresního modelu pro odhad skóre Mini-Mental State Examination (MMSE). Modely jsou hodnoceny pomocí statistických ukazatelů, jako je střední kvadratická chyba (RMSE) a hodnoty R-squared (r2). Výsledky ukazují, že model ElasticNet dosahuje nejnižší hodnoty RMSE 4,35 a překonává základní model o 0,85 bodu. U obou úloh dosažené výsledky překonaly nejlepší známé výsledky pro úlohu ADReSS. Závěrem lze říci, že tato práce prokazuje účinnost modelů strojového učení pro klasifikaci AD a predikci skóre MMSE. Výsledky ukazují potenciál těchto modelů pomáhat při včasné detekci a sledování AD a poskytují poznatky o kvalitě datového setu.
This thesis is focused on ADReSS (Alzheimer's Dementia Recognition through Spontaneous Speech) challenge at INTERSPEECH 2020. To solve this challenge different approaches were used to achieve baseline results for classification and regression tasks. As a part of data preprocessing, feature extraction was needed for acoustic and linguistic data. Pretrained models were used: features from audio recording were extracted by SpeechBrain speaker verification model based on Time-Delay Neural Network (TDNN) and features from transcriptions were extracted by Bidirectional Encoder Representations from Transformers (BERT) model. The first part of this work focuses on developing a classification model to recognise Alzheimer's disease (AD). The results show that the Neural Network model achieves the highest classification accuracy of 85% on the given testing set using transcriptions, outperforming the baseline model by 10% for transcriptions. For speech recording, K-Nearest Neighbour (KNN) has achieved test accuracy of 71%, which is higher than the baseline result by 14%. The second part of the study focuses on developing a regression model for predicting Mini-Mental State Examination (MMSE) scores. The models are evaluated using performance metrics, such as root mean squared error (RMSE) and R-squared (r2) values. The results show that the ElasticNet model achieves the lowest RMSE of 4.35, outperforming the baseline model by 0.85. For both tasks, achieved results have outperformed the best-known results for the ADReSS challenge. In conclusion, this thesis demonstrates the effectiveness of machine learning models for the classification of AD and the prediction of MMSE scores. The results highlight the potential for these models to assist in the early detection and monitoring of AD, and provide insights about dataset quality.
Description
Subject(s)
Alzheimerova choroba, Umělá inteligence, Strojové učení, Zpracování přirozeného jazyka, Zpracování řeči.
Citation
ISSN
ISBN