Využití strojového učení pro odhad křivek přežití

Abstract
Tato práce se zabývá implementací a porovnáním vybraných algoritmů umělé inteligence na odhad křivek přežití. Výchozím modelem je nejpoužívanější Coxův model proporcionálních rizik, jehož nedostatek v podobě lineárních vztahů mezi kovariáty je základem úvah pro průzkum schopností a kvality nelineárních modelů z AI oblasti. Jako hodnotící kritéria jsou použity různé metody a přístupy, které dohromady dávají ucelenou představu o kvalitě modelu. Pro každý model je implementována metoda na popis vlivu vstupních proměnných na výsledné riziko selhání, aby byla zachována možnost zjištění tohoto vlivu, jako tomu je u Coxova modelu proporcionálních rizik. Veškeré testy jsou prováděny na reálných anonymizovaných datech z oddělení transplantací na Ústavu krevní hematologie a transfuze v Praze, kromě porovnání vlivu velikosti učícího datasetu, pro který bylo využito většího objemu dat. Kvůli povaze dat je k práci přistupováno i ze zdravotnického hlediska. Vzhledem k realistickému přístupu byl vytvořen vlastní preprocessor, který zohledňuje a řeší, že v reálných datech téměř vždy chybí některé údaje. Modely jsou otestovány na několika specifických cílech, které mohou být podstatné pro vývoj průběhu léčby. Výsledky prokazují rozdílnou kvalitu modelů na zkoumaných časech přežití a ovlivnění dané kvality velikostí učícího datasetu. Zároveň dokazují, že modely AI jsou schopny dosáhnout přesnějších výsledků než CoxPH model, avšak liší se při rozdílných cílech a datasetech, proto položily základ myšlence ensemble modelu, která je v této práci teoreticky popsána jako další možné řešení a výzkum.
This work deals with the implementation and comparison of selected artificial intelligence algorithms for an estimation of survival curves. The default model is the most widely used Cox propotional hazard model, whose drawback of linear relationships between its covariates is the reasoning basis for exploring the capabilities and quality of nonlinear models from artificial intelligence domain. Various methods and approaches are used as evaluation criteria, which combination gives a comprehensive idea of quality of the model. For each model the method to describe the influence of input variables on resulting risk of failure is implemented in order to preserve the possibility of detecting this effect, as is the case with the Cox propotional hazard model. All tests are performed on real anonymized data from transplant department at the Institute of Blood Hematology and Transfusion in Prague, except the case of comparison of the effect of the size of the training dataset, for which a larger volume of data was used. Due to the nature of the data, the work is also approached from a medical point of view. In respect to the realistic approach a custom preprocessor has been created, which takes into account and solves, that some records are almost always missing in real data. Models are tested on several specific targets that may be essential for the development of the treatment. The results demonstrate different quality of models at the investigated survival times and detects influence on quality by given dataset size. At the same time the results prove that AI models are able to achieve more accurate results than CoxPH model, but differ in different goals and datasets, which laid the foundation for the ensemle model, which is theoretically described in this work as another possible solution and research.
Description
Subject(s)
Křivky přežití, umělá inteligence, statistické testy, coxův model proporcionálních rizik, neuronová síť, rozhodovací stromové struktury, strojové učení, Survival curves, artificial intelligence, statictical testing, cox proportional hazard model, neural network, decision trees, machine learning
Citation
ISSN
ISBN