Browsing by Author "Paleček, Karel"
Now showing 1 - 6 of 6
Results Per Page
Sort Options
- ItemAudiovizuální rozpoznávání řeči s využitím metod pro automatické odezírání ze rtů(Technická Univerzita v Liberci, ) Paleček, Karel; ; Chaloupka Josef, doc. Ing. Ph.D. Skolitel : 54794; Rozkovec Jiří, Mgr. Konzultant : 56638; Pifková Monika, Ing. Konzultant2 : 65313Automatické odezírání ze rtů je oborem vyvíjejícím se na pomezí automatického rozpoznávání řeči, strojového učení a počítačového vidění již více než 20 let. Ani přes významné pokroky od doby svého uvedení se však audiovizuální systémy rozpoznávání řeči v praxi výrazně neprosadily a to z několika důvodů. Jeden z klíčových předpokladů, návrh robustní parametrizace, zde navíc s využitím informace o trojrozměrné podobě povrchu úst, je předmětem této dizertační práce.Text je rozdělen do 12 kapitol. Kapitoly 25 rozebírají současný stav problematiky rozdělením na několik dílčích podproblémů. V kapitole 2 je uveden přehled algoritmů pro zarovnání obličeje a detekce zájmové oblasti. Největší pozornost je věnována parametrizaci vizuálního signálu v kapitole 3. Následující kapitoly 4 a 5 popisují metody klasifikace a možnosti integrace vizuální informace do akustických řečových dekodérů. Přehled nejčastěji využívaných audiovizuálních databází je uveden v kapitole 6. Rešeržní část práce je uzavřena kapitolou 7, která porovnává nejlepší doposud dosažené výsledky v dostupné literatuře. Samostatně jsou posouzeny vizuální a audiovizuální systémy a navíc je problematika rozdělena dle typu rozpoznávaných promluv a závislosti na mluvčích. Zohledněn je rovněž vliv vizuálního předzpracování.V práci jsou navrženy tři nové vizuální parametrizace řeči: trojrozměrná bloková diskrétní kosinová transformace (DCT3), prostoro-časově modifikovaný histogram orientovaných gradientů (HOGTOP) a rozšířený aktivní vzhledový model (DAAM). Jejich návrh, popsaný v kapitole 8, směřuje především k využití řečové dynamiky a zrobustnění klasického AAM integrací hloubkových dat jakožto zjednodušené formy informace o trojrozměrné podobě rtů.Za účelem vyhodnocení navržených i v současné době existujících parametrizací je vytvořena audiovizuální databáze TULAVD obsahující 54 mluvčích, viz kapitolu 9. Databáze je navržena i s ohledem na automatické rozpoznávání spojité řeči s velkým slovníkem (LVCSR). Samostatná sekce je věnována návrhu testovacího protokolu, který zamezuje optimalizaci modelů na testovaná data a výsledky v experimentální části tak nejsou zatíženy pozitivní zaujatostí.Experimentální část v kapitole 10 se věnuje především evaluaci navržených parametrizací a srovnání existujících na úloze rozpoznávání izolovaných slov. Kromě TULAVD je úspěšnost vlastní parametrizace demonstrována na dalších dvou známých databázích pro možnost přímého srovnání se stavem poznání. Rovněž je samostatně demonstrován pozitivní přínos hloubkových dat rekonstruovaných pomocí MS Kinect. Druhá část experimentů v kapitole 11 je pak zaměřena vyhodnocení vlivu vizuální informace v úloze LVCSR s různě velkými slovníky od několika stovek do pěti set tisíc slov.
- ItemAudiovizuální rozpoznávání řeči s využitím metod pro automatické odezírání ze rtů(Technická Univerzita v Liberci, ) Paleček, Karel
- ItemDeep learning for logo detection(Institute of Electrical and Electronics Engineers Inc., 2019) Paleček, KarelWe present a deep learning system for automatic logo detection in real world images. We base our detector on the popular framework of FasterR-CNN and compare its performance to other models such as Mask R-CNN or RetinaNet. We perform a detailed empirical analysis of various design and architecture choices and show how these can have much higher influence than algorithmic tweaks or popular techniques such as data augmentation. We also provide a systematic detection performance comparison of various models on multiple popular datasets including FlickrLogos-32, TopLogo-10 and recently introduced QMUL-OpenLogo benchmark, which allows for a direct comparison between recently proposed extensions. By careful optimization of the training procedure we were able to achieve significant improvements of the state of the art on all mentioned datasets. We apply our observations to build a detector to detect logos of the Red Bull brand in online media and images.
- ItemRozpoznávání osob na základě detekovaného obličejePaleček, Karel
- ItemRozpoznávání osob na základě detekovaného obličeje(Technická Univerzita v Liberci, 2007) Paleček, Karel; Chaloupka, JosefTato práce se zabývá problematikou automatického rozpoznávání osob na základě detekovaného obličeje. Není zde řešen problém detekce obličeje v obraze, jasová normalizace či jiné předzpracování obrazu kromě úpravy velikosti a ani vyhledávání charakteristických rysů tváře jako jsou oči, nos či ústa. V rámci této byl vytvořen program, který rozpoznává osoby podle obličeje, přičemž umožňuje porovnání jednotlivých metod, jak tohoto dosáhnout. Rozpoznávání je možné ve dvou variantách, kdy buď program testovanou osobu vždy považuje za subjekt nacházející se v databázi, nebo s možností určení testované osoby jako neznámé. Je tedy možno jej zároveň použít jako identifikační i jako verifikační systém. Práce je rozdělena tématicky na 3 části, kdy v první je uveden teoretický přehled problematiky rozpoznávání. Jsou zde uvedeny možné způsoby využití biometrických systémů, dále problémy a překážky, které tuto problematiku komplikují, obecný postup rozpoznávání pomocí statistických metod a popis pojmu transformační prostor. Další část je zaměřena na popis konkrétních algoritmů, které byly v softwarové části implementovány. Jedná se o metody se statistickým přístupem rozpoznávání, kdy v obrázcích nejsou vyhledávány typické body a jejich vzdálenosti jako v případě strukturálních metod, ale naopak je obrázek posuzován globálně podle celkového vzezření. Tyto metody nabízejí velmi dobrý poměr mezi efektivitou a složitostí, danou náročností implementace a časem potřebným pro korektní identifikaci. Poslední část je experimentálně zaměřena. Zde jsou jednotlivé algoritmy porovnávány a cílem je posoudit řadu atributů určujících jejich efektivitu. Těmi jsou např. závislost na zvolené metrice, robustnost vůči změnám osvětlení nebo necitlivost na vnitřní variabilitu, kterou tvoří např. emoce apod. Zároveň je zkoumán vliv volby prahové hodnoty, která se zavádí pro rozpoznávání s možností identifikace testované osoby za neznámou.
- ItemRozpoznávání vzorů v obraze(Technická Univerzita v Liberci, 2011) Paleček, Karel; Chaloupka, JosefTato práce se zabývá problematikou vyhledávání a rozpoznávání vzorů v obraze. V její první části byla vytvořena rešerže metod, která popisuje současný stav této problematiky. Algoritmy jsou zde rozděleny do tří skupin na metody založené na postupném prohledávání, geometrické metody a metody založené na lokálních deskriptorech. Každá z těchto skupin je poté zkoumána a jsou posuzovány výhody a nevýhody konkrétních metod. Na základě této rešerže jsou poté vybrány a detailně popsány algoritmy vhodné pro řešení automatického vyhledávání a rozpoznávání vzorů v obraze. Je zde pospána metoda Speeded Up Robust Features (SURF), sloužící k vyhledávání zájmových bodů, jsou posuzovány a popsány metody náhodnostních k-d stromů a hierarchických k-means stromů pro efektivní vyhledávání nejbližšího souseda ve velké databázi, jsou zde vysvětleny pojmy afinní a projektivní transformace a jejich odhad z nalezených dvojic párů pomocí metod Random Sample Consensus (RANSAC) a nejmenšího mediánu čtverců (Least Median of Squares, LMS). V praktické části jsou implementované algoritmy otestovány na databázi několika desítek objetků a je vyhodnocena celková úspěšnost systému. Dále je demonstrováno využití algoritmů pro autmatické vyhledávání reklamních log. V rámci této práce je také vytvořen počítačový program s grafickým uživatelským rozhraním, který umožňuje efektivní vyhledávání zadaných vzorů na testovacích obrázcích, přičemž je určena pozice, orientace a měřítko hledaného vzoru a zárověň je odhadnuta geometrická transformace aproximující případné otočení vzoru v prostoru a to až do přibližného úhlu 30°.