Distribuovaný web crawler

Title Alternative:Distributed webcrawler
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Technická Univerzita v Liberci
Broad web search engines as well as other specialized tools used for data retrieval from the WWW use web crawlers to create large collections of web pages. This thesis deals with the creation of distributed web crawler. In the first part of the thesis the architecture of distributed Web crawler is created. Emphasis is placed on the issue of creating distributed applications and their management. The second part describes the developed distributed Web crawler and applied technologies. The basis of the application is multithreaded URL server that manages distributed web crawlers to client computers. Client / server communication is based on SOAP and file transfers provides an FTP server. Finally the possibilities of developed distributed web crawler are be presented in a few tests and the user manual is included.
Webové prohlížeče, stejně jako další specializované nástroje pro získávání dat z WWW, používají web crawlery k vytváření rozsáhlých kolekcí webových stránek. Diplomová práce se zabývá vytvořením distribuovaného web crawleru. První částí práce je návrh architektury distribuovaného web crawleru. Důraz je kladen na problematiku tvorby distribuovaných aplikací a jejich řízení. Ve druhé části práce je popsán vytvořený distribuovaný web crawler a použité technologie. Základem aplikace je vícevláknový URL server řídící web crawlery distribuované na klientských počítačích. Klient / server komunikace je řešena pomocí SOAP protokolu a o přenos souborů se stará FTP server. V závěru práce jsou provedeny testy demonstrující schopnosti distribuovaného web crawleru a je vytvořen obslužný manuál.
katedra: NTI; přílohy: CD ROM; rozsah: 67 s.
distributed computing, python, soap, multithreading, web crawler, web services, world wide web, distribuované programování, python, soap, více-vláknové programování, web crawler, webové služby, world wide web