Oprava překlepů dotazů zadávaných do vyhledávače za využití korpusové lingvistiky.

Nowak, Stanislav

Oprava překlepů dotazů zadávaných do vyhledávače za využití korpusové lingvistiky.

Title Alternative:Spell correction of web search queries

Files

mgr_14892.pdf(348.68 KB)

Date

2008-01-01

Authors

Nowak, Stanislav

Publisher

Technická Univerzita v Liberci

Abstract

Cílem práce bylo vytvořit korektor překlepů uživatelských dotazů zadávaných do internetového vyhledávače. Korektory překlepů v dotazech se využívají především pro zvýšení uživatelského komfortu při používání vyhledávače. Za svou současnou popularitu vděčí především vyhledávači společnosti Google. Dnes již patří korektor dotazů mezi standardní funkce a setkáme se s ním i na většině českých vyhledávačů. Korektor překlepů pro vyhledávač se od těch, které známe například z textových procesorů, liší v několika ohledech. Především jsou na něj kladeny podstatně vyšší výkonnostní nároky a rovněž se musí umět vypořádat se specifickým druhem jazyka dotazů zadávaných do vyhledávače. Diplomová práce staví na poznatcích statistické lingvistiky a byla řešena na základě bayesovského přístupu. Korektor se tak rozdělil na dvě samostatné části, a to jazykový a chybový model. Pro jazykové modelování byl využit stochastický n-gramový model. Chybový model je založen na principu minimální editační vzdálenosti a nejpravděpodobnějšího zarovnání řetězců. K trénovaní obou modelů byla použita data sestavená ze záznamů uživatelských dotazů zadávaných do vyhledávače společnosti Seznam.cz. Při testování dosáhl implementovaný korektor uspokojivých výsledků, přesto však zůstává prostor pro mnohá vylepšení.
The goal of this diploma thesis was to develop a spelling correction program of web search queries. The spelling correction of search queries is used to provide a richer user experience. Its current popularity was gained thanks to Google search engine. Nowadays the spelling correction became a standard feature of many search engines and we can see it at Czech search engines too. Search query correction differs from ones that we use for example in text processor in several ways. It must be able to deal with high performance requirements and also with a specific type of language of web search queries. The diploma thesis is based on computational linguistics and Bayesian approach. By using Bayesian method we get two separated components: language and error model. For the language model we use stochastic n-gram based model. The error model is based on minimal string distance and maximum probability alignment. For training of both models were used data build from search queries logs of Seznam.cz search engine. Testing shows satisfactory results however there are still several improvements that can be made.

Description

katedra: NTI; přílohy: 1 dvd; rozsah: 59 s.

Subject(s)

oprava překlepů, statistická lingvistika, zpracování přirozeného jazyka, vyhledávač, spell correction, computational linguistics, nlp, search engine

Item identifier

https://dspace.tul.cz/handle/15240/5802

Collections

Fakulta mechatroniky, informatiky a mezioborových studií

Show full item record