Aprendizagem estatística para recuperação da informação

Rodrigues, Edmilson Faria

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/2399

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2008_EdmilsonFariaRodrigues.pdf	Dissertação de Edmilson Faria Rodrigues	666,91 kB	Adobe PDF	Visualizar/Abrir

Título:	Aprendizagem estatística para recuperação da informação
Autor(es):	Rodrigues, Edmilson Faria
Orientador(es):	Ladeira, Marcelo
Assunto:	Recuperação da informação Sistemas de recuperação da informação Tratamento estatístico da linguagem
Data de publicação:	1-dez-2009
Data de defesa:	fev-2008
Referência:	RODRIGUES, Edmilson Faria. Aprendizagem estatística para recuperação da informação. 2008. 63 f. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2008.
Resumo:	A recuperação da informação pode ser entendida como uma área da ciência que se dedica ao estudo de técnicas de armazenamento de documentos e de recuperação de informação neles contidas, utilizando ou não metadados que os descrevem. Nos dias atuais em que as ferramentas de busca na Internet tornaram possível pesquisar documentos produzidos pelo mundo inteiro, o acesso à informação relevante torna a precisão na recuperação da informação uma demanda que ganha cada vez mais importância. Da necessidade do Tribunal de Contas da União de melhorar os resultados da precisão e da revocação da sua pesquisa textual jurisprudencial nasceu a motivação para o presente trabalho. A precisão é o percentual de documentos relevantes em relação ao número de documentos retornados na consulta [Kent et al., 1955]. A revocação é o percentual de documentos relevantes em relação ao número de documentos relevantes do corpus de documentos [Kent et al., 1955]. Os mecanismos de recuperação da informação devem ser capazes de auxiliar o usuário que, em geral, não tem conhecimento da forma exata em que ocorrem os termos nos documentos que contém a informação que procura. Um esforço que tem sido feito no sentido de contornar esse problema é a utilização de ontologias ou tesauros para ampliar a consulta solicitada pelo usuário [Miller, 1990]. No entanto, essa alternativa envolve um esforço em recursos humanos, financeiro e tempo muito grande para a construção dessas estruturas. Nessa pesquisa é proposta a utilização de um modelo estatístico da linguagem, derivado da tradução estatística da linguagem [Brown et al.,1993], para ampliar a consulta solicitada pelo usuário. Nessa abordagem é utilizado um algoritmo de EM (do inglês, Expectation Maximization) [Dempster, Laird & Rubin, 1977] para estimar índices de similaridades entre termos dos documentos. Nesta abordagem, cada consulta retorna os documentos contendo os termos nela contidos e os termos que são similares àqueles. Com essa metodologia, espera-se melhorar a precisão sem reduzir a revocação. Para permitir uma avaliação experimental com corpus com milhares de documentos, o algoritmo EM foi alterado para permitir a manipulação de matrizes esparsas e gerência de memória virtual. Foram introduzidas alterações na ferramenta aberta de recuperação de informação Terrier [Ounis et al. 2006] visando permitir que a indexação e recuperação considerem similaridades. Os experimentos realizados consideram corpora em língua inglesa (Medline e CFC) para permitir utilizar a metodologia de avaliação da TREC (Text Retrieval Conference). Foram também realizados experimentos em língua portuguesa (corpus CETEN-Folha) mas para eles não foi possível aplicar a metodologia de avaliação internacional. Os resultados obtidos até o momento são iniciais e não permitem afirmar que a utilização da metodologia proposta no sistema de recuperação de textos do TCU possa superar o desempenho do sistema atual. No entanto, espera-se uma melhora potencial visto que os resultados obtidos com os corpora da TREC são relativamente próximos aos obtidos com os melhores algoritmos de recuperação implementados no Terrier. _______________________________________________________________________________ ABSTRACT Information retrieval(IR) is the science of searching for information in documents, searching for documents themselves, searching for metadata which describe documents, or searching within databases. Nowadays, when search engines make worldwide browsing an ubiquitous activity, there is a growing demand for precise information retrieval. The motivation for the present work results from the Brazilian Court of Audit (from portuguese, TCU) requirements for achieving better results in terms of precision and recall of its information retrieval systems. Precision is measured as the fraction of documents retrieved that are relevant to the user's information need [Kent et al., 1955]. Recall is the fraction of documents that are relevant to the query that are successfully retrieved [Kent et al., 1955]. The retrieval mechanisms of information retrieval must be able to support the user that, in general, doesn't know the exact word used in relevant documents to express the information needed. The use of an ontology such as WordNet [Miller, 1990] is a popular approach for addressing this issue. However, this approach implies in a huge effort by human specialists to build these structures. In the present survey, our approach is the use of an language model derived from statistical machine translation [Brown et al., 1993] to expand the user's queries. We use Expectation Maximization algorithm [Dempster, Laird & Rubin, 1977] to estimate the similarities between terms within the documents. In this approach , each query retrieves not only the documents that contain the terms of the query but also the terms that are similar to them. With this methodology we hope to increase precision without decreasing recall. To Allow for experimental evaluation on a corpus with thousands of documents, the EM algorithm was modified to allow the handling of sparse matrix and virtual memory management. The open platform fo Information Retrieval, Terrier [Ounis at al. 2006], was modified in order to enable similaritires to be handled by the indexing and retrieval modules. The accomplished experiments used corpora in english language (Medline and CFC) to allow the application of TREC international evaluation methodology. The results achieved so far are preliminary and cannot yet support the claim of having provide substantial improvements to the TCU's information retrieval systems. Nevertheless, we hope a substantial improvement on these systems as far as the results obtained so far with TREC english corpora are comparable to those obtained with the state-of-the-art theoretically-founded models for IR that Terrier implements.
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Informações adicionais:	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2008.
Programa de pós-graduação:	Programa de Pós-Graduação em Informática
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas