Tratamento automático de ambigüidades na recuperação da informação

Medeiros, Marisa Bräscher Basílio

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/34370

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
1999_MarisaBrascherBasilioMedeiros.pdf Restrito		10,38 MB	Adobe PDF	Acesso Restrito

Título:	Tratamento automático de ambigüidades na recuperação da informação
Autor(es):	Medeiros, Marisa Bräscher Basílio
Orientador(es):	Faulstich, Enilde Leite de Jesus
Coorientador(es):	Zinglé, Henri
Assunto:	Recuperação da informação Processamento de linguagem natural (Computação) Análise documentária Ambiguidade
Data de publicação:	16-Abr-2019
Data de defesa:	15-Jul-1999
Referência:	MEDEIROS, Marisa Bräscher Basílio. Tratamento automático de ambigüidades na recuperação da informação. 1999. xvii, 290 f., il. Tese (Doutorado em Ciência da Informação)—Universidade de Brasília, Brasília, 1999.
Resumo:	Este estudo trata da ambigüidade morfológica e lexical, mais especificamente da policategorização, da homografia e da polissemia. A pesquisa tem como objetivo geral solucionar casos de ambigüidades em textos científicos e técnicos em língua portuguesa (variante brasileira), por meio de um sistema de tratamento automático da linguagem natural, com vistas a promover maior precisão na recuperação da informação. Procura-se responder a duas questões básicas: como solucionar as ambigüidades que ocorrem em textos científicos e técnicos em língua portuguesa e que interferem na recuperação da informação e como introduzir informações semânticas num sistema de tratamento automático da linguagem natural, de maneira a possibilitar a solução destas ambigüidades. Discutem-se questões relativas à extração de informações contidas em textos completos e posterior recuperação, por meio de métodos de tratamento automático da linguagem natural. Além da extração de palavras do texto, procura-se manter as relações de significado que estas palavras possuem no contexto do discurso em que ocorrem. Os sistemas de recuperação de informação em linguagem natural devem ser capazes de tratar determinados fenômenos lingüísticos que afetam a qualidade da recuperação e necessitam, portanto, da incorporação de um sistema completo de tratamento da linguagem, constituído de componentes morfológicos, lexicais, sintáticos, semânticos e pragmáticos. Os aspectos semânticos devem ser contemplados para solucionar problemas não resolvidos pela análise sintática, como, por exemplo, o da ambigüidade. A ambigüidade causa ruído na recuperação da informação, pois, sob um mesmo termo, o usuário encontrará informação relevante e irrelevante. Como referenciai teórico-metodológico para efetuar a análise e organização sintático-semântica dos lemas incluídos no DICMER, utilizam-se a Gramática de Valências de Borba e a teoria de Gráficos Conceituais de Sowa. Emprega-se um sistema de tratamento automático da linguagem natural - o Zstation - e um corpus constituído de documentos oficiais do Mercosul, para operacionalização de dois tipos de tratamento de ambigüidade; tratamento automático de formas policategoriais e tratamento sintático-semântico de homografias e polissemias. Os resultados obtidos nos testes efetuados confirmam que a análise do co-texto possibilita resolver casos simples de policategorização, mesmo sem utilizar uma gramática formal muito complexa. Quanto ao tratamento de polissemias e homografias, conclui-se que um sistema de tratamento da linguagem natural pode solucionar determinados tipos de ambigüidades quando dispõe de informações relativas à valência sintático semântica das unidades lexicais que compõem um enunciado. Os resultados obtidos demonstram ser possível introduzir procedimentos automáticos de solução de ambigüidades em sistemas de tratamento da linguagem natural.
Abstract:	This study deals with the morphological and lexical ambiguities, more specifically with polycategorization, homograph and polysemy. The purpose of the research is to solve ambiguity cases in scientific and technical texts in the Portuguese language (the Brazilian variant) by means of an automatic natural ianguage treatment system, aimed at providing more precision in information retrieval. The dissertation attempís to answer two basic questions: how to solve the ambiguities found in scientific and technical texts in the Portuguese language that interfere in information retrieval and how to introduce semantic information in an automatic natura' language treatment system in order to solve these ambiguities. Issues reiative to information extraction from complete texts and subsequent retrieval by means of automatic natural language treatment methods are discussed. Besides extracting words from the text, the relationship of significance that these words have in the context of the speech in which they occur is attempted to be preserved. An information retrieval system using naíurai language should be able to treat given ünguistic phenomena that affect the quaiity of information retrieval and, for this reason, require the incorporation of a complete system for language treatment composed of morphoiogic, lexical, syntactic, semantic and pragmatic components. Semantic aspects should be considered in order to solve the problems that are not resolved by a syntactic analysis, such as, for instance, the issues of ambiguity. Ambiguity causes bedlam in information retrieval, since by using a single term the user can find both retevant and irrelevant information. The Valence Grammar and the Conceptua! Graphics are used as theoretical and methodologicai reterence to perform an analysis and to syntactically and semanticaily organize the iemma included in D1CMER. An automatic natural ianguage treatment system – Zstation - is utilized, as well as a pool of official documents concerning the Mercosul, for the operationalizing of two types of ambiguity: the automatic treatment of polycathegoric forms and the semantic-syntactic treatment of homographs and polysemies. The results obtained through tests performed confirm that the co-text analysis allows one to solve simple cases of polycategorization, even though not very complex formal grammar is used. As to the treatment of polysemies and homographs, the conclusion is reached that a natural language treatment system can solve certain types of ambiguities when information is available regarding the syntactic-semantic valence of the lexical units that compose an enunciation. The results obtained show that it is possible to introduce automatic procedures for solving ambiguities in a natural language treatment system.
Unidade Acadêmica:	Faculdade de Ciência da Informação (FCI)
Informações adicionais:	Tese (doutorado)—Universidade de Brasília, Faculdade de Estudos Sociais Aplicados, Departamento de Ciência da Informação e Documentação, Programa de Pós-Graduação em Ciência da Informação, 1999.
Programa de pós-graduação:	Programa de Pós-Graduação em Ciência da Informação
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas