Skip navigation
Please use this identifier to cite or link to this item: http://repositorio.unb.br/handle/10482/1187
Files in This Item:
File Description SizeFormat 
DISSERTACAO_2008_GilbertoOliveiraHiragi.pdf874,13 kBAdobe PDFView/Open
Title: Mineração de dados em base de germoplasma
Authors: Hiragi, Gilberto de Oliveira
Orientador(es):: Ladeira, Marcelo
Assunto:: Base de germoplasma
Mineração de dados (Computação)
SIBRARGEN
Metodologia de mineração
CRISP/DM
HaDog
Issue Date: 11-Feb-2009
Citation: HIRAGI, Gilberto de Oliveira. Mineração de dados em base de germoplasma. 2008. 107 f. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2008.
Abstract: Os bancos de germoplasma do SIBRARGEN (Sistema Brasileiro de Informações em Recursos Genéticos) funcionam como um grande catálogo das espécies vegetais e de seus acessos (tipos característicos dentro de um grupo ou variabilidades dentro da espécie), contendo mais de 100 mil acessos catalogados. Esses bancos incluem a identificação do acesso (passaporte), descrição dos aspectos genótipos (caracterização) e descrição dos aspectos fenótipos (avaliação) e permitem aos pesquisadores dessa área realizarem consultas SQL mas recuperando apenas os dados armazenados, resultantes da resolução das expressões booleanas utilizadas como critérios de busca. Essas consultas não facilitam a descoberta de novos conhecimentos ou a construção de modelos de previsão ou descrição. Essa pesquisa propõe uma metodologia de mineração de dados, derivada do modelo de referência CRISP/DM, que auxilie a exploração dessas bases de dados por pesquisadores não vinculados à área de informática (por exemplo, biólogos ou agrônomos) visando facilitar a realização de tarefas previstas nas seguintes fases do CRISP/DM: entendimento do negócio, compreensão dos dados, preparação de dados, modelagem, avaliação dos modelos gerados e colocação em uso. Para materializar a metodologia proposta e automatizar a sua utilização por parte de não-informatas, foi implementada a ferramenta HaDog (Hiragi Approach for Data Mining of Germoplasm). HaDog foi implementada utilizando a linguagem Java, banco de dados Oracle® versão 10g release 2 e é acessível através de uma interface Web, disponível aos pesquisadores credenciados para acesso ao SIBRARGEN. A metodologia de mineração de germoplasma proposta foi avaliada de forma experimental através de dois estudos de casos conduzidos com o apoio de pesquisadores da Embrapa Recursos Genéticos e Biotecnologia: determinação de acessos representativos de uma espécie ou grupo de espécies e proposição de coletas direcionadas, ambos problemas típicos de interesse do curador (pesquisador responsável pelo banco de germoplasma de uma espécie). Essa avaliação experimental mostrou que é possível introduzir os especialistas na área na utilização de técnicas de mineração de dados na base de germoplasma sem requerem que eles se envolvam em atividades de programação. Os resultados experimentais obtidos até o momento demonstram que o HaDog pode se constituir em um importante facilitador para a mineração das bases do SIBRARGEN, visando, principalmente, a descoberta de novos conhecimentos pelos especialistas. _________________________________________________________________________________________ ABSTRACT
The banks of germplasm of the SIBRARGEN (Brazilian Information System in Genetic Resources) function as a great catalogue of the vegetal species and of its accesses (characteristic types inside of a group or variabilities inside of the species), contend more than 100 thousand catalogued accesses. These banks include the identification of the access (passport), description of the genotypes aspects (characterization) and phenotype description (evaluation) and allow researchers of this area to carry through SQL queries but recouping only the stored data, resultant of the resolution of the used boolean expressions as criteria search. These queries don’t facilitate to the discovery of new knowledge or the construction of forecast models or description. This research considers a data mining methodology, derived from the model of reference CRISP/DM, that assists the exploration of these databases for researchers tied with the computer science area (for example, biologists or agronomists) aiming to facilitate the accomplishment of tasks foreseen in the following phases of the CRISP/DM: business understanding, data understanding, data preparation, modeling, evaluation of the generated models and deployment. To materialize the methodology proposal and to automatize its use by people who aren’t of the computer science area, the HaDog tool was implemented (Hiragi Approach of Data Mining of Germplasm). HaDog was implemented using the Java language, database Oracle® version 10g release 2 and is accessible through a Web interface, available to the credential researchers for access to the SIBRARGEN. The methodology of mining of germplasm proposal was evaluated of experimental form through two studies of cases lead with the support of researchers of the Embrapa (Genetic Resources and Biotechnology: determination of representative accesses of a species or group of species and proposal of directed collections, both typical problems of interest of the custodian (responsible researcher for the Bank of germplasm of a species). This experimental evaluation showed that it is possible to introduce the specialists in the area in the use of techniques of mining of data in the base of germplasm without require that they become involved themselves in activities of programming. The experimental results obtained so far show that HaDog can be a major facilitator for the mining of foundations of SIBRARGEN, targeting mainly, the discovery of new knowledge by specialists.
Description: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2008.
Appears in Collections:CIC - Mestrado em Informática (Dissertações)

Show full item record Recommend this item " class="statisticsLink btn btn-primary" href="/handle/10482/1187/statistics">



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.