RIUnB >
23. IE - Instituto de Ciências Exatas >
CIC - Departamento de Ciência da Computação >
CIC - Programa de Pós-graduação  >
CIC - Mestrado em Informática (Dissertações) >

Utilize este link para identificar ou citar este item: http://repositorio.unb.br/handle/10482/22888

Arquivos neste item:

Arquivo Descrição TamanhoFormato
2016_IasminiVirgíniaOliveiraLima.pdf9,07 MBAdobe PDFver/abrir

Título: Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL
Autor(es): Lima, Iasmini Virgínia Oliveira
Orientador(es): Holanda, Maristela Terto de
Assunto: Banco de dados
Bioinformática
Armazenamento de dados
Data de publicação: 13-Mar-2017
Data de defesa: 2-Dez-2016
Referência: LIMA, Iasmini Virgínia Oliveira. Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL. 2016. xiv, 60 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2016.
Resumo: Projetos em Bioinformática são geralmente executados como workflows científicos. Os biólogos frequentemente podem executar o mesmo workflow diversas vezes com diferentes parâmetros. Estas execuções podem gerar um grande volume de arquivos com diferentes formatos, que precisam ser armazenados para futuras execuções. Dentre diversos sistemas de armazenamento de dados apresentados na literatura, novos modelos de bancos de dados têm sido definidos para armazenar grandes volumes de dados, os bancos de dados NoSQL (Not Only SQL), que surgiram da necessidade de uma alta escalabilidade e de um desempenho superior quando o volume de dados é muito grande. Nesse contexto, é proposta a análise do impacto da replicação de dados quando se utiliza bancos de dados NoSQL para o armazenamento dos diferentes formatos de arquivos resultantes da execução de workflows de Bioinformática. Foram executados três workflows de Bioinformática envolvendo diferentes formatos de dados, os quais foram utilizados para os testes nos bancos de dados NoSQL Cassandra e MongoDB, e em seguida é apresentada uma análise dessas execuções e testes. Os resultados obtidos mostraram que os tempos de inserção e extração dos dados são mínimos comparados aos tempos de execução dos workflows e portanto, os bancos de dados NoSQL mostraram ser uma boa opção para armazenamento e gerenciamento de dados biológicos.
Abstract: Projects in bioinformatics are generally executed as scientific workflows. The biologists often perform the same workflow several times with different parameters. These executions can generate a large volume of files with different formats, which need to be stored for future executions. Among several data storage systems presented in the literature, new database models have been defined to store large volumes of data, the NoSQL databases (Not Only SQL), which arose from the need for high scalability and superior performance when the data volume is too large. In this context, it is proposed to analyze the impact of data replication when using NoSQL databases for the storage of the different file formats resulting from the execution of bioinformatics workflows. Three bioinformatics workflows involving different data formats were executed, which were used for testing the NoSQL Cassandra and MongoDB databases, and then an analysis of those executions and tests is presented. The results show that the data insertion and extraction times are minimal compared to the execution times of the workflows, and therefore, the NoSQL databases have proved to be a good option for the storage and management of biological data.
Informações adicionais: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016.
Licença : A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece na Coleção:CIC - Mestrado em Informática (Dissertações)

Todos os itens no repositório estão protegidos por copyright. Todos os direitos reservados.

 

Site Creative Commons Site Oaister Sítio IBICT Universidade de Brasília
Sobre o Repositório  |  FAQ  |  Estatísticas |  Termo de Autorização do Autor
Copyright © 2008 MIT & HP. Todos os direitos reservados.