Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codiﬁcadores longos e RNAs codiﬁcadores de proteínas

Kümmel, Bruno Couto

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Walter, Maria Emília Machado Telles	-
dc.contributor.author	Kümmel, Bruno Couto	-
dc.date.accessioned	2018-04-12T19:37:08Z	-
dc.date.available	2018-04-12T19:37:08Z	-
dc.date.issued	2018-04-12	-
dc.date.submitted	2017-12-12	-
dc.identifier.citation	KÜMMEL, Bruno Couto. Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codiﬁcadores longos e RNAs codiﬁcadores de proteínas. 2017. xviii, 101 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2017.	pt_BR
dc.identifier.uri	http://repositorio.unb.br/handle/10482/31651	-
dc.description	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017.	pt_BR
dc.description.abstract	RNAs não-codiﬁcadores longos (long non-coding RNA - lncRNAs) constitui uma classe heterogênea de RNAs que agrega transcritos com pouca capacidade de codiﬁcar proteínas e que possuem mais de 200 nucleotídeos em sua composição. Estudos recentes apontam que essas moléculas possuem funções de regulação de processos biológicos importantes dentro das células. Sabe-se também que o nível de expressão dos lncRNAs está correlacionado com diversas doenças genéticas, tais como câncer e doenças neuro-degenerativas. Este trabalho apresenta um método para seleção das características mais relevantes para modelos de aprendizado de máquina aplicados ao problema de distinguir lncRNAs de transcritos codiﬁcadores de proteínas. O método proposto, denominadoSingle Score Feature Selection (S2FS), utilizou como características as frequências de 2-mers, 3-mers e 4-mers dos transcritos, para detectar aquelas mais relevantes para distinguir lncRNAs de transcritos codiﬁcadores de proteínas. As características identiﬁcadas pelo S2FS foram avaliadas nos datasets obtidos de repositórios públicos de transcritos RNAs codicadores de proteínas e de lncRNAs de Homo sapiens, Mus musculus e Danio rerio. Para o dataset de H. sapiens, também foi utilizada a característica da ORF mais longa de cada transcrito. Os resultados obtidos indicam que o S2FS identiﬁcou boas características para os modelos de predição de lncRNAs baseados em Random Forest. Nos modelos de classiﬁcação testados, as características selecionadas pelo S2FS possibilitaram resultados melhores do que as características selecionadas por um método de seleção univariada de características baseado no escore da função χ2.	pt_BR
dc.language.iso	Português	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codiﬁcadores longos e RNAs codiﬁcadores de proteínas	pt_BR
dc.type	Dissertação	pt_BR
dc.subject.keyword	RNAs não-codificadores	pt_BR
dc.subject.keyword	Aprendizagem de máquina	pt_BR
dc.subject.keyword	Proteínas - transcrição e codificação	pt_BR
dc.subject.keyword	lncRNAs	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.description.abstract1	Long non-coding RNA(lncRNAs) constitutes a heterogeneous class of RNAs that includes RNAs with more than 200 nucleotides and poor capacity for coding proteins. Recent studies have indicated that these molecules act on critical biological processes inside the cells. However, their expression levels are also correlated with a number of complex human diseases, such as cancer, neuro-degenerative diseases and others. This work proposes a method for feature selection for machine learning methods applied to the task of distinguishing lncRNAs from protein coding transcripts. The proposed method, called Single Score Feature Selection (S2FS), used as features the 2-mer, 3-mer and 4-mer frequencies of the transcripts, in order to detect those more relevant to distinguish lncRNAs from protein coding transcripts. The features identiﬁed by S2FS were evaluated on datasets obtained from public repositories of protein coding transcripts and lncRNAs of Homo Sapiens, Mus musculus and Danio rerio. For the H. sapiens dataset, the longest ORF of each transcript was also used as a feature. The obtained results show that the S2FS identiﬁed good features for the lncRNA prediction models based on Random Forest. In the tested classiﬁcation models, the selected features from S2FS enabled better performance results than the features selected by an univariate selection method based on the scores of a χ2 function.	pt_BR
dc.description.unidade	Instituto de Ciências Exatas (IE)	pt_BR
dc.description.unidade	Departamento de Ciência da Computação (IE CIC)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Informática	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado