Campo DC | Valor | Idioma |
dc.contributor.advisor | Treptow, Werner L. | - |
dc.contributor.author | Pontes, Camila Ferreira Thé | - |
dc.date.accessioned | 2021-06-16T18:53:13Z | - |
dc.date.available | 2021-06-16T18:53:13Z | - |
dc.date.issued | 2021-06-16 | - |
dc.date.submitted | 2021-03-16 | - |
dc.identifier.citation | PONTES, Camila Ferreira Thé. Assessing the utility of mutual information stored in protein-protein interfaces to infer specific protein partners. 2021. 103 f., il. Tese (Doutorado em Biologia Molecular)—Universidade de Brasília, Brasília, 2021. | pt_BR |
dc.identifier.uri | https://repositorio.unb.br/handle/10482/41184 | - |
dc.description | Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Biológicas, Departamento de Biologia Celular, Programa de Pós-Graduação em Biologia Molecular, 2021. | pt_BR |
dc.description.abstract | Proteínas são essenciais para diversos processos celulares. Assim, um dos objetivos centrais da Biologia é
entender as relações entre sequência, estrutura e função dessas macromoléculas. Nesse contexto, as
marcas deixadas pelo processo coevolutivo em sequências de proteínas parceiras são uma importante fonte
de informação estrutural. De fato, as correlações estatísticas entre sítios de aminoácidos em sequências de
proteínas são a base dos métodos mais modernos para a previsão de contatos inter- e intra-proteínas,
predição de estrutura tridimensional, identificação de sítios funcionais e resíduos determinantes de
especificidade, inferência de interações entre parálogos, entre outras aplicações. Em consonância com isso,
o presente trabalho apresenta um conjunto de resultados teóricos sobre como proteínas parceiras
específicas podem ser recuperadas com base apenas nas informações da sequência. No primeiro capítulo,
é realizada uma decomposição da informação mútua (MI) presente nos complexos proteína-proteína,
considerando a hipótese de que a MI em proteínas se origina de uma combinação de diferentes fontes:
coevolutiva, evolutiva e estocástica. Foi observado que a interface contém, em média por contato, mais
informações do que o restante do complexo protéico, resultado que se mantém quando se considera tanto a
MI de Shannon quanto a de Tsallis como medida de informação. Essa observação levou à conclusão de que
a interface contém o sinal de informação mais forte para distinguir o conjunto correto de proteínas parceiras
em famílias de proteínas que interagem. Com base nisso, a utilidade de usar a MI armazenada em
interfaces proteína-proteína para recuperar o conjunto correto de proteínas parceiras é avaliada no segundo
capítulo. Um algoritmo genético (GA) foi desenvolvido para explorar o espaço de possíveis concatenações
entre um par de famílias de proteínas que interagem usando a MI da interface como função objetivo.
Usando o GA, a maximização da MI da interface foi realizada para 26 pares de famílias de proteínas que
interagem e foi observado que concatenações otimizadas correspondem a soluções degeneradas com duas
fontes de erro distintas, decorrentes de pareamentos errados entre (i) sequências similares e (ii) não
similares. Quando os erros cometidos com sequências semelhantes foram desconsiderados, as soluções do
tipo (i) apresentaram taxas de verdadeiros positivos (TP) de 70 % - muito acima das mesmas estimativas
para soluções do tipo (ii). Esses resultados se mantêm quando as otimizações são feitas com base na MI de
Tsallis. Essas descobertas levantam questões sobre os mecanismos por trás da coevolução de proteínas
parceiras e ajudam a racionalizar os dados da literatura que mostram uma forte deterioração das taxas de
TP com o aumento do número de sequência em abordagens baseadas em MI. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). | pt_BR |
dc.language.iso | Inglês | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Assessing the utility of mutual information stored in protein-protein interfaces to infer specific protein partners | pt_BR |
dc.type | Tese | pt_BR |
dc.subject.keyword | Interação proteína-proteína | pt_BR |
dc.subject.keyword | Coevolução de proteínas | pt_BR |
dc.subject.keyword | Informação mútua | pt_BR |
dc.subject.keyword | Interface proteica | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições:Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | Proteins are essential for several cellular processes. Hence, one of the central objectives in Biology is to
understand the relationships between sequence, structure and function of these macromolecules. In this
context, marks left by the coevolutionary process in interacting protein sequences are an important source of
structural information. In fact, statistical correlations between amino acid sites in protein sequences are at
the basis of state-of-the-art methods for prediction of inter- and intra-protein contacts, template-free structure
prediction, identification of functional sites and specificity determining residues, inference of interacting
paralogs, among other applications. In line with that, the present work conveys a set of theoretical results on
how specific protein partners can be recovered based on sequence information alone. In the first chapter, a
decomposition of the mutual information (MI) present in protein-protein complexes is carried out, considering
the hypothesis that MI in proteins is originated from a combination of coevolutive, evolutive and stochastic
sources. It was observed that the interface contains on average, by contact, more information than the rest of
the protein complex, a result that holds when considering both Shannon and Tsallis MI as a measure of
information. This observation led to the conclusion that the interface contains the strongest information signal
for distinguishing the correct set of protein partners in interacting protein families. Building on that, the utility
of using MI encoded on protein-protein interfaces to recover the correct set of protein partners is assessed in
the second chapter. A genetic algorithm (GA) was developed to explore the space of possible concatenations
between a pair of interacting protein families using the interface MI as objective function. Using the GA,
interface MI maximization was performed for 26 different pairs of interacting protein families and it was
observed that optimized concatenations corresponded to degenerate solutions with two distinct error
sources, arising from mismatches among (i) similar and (ii) non-similar sequences. When mistakes made
among similar sequences were disregarded, type-(i) solutions were found to resolve correct pairings at best
true positive (TP) rates of 70% - far above the very same estimates in type-(ii) solutions. These results hold
when the optimizations are made based on Tsallis MI. These findings raise further questions about the
mechanisms behind protein partners coevolution and help rationalize literature data showing a sharp
deterioration of TP rates with increasing sequence number in MI-based approaches. | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|