Campo DC | Valor | Idioma |
dc.contributor.advisor | Campos, Teófilo Emídio de | - |
dc.contributor.author | Guth, Frederico | - |
dc.date.accessioned | 2022-05-18T22:37:13Z | - |
dc.date.available | 2022-05-18T22:37:13Z | - |
dc.date.issued | 2022-05-18 | - |
dc.date.submitted | 2022-01-20 | - |
dc.identifier.citation | GUTH, Frederico. The emergence of an information bottleneck teory of deep learning. 2022. xxv, 179 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2022. | pt_BR |
dc.identifier.uri | https://repositorio.unb.br/handle/10482/43742 | - |
dc.description | Dissertação (Mestrado em Informática) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Brasília, 2022. | pt_BR |
dc.description.abstract | Na última década, assistimos estupefatos uma miríade de sucessos em
Aprendizagem Profunda (Deep Learning (DL)). Apesar de tamanho
sucesso, talvez estejamos subindo um pico de expectativas infiadas.
No passado, incorremos no erro de tentar resolver problemas com
maior poder computacional, hoje estamos fazendo o mesmo tentando usar cada vez mais dados. Tal comportamento desencadeou
uma corrida por bases de dados de treinamento entre grandes corporações, suscitando preocupações sobre privacidade e concentração
de poder. É fato, entretanto, que aprender com muito menos dados
é possível: humanos demonstram uma habilidade de generalização
muito superior ao estado-da-arte atual em Inteligência Artificial.
Para atingir tal capacidade, precisamos entender melhor como
o aprendizado ocorre em Deep Learning. A prática tem se desenvolvido mais rapidamente que a teoria na área. Em particular, Zhang
et al. demonstraram que modelos de deep learning são capazes de
memorizar rótulos aleatórios, ainda assim apresentam alto poder de
generalização [Zha+16]. A atual teoria de aprendizado de máquinas não explica tal poder de generalização em modelos superparametrizados. Em 2015, Na ali Tishby e Noga Zaslavsky publicaram uma teoria
de aprendizado baseado no princípio do gargalo de informação (information bottleneck) [TZ15a]. Tal teoria sucitou interesse e desconfiança pela academia, tendo vários de seus artigos primordiais sido
contestados em artigos posteriores. Esta dissertação visa investigar
esforços esparços do uso do princípio do gargalo para explicar a capacidade de generalização de redes neurais profundas e consolidar
tal conhecimento em um compêndio deste novo desenvolvimento
teórico denominado Teoria do Gargalo de Informação (Information
Bottleneck Teory (IBT)) que mostre seus pontos fortes e fracos e
oportunidades de pesquisa. a busca dos fundamentos
Nesta investigação, partimos de uma discussão filosófica sobre o que
é inteligência e o que significa aprender (Capítulo 2) e, passo a passo
(Capítulos 3 a 5), mostramos em que fundamentos a teoria vingente de
aprendizado de máquinas (Machine Learning Teory (MLT)), assim como a emergente (Information Bottleneck Teory (IBT)) se apoiam.
Pudemos assim perceber que ambas teorias se baseiam em um conjunto muito similar de premissas. A maior diferença é que Information
Bottleneck Teory (IBT) assume o uso de variáveis aleatórias discretas
de espaços finitos. Entretanto, tal limitação não é significativa, uma vez
que pesquisas já demonstraram que é possível tornar o erro de quantização arbitrariamente pequeno conquanto haja memória para tanto [Ris86; HVC93]. Além disso, Information Bottleneck Teory (IBT) não invalida nenhum resultado de Machine Learning Teory (MLT),
pelo contrário, apresenta uma nova narrativa que nos permite conciliar os resultados teóricos com os fenômenos observados, quando
medimos complexidade como a quantidade de informação nos pesos
de um modelo, e não a sua quantidade de parâmetros.
Essa investigação nos permitiu sintetizar o desenvolvimento teórico
em Teoria da Informação (Information Teory (IT)) e Machine LearningTeory (MLT) em uma abodagem que denominamos PAC-Shannon
(Capítulo 6) em que partimos dos teoremas fundamentais de Shannon em Information Teory (IT) e provamos limites para erro de
generalização em aprendizado.
explicando a nova teoria
Tishby propôs que vejamos aprendizado como um problema de codi-
ficação (Capítulo 7). Nessa perspectiva, os dados de entrada contém
informação de um alvo, uma variável rótulo, a qual não temos acesso;
o problema de aprendizado é encontrar o codificador-decodificador
que explique nossos nossos dados de treinamento; o conjunto de dados (dataset) de treinamento é a definição da tarefa (padronagem
estrutural dos dados) que se quer aprender. Em Information Bottleneck Teory (IBT), generalização não depende do espaço de hipóteses
do modelo, mas apenas dos limites de compressibilidade do dataset. Limites esses definidos pelos teoremas de Shannon (Capítulo 5).
Enquanto Teoria do Aprendizado de Máquina (MLT) é agnóstica à
distribuição dos dados e modelo-dependente, Information Bottleneck
Teory (IBT) é agnóstica ao modelo e distribuição-dependente. Esta
perspectiva, se relaciona perfeitamente com a teoria algorítimica da
informação (complexidade de Kolmogorov-Chaitin) (Seção 5.8.1).
Essa visão de informação como medida de complexidade, nos
permite analisar o treinamento enquanto ele acontece. Ou seja, para
aqueles que se sentem desconfotáveis com o fato da teoria corrente ver
modelos como uma caixa-preta, onde só se analisa a entrada e a saída,
medidas de informação nos permitem entender o que ocorre durante o treinamento. Essa análise leva à surpreendente conclusão de que o
aprendizado tem duas fases distintas: uma fase de ajuste e outra de
compressão. Primeiro, na fase de ajuste, o modelo memoriza os dados,
minimizando rapidamente o erro e usando muita informação que
é peculiar apenas ao dataset utilizado e não à variável-alvo; na fase
posterior de compressão, o modelo tenta esquecer o máximo possível
sobre os dados de entrada enquanto mantém a informação sobre o
alvo, reduzindo a quantidade de informação no modelo.
pontos fortes e fracos e de oportunidade em ibt
Partindo do princípio do gargalo de Teoria da Informação demonstramos a coesão interna desta narrativa alternativa (Capítulo 8), e
mostramos o embasamento teórico de práticas em Aprendizagem
Profunda, como o uso de Entropia Cruzada como função custo na
otimização de modelos; e seus fenômenos, como a generalização
de modelos superparametrizados e períodos críticos de aprendizado [ARS17](Capítulo 9). A Information Bottleneck Teory (IBT), entretanto, está longe de
ser um desenvolvimento teórico completo. Falta de rigor, definição
e objetivos claros em alguns dos seus artigos científicos primeiros
deram razão ao ceticismo e até discrédito em que a teoria passou a
ser vista. O trabalho de Achille e Soatto (Capítulos 8 e 9) foi menos
ambicioso em suas alegações e mais rigoroso, resolvendo alguns dos
problemas da apresentação inicial da teoria, mas não se propõe a ser
completo. A presente dissertação também presta a esse papel de dar
um pouco mais de rigor e clareza aos princípios assumidos, mas há
ainda muito o que se desenvolver:
Formulação PAC: seria possível criar uma formulação PAC que dependa apenas de β, uma vez que esse parâmetro representa um
único limite (є, δ).
Novas estratégias de otimização: se o treinamento tem duas fases
como preconiza Information Bottleneck Teory (IBT), isso nos
permite usar estratégias de otimização diferenciadas para cada
uma.
Transferência de Aprendizado: se, em Information Bottleneck Teory (IBT), complexidade depende apenas da compressibilidade
do dataset e de um nível desejado de performance e generalização (β), podemos analisar a complexidade de datasets e
montar uma topologia de tarefas com a predição da similariedade (distância) entre datasets e relacionar tais resultados
teóricos com resultados empíricos como os obtidos por Zamir et al. [Zam+18]. Processos ergódicos: os princípios de teoria da informação não requerem
amostragem independentes e identicamente distribuídas, mas
apenas que sejam processos ergódicos.
Conexão com mecânica estatística: a área de Mecânica Estatística
já se desenvolve em Física há mais de um século. A conexão
de aprendizado de máquina com teoria da informação permite
a exploração de resultados nessa área de Física (como fizeram [CS18; Cha+19a]). Em resumo, a presente dissertação foi capaz de estabelecer que
Information Bottleneck Teory (IBT) está longe de ser uma teoria
rigorosa e completa, mas que é uma interessante teoria emergente que
apresenta ainda muitas oportunidades de pesquisa e merece atenção. | pt_BR |
dc.description.sponsorship | Fundação de Apoio à Pesquisa do Distrito Federal (FAP/DF). | pt_BR |
dc.language.iso | Português | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | The emergence of an information bottleneck teory of deep learning | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Aprendizagem profunda | pt_BR |
dc.subject.keyword | Inteligência artificial | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | In the last decade, we have witnessed a myriad of astonishing successes
in Deep Learning. Despite those many successes, we may again be
climbing a peak of in ated expectations. In the past, the false solution
was to “add computation power on problems”, today we try “piling
data”. Such behaviour has triggered a winner-takes-all rush for data
among a handful of large corporations, raising concerns about privacy
and concentration of power. It is a known fact, however, that learning
from way fewer samples is possible: humans show a much better generalisation ability than the current state of the art arti cial intelligence.
To achieve such a feat, a better understanding of how generalisation
works is needed, in particular in deep neural networks. However, the
practice of modern machine learning has outpaced its theoretical
development. In particular, “traditional measures of model complexity
struggle to explain the generalization ability of large arti cial neural
networks” [Zha+16]. ¿ere is yet no established new general theory of learning which handles this pseudo-paradox. In 2015, Na ali Tishby
and Noga Zaslavsky published a seminal theory of learning based
on the information-theoretical concept of the bottleneck principle
with the potential of lling this gap. ¿is dissertation aims to investigate the e orts using the information bottleneck principle to explain
the generalisation capabilities of deep neural networks, consolidate
them into a comprehensive digest and analyse its relation to current
machine learning theory. | pt_BR |
dc.contributor.email | fredguth@fredguth.com | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Informática | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|