Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/51947
Arquivos associados a este item:
Arquivo TamanhoFormato 
NilsonDonizeteGuerinJunior_TESE.pdf59,41 MBAdobe PDFVisualizar/Abrir
Título: Autoencoder-based image compression with target bitrate constraint
Outros títulos: Compressão de imagens com controle de taxa baseado em autoencoders
Autor(es): Guerin Junior, Nilson Donizete
Orientador(es): Espinoza, Bruno Luiggi Macchiavello
Assunto: Codificação de imagem
Redes neurais (Computação)
Controle de taxa
Compressão neural
Aprendizado por reforço
Parâmetros adaptativos de perda
Data de publicação: 17-Mar-2025
Referência: GUERIN JUNIOR, Nilson Donizete Guerin. Autoencoder-Based Image Compression with Target Bitrate Constraint. 2024. 194 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2024.
Resumo: A compressão de imagens baseada em aprendizado tem se tornado uma alternativa promissora às técnicas tradicionais de codificação. Os codecs neurais evoluíram rapidamente, superando muitas vezes os métodos clássicos. Abordagens como autoencoders variacionais e redes neurais recorrentes têm demonstrado eficiência na otimização do equilíbrio entre taxa de compressão e qualidade da imagem. O controle de taxa é uma necessidade em várias aplicações de codificação de imagens. No entanto, alcançar esse controle de forma consistente e com impacto mínimo na qualidade da imagem ainda é um desafio. Geralmente, codecs com perdas precisam de vários modelos treinados para diferentes níveis de qualidade. Apesar de avanços para tornar os modelos mais flexíveis, permitindo múltiplos pontos de taxa-distorção, o problema de controle de taxa consistente — onde um único modelo entrega a taxa desejada para qualquer imagem — é pouco explorado. Neste trabalho, propomos uma solução eficiente para realizar controle de taxa em um único modelo baseado em aprendizado. Nossa abordagem modifica a função de perda do autoencoder durante o treinamento. Além disso, inspirados pela área de aprendizado por reforço, adicionamos uma estratégia temporal-adaptativa, que incorpora ajustes dinâmicos ao longo do tempo, tornando o treinamento mais robusto. Os resultados em bases de dados como Kodak e JPEG AI mostram que nossos modelos atingem controle de taxa com perdas mínimas nas métricas Índice Estrutural de Similaridade (SSIM, do inglês Structural Similarity Index) e Índice Estrutural de Similaridade Multi-Escala (MS-SSIM, do inglês Multi-Scale Structural Similarity Index). Observamos uma leve redução na Razão Pico-Sinal-Ruído (PSNR, do inglês Peak Signal-to-Noise Ratio) em comparação com modelos variacionais tradicionais que otimizam como perda a função de taxa-distorção.
Abstract: Learning-based image compression is emerging as a competitive alternative to conventional image coding techniques. Neural image coding has advanced significantly, evolving from struggling to match classical codecs to often surpassing them. Techniques such as variational autoencoders and recurrent neural networks have shown promise in optimizing the rate-distortion trade-off while preserving image content. Rate control is a critical feature, often a requirement for several still image coding applications. Achieving rate control for every input with minimal impact on rate-distortion performance remains challenging. Typically, learning-based lossy codecs need multiple trained models for different quality requirements. Although initiatives have aimed to enhance model flexibility by incorporating various rate-distortion points, the problem of consistent rate control—where a model achieves a specific rate across all compressed images—remains underexplored and poorly understood. This work proposes a non-constrained solution to the constrained problem of training a learning-based image codec for a specific bitrate. The solution involves modifying the loss function for autoencoder optimization. Additionally, inspired by reinforcement learning, a temporal-adaptive approach is introduced, which incorporates temporal behavior into the loss function, making the training process more robust against optimization challenges. Experiments conducted on the Kodak and JPEG AI datasets demonstrate that autoencoders trained with the proposed loss functions can achieve rateconstrained encoding with negligible losses in Structural Similarity Index Measure (SSIM) and Multi-scale Structural Similarity Index Measure (MS-SSIM). Some deterioration in peak signal-to-noise ratio (PSNR) is observed compared to the variational baseline architectures. However, this trade-off is expected, as restricted optimization scenarios are inherently more challenging than unrestricted ones.
Unidade Acadêmica: Instituto de Ciências Exatas (IE)
Departamento de Ciência da Computação (IE CIC)
Programa de pós-graduação: Programa de Pós-Graduação em Informática
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.