Skip navigation
Please use this identifier to cite or link to this item: http://repositorio.unb.br/handle/10482/35306
Files in This Item:
File Description SizeFormat 
2019_HelardAlbertoBecerraMartinez.pdf10,75 MBAdobe PDFView/Open
Title: A three layer system for audio-visual quality assessment
Authors: Becerra Martinez, Helard Alberto
Orientador(es):: Farias, Mylene Christine Queiroz de
Assunto:: Qualidade audiovisual
Multimídia
Aprendizagem de máquina
Issue Date: 15-Aug-2019
Citation: BECERRA MARTINEZ, Helard Alberto. A three layer system for audio-visual quality assessment. 2019. xiii, 141 f., il. Tese (Doutorado em Informática)—Universidade de Brasília, Brasília, 2019.
Abstract: As métricas objetivas de avaliação de qualidade de sinais tem o objetivo de prever a qualidade dos sinais percebida pelo ser humano. Uma das áreas de qualidade de maior interesse nos últimos anos é o desenvolvimento de métricas de qualidade para sinais áudio-visuais. A maioria das propostas nesta área estão baseadas na aferição da qualidade individual das componentes de áudio e vídeo. Porém, o modelamento da complexa interação existente entre as componentes de áudio e vídeo ainda é um grande desafio. Nesta tese, o objetivo é desenvolver uma métrica, baseado em ferramentas de aprendizado de máquina (Machine Learning - ML), para a aferição da qualidade de sinais áudio-visuais. A proposta utiliza como entrada um conjunto de características descritivas das componentes de áudio e vídeo e aplica Deep Autoencoders para gerar um novo conjunto de características descritivas que representa a interação entre as componentes de áudio e vídeo. O modelo está composto por várias fases, que realizam diferentes tarefas. Primeiramente, são extraídos um conjunto de características descritivas que descrevem características das componentes de áudio e vídeo. Na próxima fase, um autoencoder de duas camadas produz um novo conjunto de características descritivas. Em seguida, uma função de classificação mapeia as características descritivas em escores de qualidade audiovisual. Para garantir a precisão nos resultados, o modelo é treinado utilizando um conjunto de dados que representa todos os artefatos considerados no modelo. O modelo foi testado tanto com no banco de dados gerado neste trabalho, como em uma base de dados extensa e pública. Os resultados mostraram que esta abordagem obtém predições de qualidade, cujos valores estão altamente correlacionadas com os escores de qualidade obtidos em experimentos subjetivos.
Abstract: The development of models for quality prediction of both audio and video signals is a fairly mature field. But, although several multimodal models have been proposed, the area of audiovisual quality prediction is still an emerging area. In fact, despite the reasonable performance obtained by combination and parametric metrics, currently there is no reliable pixel-based audiovisual quality metric. The approach presented in this work is based on the assumption that autoencoders, fed with descriptive audio and video features, might produce a set of features that is able to describe the complex audio and video interactions. Based on this hypothesis, we propose a set of multimedia quality metrics: video, audio and audiovisual. The visual features are natural scene statistics (NSS) and spatial-temporal measures of the video component. Meanwhile, the audio features are obtained by computing the spectrogram representation of the audio component. The model is formed by a 2-layer framework that includes an autoencoder layer and a classification layer. These two layers are stacked and trained to build the autoencoder network model. The model is trained and tested using a large set of stimuli, containing representative audio and video artifacts. The model performed well when tested against the UnB-AV and the LiveNetflix-II databases.
Description: Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.
Licença:: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Agência financiadora: Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).
Appears in Collections:CIC - Doutorado em Informática (Teses)

Show full item record Recommend this item " class="statisticsLink btn btn-primary" href="/handle/10482/35306/statistics">



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.