Detecção de compressão dupla AMR usando características de voz no domínio da compressão

Sampaio, José Fabrizio Pereira

Please use this identifier to cite or link to this item: http://repositorio.unb.br/handle/10482/52989

Files in This Item:

File	Description	Size	Format
DISSERT_JoseFabrizioPereiraSampaio.pdf		5,79 MB	Adobe PDF	View/Open

Title:	Detecção de compressão dupla AMR usando características de voz no domínio da compressão
Other Titles:	Detection of AMR double compression using compresseddomain speech features
Authors:	Sampaio, José Fabrizio Pereira
Orientador(es)::	Nascimento, Francisco Assis de Oliveira
Assunto::	Codificador AMR Áudio forense Compressão dupla Domínio da compressão Escalonamento robusto Seleção de características
Issue Date:	29-Oct-2025
Data de defesa::	11-Dec-2020
Citation:	SAMPAIO, José Fabrizio Pereira. Detecção de compressão dupla AMR usando características de voz no domínio da compressão. 2020. 132 f., il. Tese (Doutorado em Engenharia Elétrica)—Universidade de Brasília, Brasília, 2020.
Abstract:	O codec AMR (adaptive multirate) é um padrão para compressão de sinal de voz na rede móvel celular e também para armazenar áudio como um formato de arquivo com extensão AMR em gravadores digitais e smartphones. O fácil acesso a programas para adulterar arquivos AMR elevou a demanda por exames de autenticação de áudio nos processos judiciais. Um dos procedimentos de triagem mais úteis é a detecção de compressão dupla, pois, em termos gerais, um arquivo duplamente comprimido é incompatível com um arquivo original. Nesta tese, um novo método baseado em máquina de vetor suporte (SVM) é proposto para detectar arquivos AMR duplamente comprimidos usando apenas características (features) no domínio da compressão, em contraste com os métodos existentes que usam a forma de onda descomprimida. Parâmetros específicos do áudio codificado são extraídos por desempacotamento, como os coeficientes de predição linear, e então usados para computar um conjunto de características estatísticas. Para melhorar o desempenho da SVM, um procedimento robusto é usado para escalonar as características. A seleção do modelo SVM consiste em uma busca em grade seguida por um algoritmo recursivo de eliminação de características com redução de polarização de correlação para determinar o melhor número de características que maximiza a acurácia de validação cruzada. A organização dos experimentos foi implementada usando o corpus de voz TIMIT, permitindo comparar o método proposto com o estado da arte, revelando que ele supera os métodos publicados. Uma análise de robustez exaustiva também foi feita para quatro condições adversas: um corpus diferente (em português brasileiro), arquivos com duração variável, ataque de descolamento de quadro (frame offset) e adição de ruído. Tais experimentos demonstram que o método proposto é robusto, assim como apresenta alto desempenho para arquivos de áudio AMR contaminados por ruído.
Abstract:	The adaptive multi-rate (AMR) codec is a speech signal compression standard designed for mobile networks and to store audio as AMR extension file format in digital recorders and smartphones. Easy access to software to tamper with AMR files has increased audio authentication demand in court trials. One of the most useful screening procedures is the double compression detection because, in general terms, a double compressed file is incompatible with an original audio file. In this thesis, a new method based on support vector machine (SVM) is proposed to detect double compressed AMR audio files by using only compressed-domain speech features, in contrast to existing methods which use decompressed waveform. Specific parameters from encoded audio are extracted by unpacking, like linear prediction coefficients, and then used to compute a set of statistical features. To improve SVM performance, a robust scaling procedure is used to scale features. The SVM model selection consists of a grid search followed by a recursive feature elimination with correlation bias reduction algorithm to determine the best number of features that maximizes cross-validation accuracy. The experimental setup was implemented using the TIMIT speech corpus to compare the proposed method with stateof-the-art, revealing that it outperforms the published methods. An extensive robust analysis was performed for four different adverse conditions: different corpus (in Brazilian Portuguese), variable duration files, frame offset attack and noise addition. Such experiments show that the proposed method is robust, as well as presents high performance for noise contaminated AMR audio files.
metadata.dc.description.unidade:	Faculdade de Tecnologia (FT) Departamento de Engenharia Elétrica (FT ENE)
Description:	Tese (doutorado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, Programa de Pós-Graduação em Engenharia Elétrica, 2020.
metadata.dc.description.ppg:	Programa de Pós-Graduação em Engenharia Elétrica
Licença::	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Appears in Collections:	Teses, dissertações e produtos pós-doutorado

Show full item record " class="statisticsLink btn btn-primary" href="/handle/10482/52989/statistics">