Campo DC | Valor | Idioma |
dc.contributor.advisor | Bordim, Jacir Luiz | pt_BR |
dc.contributor.author | Souza Filho, José Ronaldo Agra de Souza | pt_BR |
dc.date.accessioned | 2024-11-19T16:12:53Z | - |
dc.date.available | 2024-11-19T16:12:53Z | - |
dc.date.issued | 2024-11-18 | - |
dc.date.submitted | 2024-08-06 | - |
dc.identifier.citation | SOUZA FILHO, José Ronaldo Agra de. DUBI: um framework para avaliação automática de chatbots. 2024. 138 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2024. | pt_BR |
dc.identifier.uri | http://repositorio.unb.br/handle/10482/50958 | - |
dc.description | Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024. | pt_BR |
dc.description.abstract | A proliferação da inteligência artificial impulsiona a adoção de chatbots, sistemas conversacionais projetados para automatizar interações com usuários. No entanto, avaliá-los
representa um desafio complexo e que frequentemente depende da intervenção humana,
tornando-se impraticável em larga escala. Uma revisão do estado da arte indicou que
duas abordagens de avaliação são utilizadas: estática e interativa. A primeira examina a
modelagem do assistente virtual, enquanto a última interage com o sistema para avaliar
seu desempenho. No entanto, foi observado que falta um método que combine ambas
as avaliações, algo crucial para o diagnóstico completo do sistema. Nesse contexto, este
estudo apresenta o framework DUBI, acrônimo para Design Understanding (DU) e chatBot Intelligence (BI), como um meio de avaliar automaticamente chatbots, cobrindo seus
componentes estáticos e interativos. O DUBI é um avanço em comparação aos métodos existentes, pois permite a avaliação contínua do desempenho dos assistentes virtuais
e fornece recomendações objetivas para aprimorar sua estrutura, que podem ser usadas
como base para intervenções. O módulo de avaliação estática mede uma série de métricas
e indica quais áreas exigem melhorias na modelagem do chatbot. A avaliação interativa
utiliza grandes modelos de linguagem para criar casos de teste a partir do conteúdo de
treinamento do chatbot e analisa seu desempenho após a execução desses testes. O procedimento automatizado é o diferencial do DUBI, pois reduz a variabilidade e o viés da
avaliação humana, ao mesmo tempo em que economiza tempo e recursos. Um experimento
com assistentes virtuais reais foi realizado para validar o DUBI. As descobertas evidenciaram que os aprimoramentos sugeridos pelo DUBI levou a avanços substanciais nas
medidas de desempenho. Especificamente, um dos chatbots avaliados teve um aumento
notável de 55% na acurácia e uma redução impressionante de 89% na taxa de fallback.
Os resultados comprovam a eficácia do DUBI em identificar deficiências na modelagem
e propor aprimoramentos tangíveis. Este trabalho contribui para a literatura ao integrar
avaliações estáticas e interativas, fornecendo uma ferramenta para melhorar a qualidade
de chatbots, o que possibilita reduzir riscos financeiros ou de reputação. | pt_BR |
dc.language.iso | Português | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | DUBI : um framework para avaliação automática de chatbots | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Chatbot | pt_BR |
dc.subject.keyword | Chatbot - avaliação | pt_BR |
dc.subject.keyword | Inteligência artificial | pt_BR |
dc.subject.keyword | Testes automatizados | pt_BR |
dc.subject.keyword | Framework | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | The proliferation of artificial intelligence is driving the adoption of chatbots, which are
conversational systems designed to automate user interactions. Nevertheless, evaluating
chatbots poses an intricate difficulty that frequently depends on human intervention,
rendering it impractical on a large scale. A review of the state of the art indicated that
two evaluation approaches have been utilized: static and interactive. The former examines
the structure and training content of the virtual assistant, while the latter engages with
the system to assess its performance. However, it has been noted that there is a lack of a
method that combines both evaluations, which are crucial for a thorough system diagnosis.
Within this perspective, this study introduces the DUBI framework, an acronym for
Design Understanding (DU) and chatBot Intelligence (BI), as a means to automatically
assess chatbots, covering both their static and interactive components. DUBI offers a
notable improvement compared to existing methods, since it enables ongoing assessment
of virtual assistants’ performance and provides objective recommendations for enhancing
their structure, which can be used as a basis for interventions. The static assessment
measures a range of metrics and provides feedback on areas that require improvement
in the chatbot’s modeling. The interactive assessment utilizes large language models to
create test cases from the chatbot’s training material and analyzes its performance after
the execution of these tests. The automated procedure is a key feature of DUBI, since it
reduces the variability and bias from human evaluation while saving time and resources.
An experiment was done to authenticate DUBI by employing actual virtual assistants.
Our findings demonstrated that implementing the enhancements suggested by DUBI led
to substantial advancements in performance measures. Specifically, one of the assessed
chatbots had a remarkable 55% increase in accuracy and an impressive 89% decrease
in the fallback rate. The results clearly showcase the efficacy of DUBI in pinpointing
shortcomings in modeling and proposing tangible enhancements. This work contributes
to the literature by integrating static and interactive evaluations, providing a tool to
improve chatbot quality and reduce financial or reputational risks. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|