Campo DC | Valor | Idioma |
dc.contributor.advisor | Theodoro Filho, Wilson Roberto | pt_BR |
dc.contributor.author | Porto, Victor Benigno | pt_BR |
dc.date.accessioned | 2025-10-16T18:22:26Z | - |
dc.date.available | 2025-10-16T18:22:26Z | - |
dc.date.issued | 2025-10-16 | - |
dc.date.submitted | 2025-06-23 | - |
dc.identifier.citation | PORTO, Victor Benigno. Modelos de linguagem grandes e a prática jurídica no STF: estudo comparativo de decisões em agravos em recurso extraordinário. 2025. 146 f. Dissertação (Mestrado Profissional em Direito, Regulação e Políticas Públicas) — Universidade de Brasília, Brasília, 2025. | pt_BR |
dc.identifier.uri | http://repositorio.unb.br/handle/10482/52755 | - |
dc.description | Dissertação (mestrado) — Universidade de Brasília, Faculdade de Direito, Programa de Mestrado Profissional em Direito, Regulação e Políticas Públicas, 2025. | pt_BR |
dc.description.abstract | Este estudo busca avaliar a confiabilidade jurídico-processual de modelos de linguagem grande
(LLMs) na redação de minutas de decisões do Supremo Tribunal Federal (STF) em agravos em
recurso extraordinário (ARE). Vinculado ao Projeto de Inovação em Inteligência Artificial da
Universidade de Brasília, o trabalho dialoga com a Estratégia Brasileira de IA (EBIA), o Plano
Brasileiro de IA (PBIA) e a agenda do STF na adoção dessa tecnologia. Diante de um cenário,
no qual quase metade dos magistrados e servidores já experimentou IAs generativas de texto, é
evidente a necessidade de fixação de parâmetros seguros para seu uso no âmbito jurisdicional.
Selecionaram-se quinze AREs recentes, de temas e complexidades variadas. Para cada
processo, por meio da utilização do modelo GPT-4o, e sem intervenção humana, gerou-se uma
minuta de decisão baseada apenas nas peças dos autos. Os textos foram comparados às decisões
originais do STF segundo quatro eixos: (i) fidelidade fática e informacional; (ii) aderência aos
filtros recursais e limites cognitivos do ARE; (iii) conformidade do estilo (relatório,
fundamentação, dispositivo); e (iv) ocorrência de “alucinações”, entendidas essas como
afirmações ou referências inexistentes, imprecisas ou equivocadas. Os resultados são
expressivos: alucinações em 80% dos casos; incursão indevida no mérito recursal em 73%;
descumprimento do padrão de abertura em 73%; redação do dispositivo em terceira pessoa em
86,7%. Apenas uma das quinze decisões geradas pela máquina (6,7 %) coincidiu integralmente
com a conclusão humana, enquanto em 20% das situações a IA simplesmente reiterou, sem
crítica, a decisão da instância de origem. Conclui-se que, embora os LLMs extraiam fatos
essenciais com razoável precisão, a elevada taxa de erros formais e substantivos inviabiliza seu
emprego dissociado da atuação humana na produção de decisões do STF. O trabalho recomenda
treinamento direcionado dos modelos para as necessidades da instituição, aprimoramento de
prompts e revisão mandatória por indivíduos qualificados para se validar o produto gerado pela
IA. Tais achados oferecem subsídios empíricos capazes de contribuir para a governança de IA
no Poder Judiciário, sinalizando um caminho de integração responsável entre homem,
tecnologia e jurisdição. | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Modelos de linguagem grandes e a prática jurídica no STF : estudo comparativo de decisões em agravos em recurso extraordinário | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Inteligência artificial | pt_BR |
dc.subject.keyword | Modelos de linguagem grande | pt_BR |
dc.subject.keyword | Brasil. Supremo Tribunal Federal (STF) | pt_BR |
dc.subject.keyword | Decisões judiciais | pt_BR |
dc.subject.keyword | Confiabilidade processual | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | This study assesses the legal-procedural reliability of large language models (LLMs) in drafting
judicial decisions for the Brazilian Federal Supreme Court (STF) in interlocutory appeals on
extraordinary remedies (ARE). Developed within the Artificial Intelligence Innovation Project
at the University of Brasília, the research aligns with the Brazilian AI Strategy (EBIA), the
Brazilian AI Plan (PBIA), and the STF’s institutional agenda on technology adoption. Given
the widespread use of generative AI by judges, the study underscores the urgent need to
establish secure parameters for its use in adjudication. Fifteen recent AREs were selected,
covering a range of topics and complexities. For each case, the GPT-4o model independently
generated a draft decision based solely on case records, without human intervention. The
outputs were compared to the original STF decisions using four analytical axes: (i) factual and
informational accuracy; (ii) adherence to jurisdictional filters and cognitive limits of AREs; (iii)
structural conformity (report, reasoning, dispositive); and (iv) presence of hallucinations—
defined as non-existent, imprecise, or incorrect statements or references. The findings are
notable: hallucinations occurred in 80% of cases; undue engagement with the merits in 73%;
non-compliance with the opening format in 73%; and improper dispositive drafting in 86.7%.
Only one of the fifteen AI-generated decisions (6.7%) fully matched the human ruling, while
in 20% of cases, the AI uncritically echoed the lower court's decision. The study concludes that,
although LLMs can identify key facts with reasonable accuracy, their high rate of formal and
substantive errors prevents their autonomous use in STF rulings. The paper recommends
targeted model training for institutional demands, enhanced prompt engineering, and
mandatory review by qualified professionals to validate AI-generated outputs. These empirical
findings contribute to discussions on AI governance within the judiciary, indicating a path
toward responsible integration between humans, technology, and the law. | pt_BR |
dc.description.unidade | Faculdade de Direito (FD) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Direito, Regulação e Políticas Públicas, Mestrado Profissional | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|