Campo DC | Valor | Idioma |
dc.contributor.advisor | Campos, Teófilo Emídio de | - |
dc.contributor.author | Araujo, Pedro Henrique Luz de | - |
dc.date.accessioned | 2021-11-22T20:32:21Z | - |
dc.date.available | 2021-11-22T20:32:21Z | - |
dc.date.issued | 2021-11-22 | - |
dc.date.submitted | 2021-07-29 | - |
dc.identifier.citation | ARAÚJO, Pedro Henrique Luz de. Domain-specific datasets for document classification and named entity recognition. 2021. 123 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2021. | pt_BR |
dc.identifier.uri | https://repositorio.unb.br/handle/10482/42415 | - |
dc.description | Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021. | pt_BR |
dc.description.abstract | Todos os dias uma quantidade massiva de dados é produzida—grande parte em textos
de variados domínios (posts de redes sociais, livros, notícias, relatórios oficiais, proces-
sos jurídicos). Dessa rica fonte de informação pode-se obter conhecimento utilizável. No
entanto, sua natureza não-estruturada exige processamento para se obter insights e co-
nhecimento estruturado.
O processamento de linguagem natural (PLN) progrediu muito na última década, mas
modelos atuais precisam de muitos exemplos anotados e tendem a não generalizar além
dos dados e domínio de treinamento. Embora abordagens de transferência de aprendizado
recentes tenham mitigado isso, conjuntos de dados rotulados de domínio específico ainda
são necessários para ajuste fino de modelos pré-treinados e para avaliação.
Nesse trabalho, propomos três bases de dado de domínio específico com anotação para
duas tarefas de PLN: classificação de documento e reconhecimento de entidade nomeada
(REN). Para estabelecer uma base de comparação para trabalhos futuros nos domínios
de textos jurídicos e da administração pública, para cada conjunto de dados treinamos,
avaliamos e comparamos diferentes modelos.
Sistemas de REN têm o potencial de extrair conhecimento de documentos jurídicos e
obter insumos que podem melhorar a recuperação de informações e subsidiar tomadas de
decisão. Com isso em vista, o primeiro conjunto de dados que apresentamos, o LeNER-
Br, trata da tarefa de REN em textos jurídicos brasileiros. Diferentemente de outros
conjuntos de dados de textos em português, o LeNER-Br é composto inteiramente de
textos jurídicos, mais específicamente, acórdãos, instrumentos normativos e leis. Além de
rótulos para entidades genéricas (pessoa, local, organização e tempo), o conjunto de dados
conta com anotações para entidades específicas do domínio: legislação e jurisprudência.
Para estabelecer resultados de classificação como base para comparações com trabalhos
futuros, usamos uma arquitetura biLSTM-CRF para treinar um modelos nos dados e
avaliar os resultados. Primeiramente, para testar a viabilidade do método em textos em
português, realizamos experimentos na base de REN Paramopama, atingindo resultados
v
que superaram o estado da arte. Feito isso, retreinamos o modelos no LeNER-Br, onde
obtivemos escores F1 de 97,04 e 88,82 para classificação de token de legislação e jurispru-
dência, respectivamente, e escores de 94,06 e 81,98 quando somente a identificação exata
da entidade é considerada correta.
Nosso segundo conjunto de dados é o VICTOR, composto por documentos digitaliza-
dos do Supremo Tribunal Federal (STF). A base reúne mais de 40 mil recursos extraor-
dinários, totalizando cerca de 692 mil documentos, ou 4,6 milhões de páginas. Os dados
contêm anotações para duas tarefas: classificação de tipo de documento e identificação
de tema de repercussão geral. A primeira trata de classificação por página, em que cada
uma pode pertencer a seis classes disjuntas; a segunda trata de classificação por processo
e é multi-rótulo: cada processo pode ter mais de um tema de repercussão geral. Para
gerar resultados como referência para trabalhos futuros, treinamos uma série de mode-
los nos dados: modelos de saco-de-palavras, redes neurais convolucionais e recorrentes e
gradient boosted trees. Também avaliamos a possibilidade de aproveitar a natureza se-
quencial dos dados para melhorar os resultados de classificação de tipo de documento;
para tanto, treinamos um campo aleatório condicional de cadeias lineares nas predições
de uma rede convolucional treinada nos dados, método que trouxe melhorias. Finalmente,
comparamos um modelo de identificação de tema que utiliza conhecimento específico do
domínio para filtrar páginas menos informativas com um modelo regular que utiliza todas
as páginas. Ao contrário das expectativas dos especialistas da Corte, constatou-se que é
melhor utilizar todas as páginas.
Ainda em relação ao conjunto VICTOR, utilizamos alocação latente de Dirichlet para
modelar os recursos extraordinários como uma possível medida pra auxiliar na organização
dos casos do STF. Avaliamos a qualidade dos tópicos obtidos de duas maneiras: qualita-
tivamente, a partir da análise das palavras mais relevantes de cada tópico, e quantitativa-
mente, utilizando os vetores de distribuição de tópico como entrada para um classificador
de tema de repercussão geral. Inicialmente treinamos modelos de 10 e 30 tópicos para a
avaliação qualitativa, ocasião em que identificamos que os tópicos encontrados guardavam
relação com matérias de direito. Ficou evidenciado, ainda, a existência de uma tensão
entre granularidade e qualidade de tópicos: o modelo de 30 tópicos era capaz de detectar
tópicos mais específicos, mas também gerava tópicos que misturavam assuntos distintos.
Para a avaliação quantitativa, treinamos modelos adicionais com 100, 300 e 1.000 tópi-
cos, que utilizamos como vetores de características para treinar o classificador de temas.
Ao se comparar os resultados obtidos com aqueles resultantes de técnicas de represen-
tação de texto tradicionais (saco-de-palavras com contagem de palavras e valores tf-idf),
verificou-se que os tópicos, embora não superassem as técnicas tradicionais, conseguiam
resultados de classificação aceitáveis, fortalecendo a hipótese de que os tópicos encontra-
vi
dos são relevantes para a administração dos processos. O modelo com 300 tópicos atingiu
a melhor performance, conseguindo resultados bons com representações interpretáveis de
baixa dimensão.
Como último trabalho na base VICTOR, realizamos um estudo com o objetivo de
aproveitar as informações visuais dos documentos para melhorar a classificação de tipo
de documento. Para tanto, estendemos a versão pequena do VICTOR para incluir as
imagens das páginas, guardadas em formato JPEG. Além disso, retomamos a exploração
da modelagem sequencial das páginas como fonte de melhoria de resultados de classifi-
cação. Primeiramente, treinamos modelos unimodais de classificação de texto e imagem
de maneira independente. Como classificador de imagem, utilizamos um modelo ResNet
pré-treinado na base ImageNet e fizemos seu ajuste-fino nas imagens do VICTOR. Como
classificador de texto, treinamos uma rede neural convolucional com filtros de tamanhos
diferentes nos textos do VICTOR. Uma vez treinados os modelos, usamo-los como ex-
tratores de características visuais e textuais, as quais são combinadas por um Módulo de
Fusão. Tal módulo consegue lidar com modalidades de entrada faltantes por meio de em-
beddings aprendíveis. As métricas de classificação obtidas pelo modelo de fusão superaram
aquelas dos modelos unimodais. Para extração de informações sequenciais, realizamos ex-
perimentos com redes biLSTM e campos aleatórios condicionais de cadeias lineares. Os
modelos multimodais sequenciais superaram aqueles sem informação de sequência, sendo
que o melhor método realizava conjuntamente o aprendizado sequencial e de fusão de
informações visuais e textuais.
Finalmente, propomos um conjunto de dados composto por textos do Diário Oficial do
Distrito Federal. A motivação de dá por conta de os diários oficiais serem uma rica fonte de
informações relevantes para a sociedade—um exame cuidadoso desse tipo de documento
pode acarretar a detecção de fraudes e irregularidades e prevenir o mau uso de recursos
públicos. Os dados contém tantos textos com anotação de órgão público de origem quanto
textos não rotulados. Treinamos, avaliamos e comparamos um modelo estado-da-arte
que usa transferência de aprendizado, o ULMFiT, com modelos tradicionais de saco-de-
palavras usando Naïve Bayes e SVM como classificadores. O modelo tradicional treinado
com SVM mostrou-se competitivo: superou o ULMFiT na métrica de escore F1 médio,
apresentando escore F1 ponderado e acurácia ligeiramente abaixo aos de seu oponente.
Além disso, seu treino e inferência são bem mais rápidos que os do ULMFiT, por conta
do menor custo computacional.
Os trabalhos descritos resultaram nas seguintes publicações:
• Luz de Araujo, P. H. et al. LeNER-Br: a Dataset for Named Entity Recognition in
Brazilian Legal Text [87].
vii
• Luz de Araujo, P. H. et al. VICTOR: a dataset for Brazilian legal documents
classification. [86]
• Luz de Araujo, P. H. et al. Topic Modelling Brazilian Supreme Court Lawsuits [85].
• Luz de Araujo, P. H. et al. Inferring the source of official texts: can SVM beat
ULMFiT? [88].
Além das principais contribuições deste trabalho—os conjuntos de dado—inferimos de
nossos experimentos as seguintes conclusões, as quais consideramos contribuições empíri-
cas:
• Um modelo biLSTM-CRF treinado no dados do LeNER-Br é capaz de reconhecer
entidades específicas do domínio jurídico com um grau de acerto equivalente ao
do reconhecimentos de entidades genéricas sem necessidade de pré-processamento
específico ou engenharia de características.
• Modelos de saco-de-palavras podem atingir resultados de classificação competitivos
com os de modelo de aprendizado profundo, especialmente em cenários com menor
abundância de dados, como nos casos do Small VICTOR e dos documentos do Diário
Oficial do DF.
• Tópicos detectados pelo algoritmo de alocação latente de Dirichlet podem ser usados
como um ponto de partida para auxiliar a administração de casos do STF.
• Os resultados de classificação de tipo de documento do STF melhorou com cada
modalidade de entrada adicional.
Treinamos modelos com o objetivo de servir de base de apoio para trabalhos futuros.
Dado isso e nossos recursos computacionais limitados, não realizamos buscas extensivas
por melhores hiper-parâmetros ao treinar redes neurais. Outra limitação do nosso trabalho
é o fato de que nossas anotações não contam com métricas de medidas de concordância
entre anotadores. Isso se deu por conta de limitações de recursos humanos, de modo que
cada documento não foi anotado por mais de uma pessoa. Nos casos dos documentos do
LeNER-BR e do Diário Oficial do DF, buscou-se reforçar a correição e consistência da
anotação por meio da cuidadosa revisão de todas as anotações. No caso do STF, uma
vez que as anotações foram realizadas por servidores do STF durante a execução do fluxo
ordinário de trabalho da Corte, não estamos ciente dos detalhes do processo de anotação.
Como trabalho futuros, sugerimos rodar experimentos adicionais com busca abran-
gente de hiper-parâmetros para verificar modelos de aprendizado profundo podem alcan-
çar melhorias que justifiquem seu alto custo computacional. Seria igualmente interessante
o treino ponta-a-ponta do método de aprendizado sequencial multi-modal que propusemos
viii
para os documentos do VICTOR. Por fim, esperamos que nossos dados sejam usados em
trabalhos futuros de transferência de aprendizado, adaptação e generalização de domínio
e aprendizado multilíngue. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). | pt_BR |
dc.language.iso | Inglês | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Domain-specific datasets for document classification and named entity recognition | pt_BR |
dc.title.alternative | Conjuntos de dados de domínio específico para classificação de documento e reconhecimento de entidade nomeada | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Processamento de linguagem natural | pt_BR |
dc.subject.keyword | Processamento da língua portuguesa | pt_BR |
dc.subject.keyword | Classificação de texto | pt_BR |
dc.subject.keyword | Modelos de tópicos | pt_BR |
dc.subject.keyword | Reconhecimento de entidade nomeada | pt_BR |
dc.subject.keyword | Classificação multi-modal | pt_BR |
dc.subject.keyword | Transferência de aprendizado | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | Every day a massive amount of data is produced—a significant part of it in natural
language text ranging from various domains (social media posts, books, news, official
reports, legal proceedings). This rich source of information can produce usable knowledge.
The challenge is that natural language texts are unstructured: processing is required to
obtain insight and structured knowledge from the data.
Though natural language processing (NLP) has seen a great deal of progress in the
last decade, current models require a large number of annotated examples and tend to
not generalise beyond training data and domain. Recent transfer learning approaches can
mitigate those needs, but specific-domain labelled datasets are still needed to fine-tune
pre-trained models and for evaluation.
In this work, we propose three domain-specific datasets with annotated data for two
NLP tasks: document classification and named entity recognition (NER). To establish
a benchmark for future work on the legal and public administration domains, for each
dataset we train, evaluate and compare different models.
First, we propose a dataset for NER in legal documents with domain specific entities
and train a biLSTM-CRF model on the data. Next, we propose a dataset of documents
from Brazil’s Supreme Court annotated with labels for two classification tasks; we train
and compare shallow, deep and multimodal models trained on the data with and with-
out sequence modelling; and evaluate topics inferred through latent Dirichlet allocation.
Finally, we propose a dataset of official gazette texts with labelled and unlabelled data
and compare traditional bag-of-words models trained with linear classifiers with a state-
of-the-art transfer learning method (ULMFiT). | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Informática | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|