Palestra

Desambiguação de entidades em documentos históricos: desafios e soluções


RESUMO

As entidades nomeadas (ENs) estão entre os tipos de informação mais relevantes que podem ser usadas para indexar e recuperar documentos digitais de forma eficiente. Além disso, o processo de desambiguação (Entity Linking - EL), que permite que as ENs sejam desambiguadas e ligadas a bases de conhecimento, fornece informações adicionais que podem ser úteis na diferenciação de elementos ambíguos, tais como localizações geográficas e nomes próprios. Em documentos históricos, a detecção e desambiguação de ENs é um desafio. A maioria dos documentos históricos são convertidos para texto simples usando um sistema de reconhecimento óptico de caracteres (Optical character recognition - OCR), mas este processo também acrescenta ruído ao texto. Como resultado, os documentos em bibliotecas digitais serão indexados com erros que podem dificultar sua acessibilidade. Os erros do OCR afetam não apenas a indexação de documentos, mas também a detecção, desambiguação e vinculação de ENs. Este seminário tem como objetivo analisar o desempenho de diferentes abordagens do EL em dois corpora históricos multilíngues, CLEF HIPE 2020 (inglês, francês, alemão) e NewsEye (finlandês, francês, alemão, sueco). Propomos várias técnicas para reduzir o impacto dos erros OCR sobre o problema EL. Nossas descobertas indicam que as abordagens propostas não apenas ultrapassam as baselines em ambos os corpos, mas também reduzem significativamente o impacto de problemas relacionados a documentos históricos em diferentes assuntos e idiomas.

SOBRE O AUTOR

Elvys Linhares Pontes recebeu o título de Engenheiro da Computação pela Universidade Federal do Ceará, Sobral, Brasil, em 2013; mestrado em Engenharia Elétrica e Computação pela Universidade Federal do Ceará, Sobral, Brasil, em 2015; e o doutorado em Ciência da Computação pela Avignon Université, França, em 2018. Professor temporário e assistente de pesquisa em 2019 no laboratório LIA (Laboratoire Informatique d'Avignon), Avignon Université, França. Atualmente, ele faz um pós-doutorado na La Rochelle Université (França). Seus interesses de pesquisa incluem resumo de textos, compressão de frases, entidades nomeadas, recuperação de informações e inteligencia artificial para processamento da linguagem natural.