Descoberta de Restrições de Integridade de Dados Relacionais a partir de Documentos Regulatórios usando Modelos de Linguagem
Resumo
A integridade e confiabilidade dos dados são fundamentais para a tomada de decisões em áreas onde a conformidade com normas é crítica,como saúde, educação e finanças. Documentos regulatórios estabelecem direitos, obrigações e responsabilidades que podem ser expressas como regras de dados. Contudo, observamos em diversos documentos e dados abertos, que muitas vezes as regras divergem das suas implementações nos bancos de dados (BDs), com potencial impacto em tomadas de decisão e políticas públicas.
Este projeto investiga a extração e validação automática de regras de integridade (RIs) a partir de textos regulatórios, visando garantir a consistência e a conformidade dos dados. Estas regras podem ser formalizadas em lógica de primeira ordem que impedem combinações indesejadas de dados, permitindo a detecção e correção de inconsistências que comprometam a integridade de dados tabulares, como um BD relacional ou arquivos CSVs.
Métodos automatizados são necessários para reduzir o esforço humano na extração de RIs e garantir a consistência dos dados. Este projeto explora a extração dessas RIs usando Modelos de Linguagem Pré-treinados de Larga Escala (LLMs), capazes de descobrir e converter regras textuais em RIs aplicáveis em SQL. LLMs têm sido amplamente usados na geração de SQL a partir de especificações textuais, o que reforça a viabilidade de seu uso para extrair RIs a partir de documentos regulatórios. Esses modelos podem reconhecer padrões complexos e relações semânticas em textos, tornando viável o uso de técnicas de Processamento de Linguagem Natural (PLN) para transformar esses textos em restrições formais. Este projeto propõe o desenvolvimento de um pipeline de PLN para extração de regras de documentos regulatórios e conversão em RIs.
Instituições Participantes
Universidade Federal do Amazonas (UFAM)