Descoberta de Restrições de Integridade de Dados Relacionais a partir de Documentos Regulatórios usando Modelos de Linguagem

Resumo

A integridade e confiabilidade dos dados são fundamentais para a tomada de decisões em áreas onde a conformidade com normas é crítica,como saúde, educação e finanças. Documentos regulatórios estabelecem direitos, obrigações e responsabilidades que podem ser expressas como regras de dados. Contudo, observamos em diversos documentos e dados abertos, que muitas vezes as regras divergem das suas implementações nos bancos de dados (BDs), com potencial impacto em tomadas de decisão e políticas públicas.

Este projeto investiga a extração e validação automática de regras de integridade (RIs) a partir de textos regulatórios, visando garantir a consistência e a conformidade dos dados. Estas regras podem ser formalizadas em lógica de primeira ordem que impedem combinações indesejadas de dados, permitindo a detecção e correção de inconsistências que comprometam a integridade de dados tabulares, como um BD relacional ou arquivos CSVs.

Métodos automatizados são necessários para reduzir o esforço humano na extração de RIs e garantir a consistência dos dados. Este projeto explora a extração dessas RIs usando Modelos de Linguagem Pré-treinados de Larga Escala (LLMs), capazes de descobrir e converter regras textuais em RIs aplicáveis em SQL. LLMs têm sido amplamente usados na geração de SQL a partir de especificações textuais, o que reforça a viabilidade de seu uso para extrair RIs a partir de documentos regulatórios. Esses modelos podem reconhecer padrões complexos e relações semânticas em textos, tornando viável o uso de técnicas de Processamento de Linguagem Natural (PLN) para transformar esses textos em restrições formais. Este projeto propõe o desenvolvimento de um pipeline de PLN para extração de regras de documentos regulatórios e conversão em RIs.

Instituições Participantes

Universidade Federal do Amazonas (UFAM)

Coordenador

Altigran Soares da Silva

Descoberta de Restrições de Integridade de Dados Relacionais a partir de Documentos Regulatórios usando Modelos de Linguagem

Resumo

Instituições Participantes

Coordenador

Projetos relacionados

Comparação tipológica da diversidade gramatical em narrativas orais multilíngues

Orquestração de LLMs para Redução de Custos em Cenários Reais: Uma Perspectiva de IA Responsável e Sustentável aplicada a texto

Kids Online: Estratégias Baseadas em IA para Proteção de Crianças e Adolescentes em Ambientes Digitais