Modelos de linguagem em larga escala (LLMs) vêm sendo amplamente utilizados em diferentes áreas do conhecimento, como direito, ciência e administração pública. No entanto, ainda produzem respostas incorretas ou inconsistentes, o que levanta desafios de confiabilidade.

Fabiana Avais, doutoranda da UFPR, apresentou seus resultados mais atuais na PROPOR 2026
Nesse contexto, um projeto em andamento no INCT TILDIAR propõe o uso de Inferência em Linguagem Natural (NLI) para avaliar automaticamente a confiabilidade dessas respostas. A iniciativa, desenvolvida na Universidade Federal do Amazonas (UFAM) com colaboração internacional, parte de um problema prático: a avaliação manual não escala, enquanto os sistemas atuais ainda apresentam baixa transparência.
A proposta adota um critério semântico baseado na comparação entre o texto de entrada e a resposta gerada pela IA, classificando a relação lógica entre ambos. O eixo central do trabalho está na construção de um dataset estruturado para tarefas de NLI, composto por três elementos: premissa, hipótese e relação lógica (label semântico).
Por ser um conjunto de dados aberto, o projeto também busca enfrentar outro desafio recorrente: a falta de bases padronizadas para comparação entre sistemas de IA. Atualmente, diferentes abordagens utilizam dados distintos, o que dificulta a replicação e a validação independente dos resultados. Para reduzir esse problema, o projeto estabelece critérios explícitos de anotação e curadoria linguística, fundamentais para garantir consistência e qualidade do corpus.
Objetivo
A equipe investiga a hipótese de que relações lógicas básicas podem sinalizar inconsistências e possíveis “alucinações” de forma consistente. O projeto, intitulado Avaliação da Confiabilidade de Respostas Geradas por Modelos de Linguagem por meio de Inferência em Linguagem Natural (NLI), não busca substituir métodos existentes, mas avaliar até que ponto relações lógicas podem funcionar como um sinal complementar de verificação. O ganho esperado é incremental, voltado ao aprimoramento de sistemas já existentes, e não uma solução definitiva.
Se validado, o método poderá ser incorporado a sistemas que operam em contextos sensíveis, contribuindo para redução de erros e aumento da auditabilidade. Nesse sentido, o foco não está apenas na medição de desempenho, mas na construção de confiança operacional escalável e verificável.
As etapas seguintes incluem a validação do dataset e a análise da eficácia do critério semântico em diferentes tarefas e domínios. A partir desses testes, a equipe pretende identificar condições de sucesso e falha do método. Espera-se que os resultados contribuam para o desenvolvimento de um verificador lógico mais geral para sistemas de IA.
Quem participa?
____
O projeto é coordenado pelos professores Altigran Soares e Edleno Silva de Moura, além da pesquisadora Livy Real. Participam também os alunos de graduação Manoelle Souza (UFAM), Francisco Brilhante (UFAM), e as pesquisadora Valéria de Paiva (Topos Institute) e a doutoranda Fabiana Avais, foto (UFPR).