Documentos

Objetivos gerais, metas, contextos metodológicos e construção e avaliação dos problemas específicos por eixo do INCT TILDIAR

Texto guia para elaboração das solicitações de bolsas, garantindo coerência entre as demandas individuais e os objetivos coletivos do Instituto.

Marcus Vinicius dos Santos

1 de abril de 2025

O intuito [deste documento] é que as propostas submetidas estejam alinhadas e comparáveis aos desafios e problemas de pesquisa mais relevantes em cada área de atuação do INCT. Além disso, o texto deve servir como guia para elaboração das solicitações de bolsas, garantindo coerência entre as demandas individuais e os objetivos coletivos do Instituto.

As requisições serão analisadas pelo coordenador de eixo e pelo comitê gestor, considerando: (i) Mérito científico da proposta; (ii) Aderência aos objetivos e eixos do INCT TILDIAR; (iii) Colaborações internas, exigindo participação mínima de três pesquisadores(as) associados(as) ao INCT; dentre outro critérios pertinentes.

Eixos:

(1) Linguística Computacional

(2) Criação de repositórios e recursos linguísticos (foco em português)

(3) Tratamento de Informação (Busca e Recomendação)

(4) Disseminação de Informação

Dois eixos transversais com potencial impacto em todas as outras:

(5) IA Responsável

(6) IA Sustentável.

Objetivo Geral

(todos, específico do eixo em negrito)

Particularmente, o INCT enfocará: (1) desenvolvimento de modelos de linguagem para o português, em domínios como Saúde, Direito, E-Commerce e Redes Sociais; (2) criação de novos recursos linguísticos (coleções, ontologias) em português; (3) desenvolvimento de algoritmos de IARS para busca e recomendação contextual que avancem o estado-da-arte; (4) novas técnicas de engenharia de dados e IARS que promovam avanço científico e tecnológico com recursos racionais, fomentando sustentabilidade e competitividade; (5) novas técnicas de IARS para prevenir comportamentos nocivos como desinformação e discurso de ódio em redes sociais.

Metas

(todos)

Publicações de resultados de pesquisa em periódicos de grande impacto.
Publicações de resultados de pesquisa em conferências (nacional ou internacional) de alta qualidade
Formação de doutores sob orientação e co-orientação dos membros do INCT TILDIAR.
Formação de mestres sob orientação e co-orientação dos membros do INCT TILDIAR.
Supervisão de pós-doutores por membros do INCT TILDIAR.
Inserção de alunos de graduação em projetos de pesquisa do INCT sob orientação e co-orientação dos membros do Instituto.
Oferta de curso de especialização em Ciência de Dados, IA, Linguística Computacional e Tratamento de Disseminação de Informação.
Criação de Hackathons e Workshops para se aproximar do setor empresarial.
Criação de repositórios compartilhados de datasets e códigos.
Visita de pesquisadores internacionais nos eixos de pesquisa do Instituto.
Estabelecimento de novas colaborações internacionais (novos projetos de parceria).
Desenvolvimento de novos projetos de P&D financiados por empresas, órgãos públicos ou organizações não governamentais.
Organização de eventos tais como Escolas Avançadas, Workshops e Minicursos.
Submissão de patentes e registro de softwares baseados nos desafios e necessidade de empresas e criação de uma vitrine tecnológica apresentando as patentes, software e know-how desenvolvido pelo INCT TILDIAR.

Contextos Metodológicos

(todos e ortogonais)

Em linhas gerais, a metodologia de pesquisa consiste na concepção, desenvolvimento, implementação e avaliação de novos modelos de IA abrangendo os eixos temáticos e observando os requisitos de responsabilidade e sustentabilidade. Essa metodologia engloba: (1) criação de cenários de aplicação, incluindo dados de entrada, resultados esperados e características como calibração de hiperparâmetros; (2) identificação de modelos e algoritmos de linhas de base; (3) análise de limitações dos modelos existentes; (4) proposta de novos modelos ou aprimoramentos; (5) avaliação das propostas e comparação com os modelos existentes; (6) aplicação dos modelos resultantes aos cenários-alvo; e (7) identificação de melhorias, reiniciando o ciclo.

OBSERVAR

(demais eixos)

A metodologia para a criação de recursos linguísticos prevê: (1) incorporação e integração de corpora existentes, curados pelos pesquisadores das distintas instituições participantes e (2) criação de novos corpora e conjuntos de dados. As atividades em (2) envolvem: (a) seleção de textos e conjuntos de dados, (b) definição de amostras, (c) extração, tratamento e anonimização (quando cabível), (d) anotação manual e (e) documentação.

A metodologia para IA Responsável compreende a identificação dos aspectos éticos e valores humanos a serem garantidos e os atores que participam desse processo. Para cada dimensão de IA Responsável considerada, devemos definir tanto as métricas quanto o processo de avaliação, que envolve os atores relacionados àquela dimensão. Similarmente, a metodologia para IA Sustentável consiste em identificar aspectos financeiros, energéticos e ambientais a serem reduzidos, definir métricas e o processo de avaliação.

A metodologia para pesquisa e desenvolvimento de sistemas que exploram IARS contempla, por um lado, as peculiaridades dos eixos temáticos de aplicação e, por outro, aspectos específicos da IA Responsável e da IA Sustentável. Esse processo pode ser sintetizado nos passos a seguir: (1) compreensão do problema, incluindo aspectos éticos e valores humanos (IA Responsável) e de custos (financeiros, energéticos, ambientais) (IA Sustentável); (2) coleta de dados; (3) preparação dos dados (extração, seleção); (4) limpeza e enriquecimento; (5) construção de modelos candidatos; (6) avaliação com métricas específicas da tarefa e eixo temático; (7) implantação em produção; e (8) monitoramento do desempenho e identificação de melhorias, garantindo evolução contínua.

Construção e Avaliação do problema

(Específicos de cada eixo)

(1) LC – Linguística Computacional:

Precursores dos recentes Grandes Modelos de Linguagem, modelos baseados em Transformers e representações contextuais densas de palavras, revolucionaram a linguística computacional, aprimorando tarefas como classificação e geração de textos. Essas ricas representações conseguem lidar com características tais como sinonímia e polissemia. No entanto, muitos desafios ainda persistem, mantendo a pesquisa em constante evolução, incluindo:

(a) combater alucinações que ocorrem quando o modelo gera informações factualmente incorretas, inventando fatos ou fornecendo respostas que não são fundamentados nos dados;

(b) desenvolver uma compreensão semântica mais profunda que consiga lidar com nuances, metáforas, ironias e informações do contexto cultural presentes nos textos, principalmente na língua portuguesa;

(c) incorporar “conhecimento de mundo” – modelos de linguagem têm dificuldades com tarefas que dependem do chamado “bom senso”, conhecimento do mundo físico ou de interações sociais;

(d) melhorar a capacidade de realizar inferências lógicas e deduzir informações implícitas no texto.

(2) Rep – Criação de Repositórios e Recursos Linguísticos (português e multilíngue):

A maioria dos avanços em LC concentra-se em línguas como inglês e chinês, enquanto o português, apesar de amplamente falado, é sub-representado. A equipe multidisciplinar do INCT enfrentará desafios de Processamento de Linguagem Natural (PLN) em português, desenvolvendo recursos linguísticos de qualidade com amostras representativas de gêneros e domínios. A representatividade é crucial para uma IA responsável, exigindo a inclusão de diversas perspectivas, incluindo as minoritárias. As estratégias incluem treinamento para anotação semiautomática de corpora, criação de datasets que integrem múltiplas opiniões e anonimização conforme a LGPD. A evolução da língua e o aumento do conteúdo nas redes sociais apresentam novos desafios que impactam tarefas como análise de sentimentos e detecção de linguagem de ódio. Outras estratégias incluirão a curadoria de especialistas para garantir a qualidade dos dados e abordagens para lidar com novos vocábulos, ironia e linguagem figurada. A criação de repositórios também deve seguir padrões internacionais, como os da Universal Dependencies, assegurando consistência e comparabilidade.

(3) TI – Tratamento de Informação:

Recuperação de Informação (RI) visa fornecer acesso a informações relevantes por meio de ferramentas como máquinas de busca e sistemas de recomendação. O surgimento de modelos de linguagem generativos trouxe novos desafios e oportunidades. Além de eficácia, a confiabilidade é crucial, já que esses modelos podem gerar conteúdo falso ou inexistente, especialmente em áreas sensíveis como Saúde e Direito. Arquiteturas híbridas que combinam métodos tradicionais de RI com técnicas generativas podem ancorar respostas em fontes confiáveis, promovendo rastreabilidade. Personalização permite a integração de dados específicos do usuário em modelos pré-treinados para respostas mais contextualizadas. Abordagens baseadas em “agentes” e geração aumentada por recuperação (RAG) permitem que sistemas de RI atuem proativamente em nome dos usuários. Equidade também é fundamental para garantir inclusão, enquanto novos protocolos de avaliação são essenciais para assegurar o funcionamento adequado e evolução contínua.

O eixo de tratamento da informação buscará o desenvolvimento de sistemas de busca e recomendação eficientes do ponto de vista de utilização de recursos computacionais e eficazes do ponto de vista de qualidade de resultados. Esses sistemas serão desenvolvidos considerando-se os seguintes desafios:

Construção e avaliação de ferramentas de suporte a sistemas inteligentes, onde sistemas de busca e recomendação interagem com LLMs para gerar respostas mais atualizadas e mais precisas nos modelos de LLM. O objetivo aqui inclui a redução de casos de alucinação, o aumento da precisão e a especialização de sistemas a baixo custo. O processo pode se dar de diversas formas, exemplos incluem o uso dos sistemas de busca como mecanismos de RAG (Retrieval Augmented Generation) ou ainda como alternativas para o desenvolvimento de métodos inovadores de ajuste fino (fine tuning) de modelos.
Construção e avaliação de novos sistemas de busca e recomendação que utilizam IA como ferramenta para gerar suas respostas. Nesse caso, os objetivos incluem novamente a responsabilidade de produzir resultados corretos e confiáveis. Envolve ainda a busca por sistemas que gerem resultados a baixo custo com o uso de técnicas como, mas não limitando-se a: combinação de diferentes modelos de LLM e técnicas de IA, entre as de maior e menor custo financeiro/ambiental, para gerar resultados de acordo com a demanda gerada pela entrada do sistema de busca e ou recomendação; desenvolvimento de técnicas inovadoras de métodos de busca baseados em aprendizado de máquina (LTR); Uso de LLMs em avaliação de resultados de busca e recomendação; Uso de LLMs na explicação de resultados de busca e recomendação.
Construção e avaliação de sistemas integrados híbridos de busca e recomendação com modelos e técnicas de IA responsáveis.

(4) DI – Disseminação de Informação:

Os objetivos deste eixo estão conectados aos seguintes desafios: (a) entender como a informação se espalha nas redes, considerando o papel dos algoritmos de recomendação na amplificação de conteúdos; (b) identificar informações falsas por meio da análise e classificação automática de textos; (c) criar algoritmos de IARS que reconheçam e moderem discursos prejudiciais, levando em conta a ambiguidade e nuances da linguagem em diferentes contextos; (d) explorar como emoções, sentimentos e opiniões impactam na disseminação de informação; (e) estudar como as redes sociais moldam a opinião pública, analisando linguística e semanticamente os discursos que circulam, especialmente associados a eventos de grande mobilização social; (f) promover a alfabetização em relação à desinformação, desenvolvendo recursos que ajudem os usuários a discernir informações confiáveis; e (g) investigar como a segmentação de usuários nas redes afeta a disseminação, compreendendo como os diferentes discursos são produzidos e recebidos.

(5) IAR – IA Responsável:

Predições incorretas ou enviesadas em sistemas de IA podem gerar desconfiança, limitando a adoção de tecnologias de LC/TDI. Com o uso crescente dessas tecnologias em áreas de linguagem natural, surgem debates sobre ética e implicações dos algoritmos, promovidos por governos, organizações e a sociedade. Garantir requisitos como transparência, privacidade, segurança, responsabilidade, confiabilidade, robustez, imparcialidade e explicabilidade é fundamental. Cumprir esses critérios é essencial para que gestores e o público utilizem esses sistemas com confiança, fortalecendo sua credibilidade e potencial de automação. Os desafios incluem: (1) desenvolver algoritmos robustos a ruídos e vieses; (2) melhorar inferências em cenários com dados escassos; (3) projetar mecanismos que expliquem decisões dos modelos, adaptando-as ao conhecimento do usuário; (4) garantir proteção de dados via anonimização e conformidade com regulamentações como a LGPD; (5) criar modelos resistentes a ataques; (6) garantir o armazenamento seguro de dados; e (7) desenvolver estratégias de auditoria dos modelos desenvolvidos.

(6) IAS – IA Sustentável

Um dos pilares do INCT TILDIAR é garantir que os avanços em IA sejam responsáveis em relação ao meio ambiente. Equilibrar inovação, eficácia e impacto ambiental das tecnologias de IA em LC/TDI, enquanto atendem-se critérios éticos e sociais, é desafiador. Esses desafios incluem: (1) desenvolver estratégias para minimizar demandas computacionais, que consomem muita energia e aumentam a emissão de carbono; (2) criar algoritmos “verdes” energeticamente eficientes que otimizem recursos e reduzam desperdícios, utilizando técnicas como pruning e quantization; (3) considerar a reciclagem e o reúso de materiais para estender a vida útil dos dispositivos; e (4) incentivar o acesso a tecnologias de IA de baixo custo beneficiando mais pessoas e reduzindo desigualdades. Nosso projeto vai na contramão da “Regra do Mais” (mais dados, hardware e energia) adotada por grandes empresas e potências econômicas, considerada insustentável para a competitividade nacional. Proporemos soluções de engenharia de dados e IA avançada que aumentem a eficácia dos modelos, reduzam custos computacionais e promovam impactos ambientais e sociais positivos.

Tratar os desafios de pesquisa acima elencados traz consigo desafios tecnológicos, de inovação e de formação de recursos humanos, incluindo:

1) Tecnológicos: garantir auditabilidade, eficiência, escalabilidade ao processar dados reais, adaptabilidade a plataformas variadas, replicabilidade e confiabilidade frente a imprevistos.

2) Inovação: incentivar a criação de tecnologias disruptivas e métodos eficientes de desenvolvimento de produtos. É importante identificar demandas de mercado atendíveis pela pesquisa e gerenciar algoritmos, dados e infraestrutura.

3) Formação de Recursos Humanos: A formação de profissionais para construir uma base sólida em LC/TDI suportada por IARS é um desafio em si, considerando as questões elencadas e o conhecimento prévio necessário.

CNPQ INCT TILDIAR