
O intuito [deste documento] é que as propostas submetidas estejam alinhadas e comparáveis aos desafios e problemas de pesquisa mais relevantes em cada área de atuação do INCT. Além disso, o texto deve servir como guia para elaboração das solicitações de bolsas, garantindo coerência entre as demandas individuais e os objetivos coletivos do Instituto.
As requisições serão analisadas pelo coordenador de eixo e pelo comitê gestor, considerando: (i) Mérito científico da proposta; (ii) Aderência aos objetivos e eixos do INCT TILDIAR; (iii) Colaborações internas, exigindo participação mínima de três pesquisadores(as) associados(as) ao INCT; dentre outro critérios pertinentes.
Eixos:
(1) Linguística Computacional
(2) Criação de repositórios e recursos linguísticos (foco em português)
(3) Tratamento de Informação (Busca e Recomendação)
(4) Disseminação de Informação
Dois eixos transversais com potencial impacto em todas as outras:
(5) IA Responsável
(6) IA Sustentável.
Objetivo Geral
(todos, específico do eixo em negrito)
Particularmente, o INCT enfocará: (1) desenvolvimento de modelos de linguagem para o português, em domínios como Saúde, Direito, E-Commerce e Redes Sociais; (2) criação de novos recursos linguísticos (coleções, ontologias) em português; (3) desenvolvimento de algoritmos de IARS para busca e recomendação contextual que avancem o estado-da-arte; (4) novas técnicas de engenharia de dados e IARS que promovam avanço científico e tecnológico com recursos racionais, fomentando sustentabilidade e competitividade; (5) novas técnicas de IARS para prevenir comportamentos nocivos como desinformação e discurso de ódio em redes sociais.
Metas
(todos)
- Publicações de resultados de pesquisa em periódicos de grande impacto.
- Publicações de resultados de pesquisa em conferências (nacional ou internacional) de alta qualidade
- Formação de doutores sob orientação e co-orientação dos membros do INCT TILDIAR.
- Formação de mestres sob orientação e co-orientação dos membros do INCT TILDIAR.
- Supervisão de pós-doutores por membros do INCT TILDIAR.
- Inserção de alunos de graduação em projetos de pesquisa do INCT sob orientação e co-orientação dos membros do Instituto.
- Oferta de curso de especialização em Ciência de Dados, IA, Linguística Computacional e Tratamento de Disseminação de Informação.
- Criação de Hackathons e Workshops para se aproximar do setor empresarial.
- Criação de repositórios compartilhados de datasets e códigos.
- Visita de pesquisadores internacionais nos eixos de pesquisa do Instituto.
- Estabelecimento de novas colaborações internacionais (novos projetos de parceria).
- Desenvolvimento de novos projetos de P&D financiados por empresas, órgãos públicos ou organizações não governamentais.
- Organização de eventos tais como Escolas Avançadas, Workshops e Minicursos.
- Submissão de patentes e registro de softwares baseados nos desafios e necessidade de empresas e criação de uma vitrine tecnológica apresentando as patentes, software e know-how desenvolvido pelo INCT TILDIAR.
Contextos Metodológicos
(todos e ortogonais)
Em linhas gerais, a metodologia de pesquisa consiste na concepção, desenvolvimento, implementação e avaliação de novos modelos de IA abrangendo os eixos temáticos e observando os requisitos de responsabilidade e sustentabilidade. Essa metodologia engloba: (1) criação de cenários de aplicação, incluindo dados de entrada, resultados esperados e características como calibração de hiperparâmetros; (2) identificação de modelos e algoritmos de linhas de base; (3) análise de limitações dos modelos existentes; (4) proposta de novos modelos ou aprimoramentos; (5) avaliação das propostas e comparação com os modelos existentes; (6) aplicação dos modelos resultantes aos cenários-alvo; e (7) identificação de melhorias, reiniciando o ciclo.
OBSERVAR
(demais eixos)
A metodologia para a criação de recursos linguísticos prevê: (1) incorporação e integração de corpora existentes, curados pelos pesquisadores das distintas instituições participantes e (2) criação de novos corpora e conjuntos de dados. As atividades em (2) envolvem: (a) seleção de textos e conjuntos de dados, (b) definição de amostras, (c) extração, tratamento e anonimização (quando cabível), (d) anotação manual e (e) documentação.
A metodologia para IA Responsável compreende a identificação dos aspectos éticos e valores humanos a serem garantidos e os atores que participam desse processo. Para cada dimensão de IA Responsável considerada, devemos definir tanto as métricas quanto o processo de avaliação, que envolve os atores relacionados àquela dimensão. Similarmente, a metodologia para IA Sustentável consiste em identificar aspectos financeiros, energéticos e ambientais a serem reduzidos, definir métricas e o processo de avaliação.
A metodologia para pesquisa e desenvolvimento de sistemas que exploram IARS contempla, por um lado, as peculiaridades dos eixos temáticos de aplicação e, por outro, aspectos específicos da IA Responsável e da IA Sustentável. Esse processo pode ser sintetizado nos passos a seguir: (1) compreensão do problema, incluindo aspectos éticos e valores humanos (IA Responsável) e de custos (financeiros, energéticos, ambientais) (IA Sustentável); (2) coleta de dados; (3) preparação dos dados (extração, seleção); (4) limpeza e enriquecimento; (5) construção de modelos candidatos; (6) avaliação com métricas específicas da tarefa e eixo temático; (7) implantação em produção; e (8) monitoramento do desempenho e identificação de melhorias, garantindo evolução contínua.
Construção e Avaliação do problema
(Específicos de cada eixo)
(1) LC – Linguística Computacional:
Precursores dos recentes Grandes Modelos de Linguagem, modelos baseados em Transformers e representações contextuais densas de palavras, revolucionaram a linguística computacional, aprimorando tarefas como classificação e geração de textos. Essas ricas representações conseguem lidar com características tais como sinonímia e polissemia. No entanto, muitos desafios ainda persistem, mantendo a pesquisa em constante evolução, incluindo:
(a) combater alucinações que ocorrem quando o modelo gera informações factualmente incorretas, inventando fatos ou fornecendo respostas que não são fundamentados nos dados;
(b) desenvolver uma compreensão semântica mais profunda que consiga lidar com nuances, metáforas, ironias e informações do contexto cultural presentes nos textos, principalmente na língua portuguesa;
(c) incorporar “conhecimento de mundo” – modelos de linguagem têm dificuldades com tarefas que dependem do chamado “bom senso”, conhecimento do mundo físico ou de interações sociais;
(d) melhorar a capacidade de realizar inferências lógicas e deduzir informações implícitas no texto.
(2) Rep – Criação de Repositórios e Recursos Linguísticos (português e multilíngue):
A maioria dos avanços em LC concentra-se em línguas como inglês e chinês, enquanto o português, apesar de amplamente falado, é sub-representado. A equipe multidisciplinar do INCT enfrentará desafios de Processamento de Linguagem Natural (PLN) em português, desenvolvendo recursos linguísticos de qualidade com amostras representativas de gêneros e domínios. A representatividade é crucial para uma IA responsável, exigindo a inclusão de diversas perspectivas, incluindo as minoritárias. As estratégias incluem treinamento para anotação semiautomática de corpora, criação de datasets que integrem múltiplas opiniões e anonimização conforme a LGPD. A evolução da língua e o aumento do conteúdo nas redes sociais apresentam novos desafios que impactam tarefas como análise de sentimentos e detecção de linguagem de ódio. Outras estratégias incluirão a curadoria de especialistas para garantir a qualidade dos dados e abordagens para lidar com novos vocábulos, ironia e linguagem figurada. A criação de repositórios também deve seguir padrões internacionais, como os da Universal Dependencies, assegurando consistência e comparabilidade.
(3) TI – Tratamento de Informação:
Recuperação de Informação (RI) visa fornecer acesso a informações relevantes por meio de ferramentas como máquinas de busca e sistemas de recomendação. O surgimento de modelos de linguagem generativos trouxe novos desafios e oportunidades. Além de eficácia, a confiabilidade é crucial, já que esses modelos podem gerar conteúdo falso ou inexistente, especialmente em áreas sensíveis como Saúde e Direito. Arquiteturas híbridas que combinam métodos tradicionais de RI com técnicas generativas podem ancorar respostas em fontes confiáveis, promovendo rastreabilidade. Personalização permite a integração de dados específicos do usuário em modelos pré-treinados para respostas mais contextualizadas. Abordagens baseadas em “agentes” e geração aumentada por recuperação (RAG) permitem que sistemas de RI atuem proativamente em nome dos usuários. Equidade também é fundamental para garantir inclusão, enquanto novos protocolos de avaliação são essenciais para assegurar o funcionamento adequado e evolução contínua.
O eixo de tratamento da informação buscará o desenvolvimento de sistemas de busca e recomendação eficientes do ponto de vista de utilização de recursos computacionais e eficazes do ponto de vista de qualidade de resultados. Esses sistemas serão desenvolvidos considerando-se os seguintes desafios:
- Construção e avaliação de ferramentas de suporte a sistemas inteligentes, onde sistemas de busca e recomendação interagem com LLMs para gerar respostas mais atualizadas e mais precisas nos modelos de LLM. O objetivo aqui inclui a redução de casos de alucinação, o aumento da precisão e a especialização de sistemas a baixo custo. O processo pode se dar de diversas formas, exemplos incluem o uso dos sistemas de busca como mecanismos de RAG (Retrieval Augmented Generation) ou ainda como alternativas para o desenvolvimento de métodos inovadores de ajuste fino (fine tuning) de modelos.
- Construção e avaliação de novos sistemas de busca e recomendação que utilizam IA como ferramenta para gerar suas respostas. Nesse caso, os objetivos incluem novamente a responsabilidade de produzir resultados corretos e confiáveis. Envolve ainda a busca por sistemas que gerem resultados a baixo custo com o uso de técnicas como, mas não limitando-se a: combinação de diferentes modelos de LLM e técnicas de IA, entre as de maior e menor custo financeiro/ambiental, para gerar resultados de acordo com a demanda gerada pela entrada do sistema de busca e ou recomendação; desenvolvimento de técnicas inovadoras de métodos de busca baseados em aprendizado de máquina (LTR); Uso de LLMs em avaliação de resultados de busca e recomendação; Uso de LLMs na explicação de resultados de busca e recomendação.
- Construção e avaliação de sistemas integrados híbridos de busca e recomendação com modelos e técnicas de IA responsáveis.
(4) DI – Disseminação de Informação:
Os objetivos deste eixo estão conectados aos seguintes desafios: (a) entender como a informação se espalha nas redes, considerando o papel dos algoritmos de recomendação na amplificação de conteúdos; (b) identificar informações falsas por meio da análise e classificação automática de textos; (c) criar algoritmos de IARS que reconheçam e moderem discursos prejudiciais, levando em conta a ambiguidade e nuances da linguagem em diferentes contextos; (d) explorar como emoções, sentimentos e opiniões impactam na disseminação de informação; (e) estudar como as redes sociais moldam a opinião pública, analisando linguística e semanticamente os discursos que circulam, especialmente associados a eventos de grande mobilização social; (f) promover a alfabetização em relação à desinformação, desenvolvendo recursos que ajudem os usuários a discernir informações confiáveis; e (g) investigar como a segmentação de usuários nas redes afeta a disseminação, compreendendo como os diferentes discursos são produzidos e recebidos.
(5) IAR – IA Responsável:
Predições incorretas ou enviesadas em sistemas de IA podem gerar desconfiança, limitando a adoção de tecnologias de LC/TDI. Com o uso crescente dessas tecnologias em áreas de linguagem natural, surgem debates sobre ética e implicações dos algoritmos, promovidos por governos, organizações e a sociedade. Garantir requisitos como transparência, privacidade, segurança, responsabilidade, confiabilidade, robustez, imparcialidade e explicabilidade é fundamental. Cumprir esses critérios é essencial para que gestores e o público utilizem esses sistemas com confiança, fortalecendo sua credibilidade e potencial de automação. Os desafios incluem: (1) desenvolver algoritmos robustos a ruídos e vieses; (2) melhorar inferências em cenários com dados escassos; (3) projetar mecanismos que expliquem decisões dos modelos, adaptando-as ao conhecimento do usuário; (4) garantir proteção de dados via anonimização e conformidade com regulamentações como a LGPD; (5) criar modelos resistentes a ataques; (6) garantir o armazenamento seguro de dados; e (7) desenvolver estratégias de auditoria dos modelos desenvolvidos.
(6) IAS – IA Sustentável
Um dos pilares do INCT TILDIAR é garantir que os avanços em IA sejam responsáveis em relação ao meio ambiente. Equilibrar inovação, eficácia e impacto ambiental das tecnologias de IA em LC/TDI, enquanto atendem-se critérios éticos e sociais, é desafiador. Esses desafios incluem: (1) desenvolver estratégias para minimizar demandas computacionais, que consomem muita energia e aumentam a emissão de carbono; (2) criar algoritmos “verdes” energeticamente eficientes que otimizem recursos e reduzam desperdícios, utilizando técnicas como pruning e quantization; (3) considerar a reciclagem e o reúso de materiais para estender a vida útil dos dispositivos; e (4) incentivar o acesso a tecnologias de IA de baixo custo beneficiando mais pessoas e reduzindo desigualdades. Nosso projeto vai na contramão da “Regra do Mais” (mais dados, hardware e energia) adotada por grandes empresas e potências econômicas, considerada insustentável para a competitividade nacional. Proporemos soluções de engenharia de dados e IA avançada que aumentem a eficácia dos modelos, reduzam custos computacionais e promovam impactos ambientais e sociais positivos.
Tratar os desafios de pesquisa acima elencados traz consigo desafios tecnológicos, de inovação e de formação de recursos humanos, incluindo:
1) Tecnológicos: garantir auditabilidade, eficiência, escalabilidade ao processar dados reais, adaptabilidade a plataformas variadas, replicabilidade e confiabilidade frente a imprevistos.
2) Inovação: incentivar a criação de tecnologias disruptivas e métodos eficientes de desenvolvimento de produtos. É importante identificar demandas de mercado atendíveis pela pesquisa e gerenciar algoritmos, dados e infraestrutura.
3) Formação de Recursos Humanos: A formação de profissionais para construir uma base sólida em LC/TDI suportada por IARS é um desafio em si, considerando as questões elencadas e o conhecimento prévio necessário.