IA Responsável na Prática: Ciclo de Vida do Modelo

Introdução: A Imperatividade da IA Responsável em Sistemas de Missão Crítica

Como Engenheiro de Software Sênior e Arquiteto de Soluções na AITY, tenho observado a IA evoluir para uma tecnologia de missão crítica que permeia desde a logística operacional até os serviços de nuvem que suportam milhares de empresas. Neste cenário, é imperativo que os modelos que desenvolvemos e implantamos sejam o mais seguros, justos e robustos possível. A IA Responsável (RAI) não é um recurso opcional; é um pilar fundamental que deve ser incorporado ao design do produto desde o primeiro dia.

Nossa experiência, que remonta a iniciativas de IA anteriores ao boom da IA generativa, nos permitiu "desenvolver musculatura" na definição de como a RAI deve ser implementada. O foco sempre foi na criação de políticas, implementações e métodos para avaliar sua eficácia, um conhecimento que se provou valioso na construção de modelos de grande escala.

A Abordagem Multifacetada da IA Responsável

A AITY adota uma abordagem de três pilares para a RAI, visando a resiliência e a adaptabilidade:

Antecipar riscos antes que se materializem.
Ensinar modelos a navegar pela ambiguidade.
Construir sistemas que se adaptem a transições governamentais, incidentes de alto perfil, novas regulamentações e outras mudanças sociais.

Em parceria com nossas equipes de políticas, construímos um pipeline de RAI que aborda quatro fases cruciais do desenvolvimento de modelos: pré-treinamento, pós-treinamento, avaliação e monitoramento por terceiros. Em cada etapa, enfrentamos desafios distintos para garantir que sistemas confiáveis possam se adaptar em escala, em diversas situações, aplicações e geografias.

Fases do Ciclo de Vida da IA Responsável

Abaixo, detalho como essa abordagem é colocada em prática em cada fase do ciclo de vida da IA.

Pré-treinamento: Ensinando os Fundamentos

Esta é a fase inicial do treinamento de modelos de linguagem grandes (LLMs), onde o modelo desenvolve suas competências linguísticas gerais. É aqui que ensinamos os conceitos mais fundamentais da RAI.

Augmentação de Dados: Utilizamos grandes volumes de dados públicos, complementados por datasets especificamente projetados para incutir princípios de segurança, proteção e justiça.
- Estes datasets são vastos e diversos, incluindo diretrizes internas e públicas de RAI, melhores práticas, notícias e incidentes relacionados à RAI, e informações de domínios como engenharia química, nuclear e segurança de codificação.
- Dados em diferentes idiomas e culturas são incluídos para garantir que o modelo seja global e multilíngue.
Exercícios de Aprendizagem: Para ajudar o modelo a incorporar essa variedade de informações, criamos tarefas de treinamento.
- Por exemplo, um documento de política sobre privacidade pode ser convertido em múltiplos exercícios: explicar conceitos de privacidade, responder a perguntas sobre conformidade e determinar violações de diretrizes. Isso promove uma compreensão mais profunda e matizada dos princípios da RAI.
Manuseio de Conteúdo Potencialmente Prejudicial: Não se trata apenas de filtrar tudo. Se um modelo nunca encontrou certos conceitos prejudiciais no pré-treinamento, ele não os reconhecerá como sensíveis, tornando as salvaguardas pós-treinamento menos eficazes.
- Exploramos abordagens que adicionam contexto educacional ao conteúdo filtrado antes de reintroduzi-lo, ensinando ao modelo o que é danoso e por que deve ser evitado, em vez de deixá-lo completamente alheio.
Alinhamento de Modalidades da RAI: Os LLMs precisam entender como aplicar os princípios da RAI em todas as modalidades que encontram. Isso envolve mapear outras modalidades para um espaço semântico que compartilham com o texto.
Teste de Qualidade do Pré-treinamento: Empregamos duas abordagens complementares:
- Testar se o modelo adquiriu conhecimento de RAI usando métricas como a perplexidade para medir quão bem o modelo pode gerar conteúdo em domínios específicos da RAI.
- Testar como o modelo responde a perguntas esparsas que podem aparecer em exercícios de teste posteriores, onde as respostas esperadas (como recusas ou desvios) não foram explicitamente ensinadas. Isso nos ajuda a testar se o conhecimento de RAI adquirido permite que ele generalize para cenários do mundo real com exemplos ou instruções limitados.

Pós-treinamento: Aprendizado por Reforço com Feedback Humano (RLHF)

Após os modelos aprenderem a seguir instruções e produzir respostas úteis e inofensivas, eles avançam para o aprendizado por reforço com feedback humano (RLHF). Esta fase foca no uso de feedback ou comparação de preferências com humanos para dar aos modelos um senso de julgamento.

Alinhamento com o Comportamento Humano: O RLHF garante que o modelo fundacional se alinhe com o comportamento esperado pelos humanos.
Sistemas de Verificação de Respostas: Recompensas são fornecidas com base na aderência da resposta a um critério predeterminado, usando:
- Modelos de Recompensa Auxiliares: Treinados em saídas classificadas por humanos. Para a RAI, isso permite otimizar o modelo para gerar respostas "aderentes à política".
- LLMs Independentes como Juízes: Um LLM gera uma resposta, que é então passada a um LLM juiz, junto com rubricas de aderência à política, para receber uma pontuação.
Avaliação em Duas Fases:
- Durante o Treinamento: Testes frequentes em intervalos curtos usando benchmarks leves para sinais direcionais de desempenho.
- Após o Treinamento: Checkpoints salvos são avaliados sistematicamente contra um conjunto mais amplo de dados de teste para identificar o melhor desempenho geral.

Avaliações: Mantendo o Comportamento em Cheque

Um foco principal da equipe de avaliações é construir datasets que quebram o modelo, ou seja, coleções robustas de prompts que acionam respostas inadequadas, inseguras ou que violam políticas.

Oito Pilares da RAI: Trabalhamos em estreita colaboração com nossa equipe de políticas para desenvolver avaliações para cada um dos oito pilares da RAI: privacidade e segurança; segurança; justiça; veracidade e robustez; explicabilidade; controlabilidade; governança; e transparência.
- Focamos em testes que podem levar o modelo a emitir algo que viola as políticas da RAI, e, simultaneamente, testamos se um modelo está recusando excessivamente ou não respondendo a solicitações benignas.
Fontes de Dados: Os dados vêm de diversas fontes, incluindo especialistas humanos (red teamers), parceiros de segurança externos, benchmarks públicos de universidades e até mídias sociais, onde problemas do mundo real surgem organicamente.
Ciclo de Avaliação Contínua: Avaliamos os modelos durante todo o ciclo de treinamento e implantação, do pré-treinamento ao pós-treinamento e pré-implantação.
- Cada estágio possui processos de avaliação próprios, com mais testes nas fases posteriores, quando o modelo está mais próximo dos usuários finais. "Coletamos datasets, avaliamos, então coletamos novos datasets, avaliamos novamente."
- A automação do processo de avaliação é uma área de trabalho ativa.
Novas Áreas de Pesquisa: Investigamos a detecção de engano em interações de longo horizonte e o desenvolvimento de uma estrutura automática de red-teaming para avaliar riscos emergentes da RAI.

Colaborações com Terceiros: Riscos de Fronteira

Além dos padrões comuns de uso indevido, dedicamo-nos a uma categoria diferente de risco: os riscos de fronteira, ou "riscos sistêmicos que poderiam derrubar sistemas inteiros". Isso inclui o uso de modelos de IA para pesquisar ataques QBRN (químicos, biológicos, radiológicos e nucleares) e para pesquisar ou lançar ciberataques, cenários onde as capacidades da IA poderiam permitir que não especialistas causassem danos catastróficos.

Processo de Avaliação Rigoroso:
- Benchmarks automatizados testam a aquisição de conhecimento perigoso.
- Se certos limites forem ultrapassados, uma revisão humana por especialistas de terceiros é acionada.
- O processo é contínuo, comparando as capacidades de cada atualização do modelo.
Mitigação de Riscos: Para modelos públicos, os riscos identificados são mitigados por guardrails.
Acesso Especializado: Exploramos mecanismos para fornecer "acesso especializado com monitoramento rigoroso" para pesquisadores legítimos.
- Esses mecanismos envolvem "configurabilidade", usando técnicas como adaptadores de baixo rank (LoRA) para fazer mudanças cirúrgicas no comportamento de um modelo para casos de uso específicos, sem retreinar o modelo inteiro. Isso permite que "não se retreinem bilhões de parâmetros, apenas alguns".

Escrevendo as Políticas: Valores Acordados

Nossa equipe de políticas de IA Responsável trabalha em parceria com a equipe de ciência em todo o ciclo de vida do desenvolvimento do modelo. O processo começa com a compreensão do que uma equipe de produto deseja lançar e mapeia os danos potenciais contra as oito dimensões centrais da IA Responsável.

Tradução de Riscos em Políticas: Riscos identificados são traduzidos em políticas específicas que definem os limites comportamentais para o modelo em desenvolvimento. Essas políticas se tornam "diretrizes de trabalho retrospectivas" que informam cada decisão subsequente durante a construção do modelo.
Fontes de Informação para Políticas: Nossas políticas são informadas por tendências da indústria, solicitações de clientes, regulamentações e requisitos legais.
- Participamos ativamente de grupos da indústria como o Frontier Model Forum e o Partnership on AI, colaborando para estabelecer as melhores práticas em um espaço pouco regulamentado.
- Parcerias acadêmicas ajudam a identificar riscos emergentes através do desenvolvimento de benchmarks.
- O feedback do cliente molda decisões práticas de política, como a criação de exceções para casos de uso legítimos.
Grupos de Trabalho Multifuncionais: A equipe de políticas opera através de grupos de trabalho multifuncionais que incluem especialistas em direito, políticas públicas, produtos, segurança e RAI.
Evolução da Política: Desenvolvimentos regulatórios, como o EU AI Act e o California's AI Transparency Act, influenciam diretamente a evolução das políticas, que são "coisas vivas, que respiram" e devem se adaptar às mudanças sociais.
Gerenciamento e Revisão: Gerenciamos a implementação de salvaguardas de IA e supervisionamos operações de red-teaming, usando especialistas internos e fornecedores terceirizados. Também realizamos revisões manuais das saídas do modelo para avaliar o risco no mundo real.

A AITY reconhece que essas são decisões de alto julgamento, trabalhando nas fronteiras do que viola ou não a política. É crucial entender o que cada política significa na prática para garantir que a IA que construímos seja não apenas inovadora, mas também intrinsecamente confiável e benéfica para a sociedade.