C3LLM: Certificando Riscos Conversacionais Catastróficos em LLMs

Introdução: Elevando a Segurança de LLMs Além do Red-Teaming Tradicional

Com a crescente utilidade dos Large Language Models (LLMs) em diversos domínios, a importância de mantê-los seguros aumenta proporcionalmente. Cenários onde atores mal-intencionados podem tentar usar LLMs para gerar código malicioso ou guias para sintetizar compostos tóxicos exigem salvaguardas rigorosas. Atualmente, a forma mais comum de avaliar riscos em LLMs é o red-teaming, onde avaliadores humanos criam prompts adversários para provocar respostas prejudiciais.

No entanto, o red-teaming tradicional possui limitações significativas: * Conjuntos de prompts elaborados por especialistas não capturam a totalidade dos resultados possíveis. * Muitas avaliações focam em prompts isolados, e não em conversas, que é onde comportamentos prejudiciais frequentemente emergem. * As métricas de falha de benchmark fornecem apenas uma pontuação única, sem limites de confiança sobre os riscos conversacionais no pior cenário, tornando as descobertas não confiáveis e não generalizáveis para o vasto espaço de conversas possíveis.

Em um artigo apresentado na International Conference on Learning Representations (ICLR) deste ano, nós, em colaboração com pesquisadores da University of Illinois Urbana-Champaign (UIUC), abordamos essas limitações do red-teaming. Nosso framework, chamado C3LLM (certifying catastrophic conversational risks in LLMs), foca nas falhas dentro de modelos de ameaça conversacional e atribui uma probabilidade à taxa de ataque, definida como o número de ataques bem-sucedidos dividido pelo total de ataques. Nossa abordagem muda o foco da avaliação de falhas de uma verificação empírica pontual para uma certificação estatística.

Como o C3LLM Modela Conversas

Para construir o C3LLM, primeiro modelamos conversas, também conhecidas como "diálogos multi-turno". Utilizamos um grafo onde cada nó corresponde a um prompt e as arestas que conectam os nós indicam que os prompts são semanticamente relacionados. Este grafo aproxima transições conversacionais plausíveis, capturando como um usuário pode progredir naturalmente por perguntas relacionadas, gerando uma imagem mais completa de consultas que mantém a complexidade das conversas possíveis.

A capacidade de modelar conversas por meio de um grafo também nos permite definir a distribuição de ameaças conversacionais, possibilitando determinar a probabilidade de dano em diversas capacidades adversárias.

Níveis de Capacidade Adversarial

Simulamos diferentes níveis de capacidade adversarial dentro do nosso modelo de grafo:

Nível Mais Baixo: Amostragem Independente (RNwJ)
- Amostramos prompts de forma independente, semelhante ao benchmarking tradicional, focando em um único nó ou consulta por vez.
- Denominado Random Node with Jailbreak (RNwJ).
Nível Intermediário: Caminhos Semânticos (GPv e GPh)
- Envolve a amostragem de uma sequência que segue caminhos semanticamente conectados através do grafo.
- Graph Path vanilla (GPv): Cada consulta é amostrada seguindo o grafo.
- Graph Path harmful target constraint (GPh): Restringe a consulta final a vir de um conjunto de alvos prejudiciais.
Nível Mais Avançado: Direcionamento Adversário (AwR)
- Aproximamos o direcionamento adversário, onde um ator mal-intencionado persuade um LLM a produzir uma saída prejudicial.
- Para este nível, amostramos de forma adaptativa, examinando movimentos anteriores ao longo da conversa baseada em grafo para mapear a distância até uma consulta que, em última instância, produz a saída prejudicial.
- Esta abordagem, Adaptive with Rejection (AwR), pode mimetizar o red-teaming realista onde um atacante adapta sua fraseologia para contornar mecanismos de segurança.

Medindo o Risco Catastrófico

O grafo nos permite criar conjuntos de prompts de diálogo multi-turno — sequências específicas de consultas — que podemos executar em um LLM alvo. Em seguida, rotulamos as respostas do LLM como catastróficas ou não-catastróficas usando um mecanismo de julgamento separado baseado no ChatGPT, que determina se as respostas do modelo são prejudiciais. Isso produz estimativas empíricas das taxas de sucesso de ataque sob cada distribuição conversacional. Dada a taxa de sucesso de ataque, o C3LLM utiliza o método Clopper-Pearson para calcular os limites inferior e superior da probabilidade de risco catastrófico.

Aplicação Prática e Resultados

Pesquisadores da UIUC aplicaram o framework C3LLM em modelos proprietários de ponta disponíveis na época do estudo, como Claude-Sonnet-4 e Nova Premier, bem como em modelos de pesos abertos (cujos parâmetros treinados são publicamente disponíveis). Os resultados revelam que os riscos catastróficos são não triviais para todos os LLMs de ponta, com diferenças notáveis na segurança entre os modelos.

Benchmark Químico/Biológico e Cibercrime:
- Ao comparar os limites, observamos que, entre os modelos avaliados, Claude-Sonnet-4 e Nova Premier são mais seguros que os outros.
- Nova Premier, em particular, demonstra níveis de risco consistentemente baixos, em grande parte devido aos seus mecanismos de proteção integrados que frequentemente bloqueiam conteúdo potencialmente inseguro.
- Por outro lado, Mistral-Large e DeepSeek-R1 exibem riscos mais elevados.
- DeepSeek-R1 atinge um limite inferior certificado de mais de 70% em cenários de cibercrime sob distribuições RNwJ.

Conclusão e Impacto Prático

Ao contrário de trabalhos anteriores que reportam taxas de sucesso de ataque em benchmarks fixos, a abordagem do C3LLM oferece limites probabilísticos de alta confiança sobre grandes espaços de conversação. Isso permite comparações significativas entre modelos e fornece uma base mais robusta para entender e mitigar riscos. Ao disponibilizarmos o framework C3LLM como open-source para reprodutibilidade, esperamos capacitar pesquisadores na indústria e academia a realizar estudos de segurança mais rigorosos e principiais, pavimentando o caminho para LLMs mais seguros e confiáveis no futuro.