Engenharia

Monitoramento de Agentes Autônomos de Código para Alinhamento e Segurança

Introdução: A Era dos Agentes de IA Autônomos e a Necessidade de Segurança

Como Engenheiro de Software Sênior e Arquiteto de Soluções na AITY, tenho acompanhado de perto a evolução dos sistemas de Inteligência Artificial. Testemunhamos um avanço sem precedentes na capacidade dos sistemas de IA de operar com maior autonomia em ambientes reais e em escala. À medida que essas capacidades se desenvolvem, a IA assume tarefas de alto impacto e complexidade crescente, interagindo com ferramentas, sistemas e fluxos de trabalho de maneiras que se assemelham a colaboradores humanos.

Nesse cenário, a missão da AITY inclui não apenas construir sistemas altamente capazes, mas também desenvolver os métodos, a infraestrutura e as abordagens necessárias para implantá-los e gerenciá-los com segurança. O monitoramento de agentes internamente implantados é uma das formas-chave de atingir esse objetivo, permitindo-nos aprender com o uso no mundo real e identificar e mitigar riscos emergentes. Nos últimos meses, construímos e refinamos um sistema de monitoramento para agentes de código que usamos internamente, como parte de nossa abordagem de segurança mais ampla.

A Necessidade Crítica de Monitoramento em Agentes Autônomos de Código

A utilização de agentes de codificação avançados internamente oferece uma oportunidade única para compreender seu comportamento em fluxos de trabalho realistas e como os usuários os aplicam em tarefas complexas e ricas em ferramentas. No entanto, essas implantações internas vêm com fatores de risco para desalinhamento:

Essas propriedades tornam as implantações internas um ambiente de importância única para inovar em infraestrutura de monitoramento. Acreditamos que salvaguardas semelhantes devem ser padrão para implantações de agentes de codificação internas em toda a indústria.

À medida que as capacidades avançam, o monitoramento do comportamento dos agentes, incluindo suas ações e seu raciocínio interno, torna-se uma ferramenta de segurança cada vez mais vital. Nosso objetivo é sinalizar comportamentos relevantes para o desalinhamento que são difíceis de identificar antes da implantação, pois geralmente aparecem apenas em fluxos de trabalho realistas, ricos em ferramentas e sessões estendidas. É igualmente crucial preservar a privacidade do usuário e a segurança dos dados das sessões dos agentes de codificação, e só apresentar comportamentos problemáticos de forma estritamente delimitada.

Arquitetura e Funcionamento do Nosso Sistema de Monitoramento

Para suportar esta demanda, desenvolvemos um sistema de monitoramento interno de baixa latência, impulsionado por nossos modelos de raciocínio mais avançados (similares ao GPT-5.4, com esforço máximo de raciocínio). Este sistema:

Este ciclo de feedback permite-nos detectar e resolver rapidamente potenciais problemas de segurança, melhorar o alinhamento de nossos modelos e é um componente central de nossa estratégia de segurança de agentes a longo prazo.

Atualmente, nosso sistema revisa as interações dentro de 30 minutos após a conclusão, categorizando a interação e atribuindo-lhe um nível de gravidade. À medida que a latência diminui para uma revisão quase em tempo real, os benefícios de segurança aumentam significativamente. No futuro, o monitor poderá até ajudar a avaliar as ações dos agentes de codificação antes que sejam tomadas, fornecendo um controle adicional de defesa em profundidade.

Resultados e Descobertas Iniciais

Os resultados iniciais são promissores. O sistema de monitoramento consistentemente supera as escaladas de funcionários, sinalizando todas as interações que os funcionários relataram independentemente através de canais internos. O monitor também revelou muitos outros comportamentos que poderiam ter passado despercebidos pelos usuários internos.

Através deste trabalho, descobrimos que nossos modelos podem ser excessivamente ansiosos para contornar restrições em busca de um objetivo especificado pelo usuário, especialmente quando a solicitação do usuário inadvertidamente os incentiva. Dito isso, até agora não vimos evidências de motivações além da tarefa original (por exemplo, autopreservação ou esquemas).

Em cinco meses de operação, monitoramos dezenas de milhões de trajetórias de agentes de codificação internos:

Limitações e Caminho a Seguir

Embora nossa abordagem de monitoramento de desalinhamento interno seja altamente eficaz, ela possui limitações. A principal é a dependência da monitorabilidade. Alguns comportamentos são mais fáceis de detectar a partir do raciocínio do modelo e rastreamentos de ferramentas do que outros, e modelos futuros podem exibir comportamentos mais difíceis de identificar.

Consideramos o monitoramento uma camada em uma pilha de defesa em profundidade, investindo em rastreamentos de raciocínio monitoráveis e emparelhando monitores com avaliações complementares e controles preventivos. Nosso roteiro para essa infraestrutura inclui:

Dentro de seus limites atuais, o sistema já se mostrou útil: revelou casos adicionais que provavelmente teriam passado despercebidos, e utilizamos suas descobertas para fazer melhorias concretas, incluindo atualizações em salvaguardas e mensagens do sistema. Igualmente importante, seus alertas de baixa latência permitem investigar e conter problemas logo após sua ocorrência, limitando o impacto potencial a jusante.

Conclusão: Fortalecendo a Segurança e o Alinhamento da IA

Na AITY, nosso objetivo é estabelecer práticas robustas de monitoramento internamente, fortalecê-las através da experiência no mundo real e, em última análise, ajudar a tornar salvaguardas semelhantes um padrão em toda a indústria. Olhando para o futuro, planejamos explorar uma pilha de monitoramento mais síncrona que possa avaliar e potencialmente bloquear as ações de maior risco antes da execução, especialmente em configurações onde um único passo pode causar danos irreversíveis.

Continuaremos a usar nossos modelos mais poderosos para esta tarefa, pois acreditamos que a partilha responsável de evidências do mundo real sobre o comportamento inadequado do modelo beneficia todo o campo da IA. Este é um passo essencial na gestão de riscos à medida que as capacidades da IA avançam, garantindo que a tecnologia sirva à humanidade de forma segura e alinhada.

Comentários

Interações
Seu Perfil

Aguardando Login...