Protegendo Dados de Treinamento em ML com DP e MPC

Introdução: A Essencial Proteção de Dados Sensíveis em Modelos de ML

Como Engenheiro de Software Sênior e Arquiteto de Soluções na AITY, vejo diariamente a evolução dos modelos de Machine Learning (ML). Embora Large Language Models (LLMs) se beneficiem de vastos corpora de dados públicos, muitos modelos de ML são treinados em conjuntos de dados proprietários, menores e altamente sensíveis. Pense em um hospital ajustando um modelo diagnóstico com exames radiológicos de pacientes, um banco treinando um detector de fraudes com históricos de transações, ou uma farmacêutica construindo um modelo de interação medicamentosa a partir de registros de ensaios clínicos. Nesses cenários, os dados de treinamento são o ativo crucial a ser protegido. No entanto, um ataque bem-sucedido a esses modelos pode potencialmente extrair informações sobre os dados subjacentes.

Esses riscos não são hipotéticos. Um artigo de 2023 do Google DeepMind demonstrou que o GPT-3.5-turbo poderia regurgitar dados de treinamento verbatim, incluindo informações de identificação pessoal. Modelos menores e específicos de domínio, treinados em conjuntos de dados concentrados e sensíveis, são ainda mais vulneráveis. À medida que as organizações treinam cada vez mais modelos com registros financeiros sensíveis, dados de saúde de pacientes e inteligência de negócios proprietária, a superfície de ataque cresce proporcionalmente. Um ataque bem-sucedido contra um modelo de saúde poderia revelar se os registros de um paciente específico foram usados no treinamento, uma violação de regulamentações como a HIPAA (EUA) e a GDPR (UE). Para qualquer organização que treine com dados privados, compreender e mitigar essas ameaças não é mais opcional; é uma necessidade para a implantação responsável da IA.

Nesta publicação, exploraremos três cenários de ataque crescentes e como a Privacidade Diferencial (DP) e a Computação Multipartidária Segura (MPC) os neutralizam, demonstrando a abordagem da AITY para a segurança robusta da IA.

Ataque 1: Inferência de Membro em Modelos Únicos

Qualquer pessoa com acesso de consulta a um modelo pode, potencialmente, determinar se um registro específico foi usado para treiná-lo – um ataque conhecido como inferência de membro. Imagine que um hospital implementa um modelo de diagnóstico como uma API para médicos. Um agente malicioso poderia sondar a API para determinar se os registros de um paciente específico foram incluídos nos dados de treinamento. Isso confirmaria que o paciente foi tratado no hospital e revelaria detalhes sobre seu histórico médico.

Pesquisadores da Amazon Web Services, em um artigo de 2023 na Conference on Neural Information Processing Systems (NeurIPS), demonstraram como isso funciona na prática: * Um modelo treinado tende a produzir previsões com maior confiança para entradas nas quais foi treinado, uma forma de overfitting que o atacante pode explorar. * O atacante gera um conjunto de dados que se aproxima da distribuição dos dados de treinamento do modelo. * Em seguida, registra as pontuações de confiança do modelo nessas amostras. * Usando essas pontuações como rótulos, o atacante treina um modelo proxy que aprende um ponto de corte de pontuação de confiança, separando dados de treinamento de não-treinamento. * Com um registro candidato, o atacante avalia o modelo proxy para obter o ponto de corte e, em seguida, consulta o modelo alvo. Se a pontuação de confiança do modelo alvo exceder o ponto de corte, o registro provavelmente estava no conjunto de treinamento. * Os autores demonstraram isso contra um modelo ResNet-50 treinado no ImageNet-1k: 97% dos registros sinalizados pelo ataque como dados de treinamento eram, de fato, dados de treinamento.

Mitigação: Privacidade Diferencial (DP)

A AITY adota a Privacidade Diferencial (DP) para mitigar ataques de inferência de membro. DP é uma estrutura matemática para computar estatísticas agregadas, limitando o quanto qualquer entrada única pode influenciar o resultado. A ideia central é que, se pudermos randomizar a função de forma que adicionar ou remover um registro do conjunto de dados altere minimamente a distribuição da saída da função, um atacante não poderá determinar com confiança se esse registro foi incluído.

Formalmente, uma função randomizada é diferencialmente privada se, para qualquer registro único adicionado ou removido do conjunto de dados de entrada, a probabilidade de qualquer saída dada mudar no máximo por um fator de e^ε, onde e é a base do logaritmo natural e ε é o orçamento de privacidade. Um ε menor significa maior privacidade, mas mais ruído na computação, e vice-versa. Embora a orientação do NIST sugira que ε < 1 geralmente impõe um risco de privacidade baixo o suficiente, muitas implementações no mundo real operam entre 1 e 10. Estudos empíricos indicam que ε tão alto quanto 3 ainda pode fornecer privacidade de dados significativa contra ataques como inferência de membro.

A DP anula a inferência de membro porque o ataque depende de uma lacuna entre a confiança do modelo nos dados de treinamento e nos dados não vistos. A DP estreita essa lacuna, garantindo que o modelo teria aprendido quase os mesmos parâmetros, independentemente de qualquer registro específico ter sido incluído em seus dados de treinamento.

Como essa abordagem é aplicada ao ML? Redes neurais são treinadas usando Stochastic Gradient Descent (SGD). Pesquisadores do Google introduziram o DP-SGD em um artigo seminal de 2016, que adiciona ruído gaussiano calibrado a cada gradiente de lote durante o treinamento. Em nossos experimentos na AITY, ao implementarmos o DP-SGD e treinarmos uma rede neural no conjunto de dados EMNIST (letras manuscritas), o modelo DP alcançou 78% de precisão de teste com ε = 1.5 e 82% com ε = 3.0, em comparação com 90% sem DP.

A DP aborda ataques a um único modelo, mas o que acontece quando várias organizações colaboram para treinar um? O Aprendizado Federado (FL) introduz uma superfície de ataque diferente, que visa o próprio processo de treinamento.

Ataque 2: Vazamento de Dados no Aprendizado Federado (FL)

O Aprendizado Federado é um método de ML descentralizado no qual um modelo global é treinado em conjuntos de dados distribuídos entre múltiplas partes, sem o compartilhamento direto dos conjuntos de dados brutos. Cada parte treina um modelo inicial em um lote de treinamento local, obtendo um gradiente local. Os gradientes locais são então enviados a um servidor central, que os agrupa em um gradiente global. As partes, em seguida, produzem cópias do modelo global atualizando seus modelos locais com o gradiente global.

Inesperadamente, os gradientes que o aprendizado federado foi projetado para compartilhar (em vez de dados brutos) acabam vazando esses dados. Em um artigo do NeurIPS de 2019, uma equipe de pesquisadores do MIT demonstrou que os gradientes locais das partes vazam informações sobre as amostras de treinamento das quais são calculados, permitindo ataques de inversão de modelo nos quais o servidor pode reconstruir as amostras de treinamento das partes.

Este ataque se baseia na observação de que um gradiente contém diretamente dados sobre a amostra da qual é calculado.
Consequentemente, uma amostra pode geralmente ser reconstruída a partir de seu gradiente.
Duas batches de treinamento semanticamente distintas dificilmente admitem o mesmo gradiente de batch.
O atacante formula o problema de reconstruir as amostras de um batch de uma parte a partir de seu gradiente local como um problema de otimização: encontrar o batch de treinamento cujo gradiente é minimamente distante do gradiente alvo.
O atacante pode então computar aproximadamente a solução (o batch de treinamento) aplicando SGD.
Em nossos experimentos na AITY com o conjunto de dados EMNIST, o ataque recuperou exatamente batches de uma única amostra e três amostras de um batch de sete.

Prevenir esse vazamento de dados exige garantir que nenhuma parte, incluindo o servidor, jamais veja o gradiente de outra parte em claro.

Mitigação: Computação Multipartidária Segura (MPC)

A AITY utiliza a Computação Multipartidária Segura (MPC) para proteger os gradientes no FL. MPC é um protocolo criptográfico que permite que múltiplas partes computem conjuntamente uma função sobre suas entradas privadas, sem revelar nada além da saída da função. Intuitivamente, as partes trocam apenas valores intermediários criptografados, de modo que nenhuma parte jamais vê a entrada bruta da outra.

Um exemplo simples ilustra a ideia central: suponha que três partes possuam valores privados x, y e z. Cada parte divide seu valor em três "shares" aleatórias que somam o valor original e distribui uma share para cada parte. Cada parte soma as shares que recebe. As somas resultantes são elas próprias aleatórias, mas somam x + y + z. Após a troca dessas somas, todas as partes aprendem o total, mas nada sobre as entradas individuais umas das outras.

O Aprendizado Federado Privado (PFL) aplica essa técnica de soma segura ao FL: em vez de enviar gradientes locais brutos para um servidor, as partes "secret-share" seus gradientes e os agregam via MPC, de modo que o servidor só vê o resultado somado. Protocolos PFL mais eficientes existem, incluindo um apresentado em um artigo de 2023 coautorado pelo cientista principal sênior da Amazon, Tal Rabin, mas o princípio de segurança central é o mesmo.

Na AITY, executamos nosso ataque de inversão de modelo contra o gradiente local de uma parte, calculado sob nosso protocolo PFL, novamente usando o conjunto de dados EMNIST. O ataque foi incapaz de reconstruir quaisquer amostras de treinamento.

A MPC protege os gradientes trocados durante o FL, mas o modelo global em si é compartilhado com todos os participantes. Um participante adversário pode explorar o modelo para recuperar os dados de outros?

Ataque 3: Extração de Dados de Modelos Globais FL e Mitigação com DP

Mesmo com PFL permitindo que n partes computem com segurança um modelo FL global, os artigos de Fowl et al. (2022) e Shi et al. (2025) descrevem um ataque que permite a um participante FL adversário reconstruir os dados de treinamento de outro participante a partir do próprio modelo global.

Neste ataque, o atacante adiciona uma camada de pré-processamento com ativação ReLU (uma função de ativação comum de redes neurais) ao modelo.
Essa camada consiste em nB neurônios, onde B é o tamanho do batch. Isso ocorre porque cada uma das n partes produz um gradiente local que é uma média de B gradientes específicos de amostra, então o gradiente global FL é uma média de nB gradientes específicos de amostra; cada um dos nB neurônios na camada de pré-processamento será usado para reconstruir uma amostra de treinamento distinta.
O atacante elabora cuidadosamente os parâmetros da camada de pré-processamento para que a ReLU ative os sinais de todas as amostras no primeiro neurônio do gradiente global, todas, exceto uma amostra no segundo neurônio, todas, exceto duas amostras no terceiro neurônio, e assim por diante.
Assim, o atacante simplesmente examina as entradas do gradiente global correspondentes aos nB neurônios e subtrai sucessivamente os componentes entre neurônios adjacentes para separar os gradientes específicos de amostra.
Como mencionamos, uma amostra de treinamento pode ser diretamente recuperada de seu gradiente.

Em nossos experimentos na AITY com o conjunto de dados EMNIST, o ataque recuperou todas, exceto uma das amostras do batch local das partes, a partir do gradiente global.

No entanto, após alterarmos nosso protocolo PFL privado para, em vez disso, produzir um gradiente global diferencialmente privado — computado via DP-SGD com um orçamento de privacidade de 1.5 — o ataque falhou em recuperar qualquer informação significativa do gradiente global.

Em conjunto, DP e MPC formam camadas complementares de defesa: a MPC protege o que é trocado durante o treinamento, e a DP protege o que o modelo final revela.

Impacto Prático e a Abordagem da AITY

As demonstrações acima têm implicações claras: os ataques a dados de treinamento de ML são práticos hoje, e as ferramentas de computação privada para derrotá-los são maduras o suficiente para serem implantadas. A relação entre privacidade e utilidade é real: nossos modelos DP-SGD retiveram 78-82% de precisão com orçamentos de privacidade significativos, em comparação com 90% sem DP.

É importante notar que o impacto da DP na precisão depende muito da tarefa e do conjunto de dados. Nossos experimentos com EMNIST usaram um modelo relativamente pequeno com letras manuscritas, onde o ruído tem um efeito desproporcional. Na prática, modelos maiores, pré-treinados em dados públicos, absorvem o ruído da DP mais graciosamente quando ajustados com DP-SGD, conforme notado pelo NIST SP 800-226. Para muitos casos de uso em produção, como detecção de fraudes ou pontuação de risco clínico, uma redução modesta na precisão é um custo aceitável quando a alternativa é expor dados protegidos aos ataques descritos acima. O orçamento de privacidade correto é, em última análise, dependente da aplicação: um modelo que rastreia exames radiológicos pode tolerar menos perda de precisão do que um que sinaliza transações suspeitas. As organizações devem calibrar o ε para seus requisitos específicos de risco e regulatórios.

Na AITY, estamos ativamente incorporando capacidades de computação privada — pipelines de treinamento diferencialmente privados e agregação segura para aprendizado federado entre fronteiras organizacionais — em nossos sistemas de produção. Por exemplo, nossas equipes de prevenção de fraudes utilizam treinamento diferencialmente privado para proteger dados financeiros de clientes, mantendo a precisão da detecção. Se sua organização treina modelos com dados sensíveis, nós da AITY o convidamos a explorar nossas capacidades de ML que preservam a privacidade e a se conectar com nossa equipe para construir uma IA mais segura e responsável.