Otimizando RL e Distilação: Eficiência em ML

Introdução à Eficiência em Modelos de Linguagem e Visão

O Reinforcement Learning (RL) emergiu como um paradigma poderoso para desbloquear capacidades de raciocínio em Large Language Models (LLMs). Contudo, a dependência de recompensas esparsas torna este processo altamente ineficiente em termos de amostras, pois os modelos precisam navegar em vastos espaços de busca com feedback mínimo. Embora o aprendizado curricular clássico tente mitigar isso ordenando dados com base na complexidade, a ordenação correta para um modelo específico é frequentemente incerta. Abordagens inovadoras estão surgindo para resolver esses desafios, focando na otimização do processo de treinamento e na eficiência computacional.

Goldilocks RL: Ajustando a Dificuldade da Tarefa para Raciocínio

Para superar a ineficiência de recompensas esparsas em RL para raciocínio, propomos Goldilocks, uma estratégia inovadora de amostragem de dados guiada por um modelo "professor".

Previsão de Dificuldade: O modelo professor prevê a dificuldade de cada questão para o modelo "aluno".
Princípio Goldilocks: O professor seleciona questões que não são "nem muito fáceis, nem muito difíceis" – o ponto ideal para o aprendizado do aluno – enquanto treina o aluno com GRPO.
Adaptação Contínua: Alavancando o desempenho do aluno em amostras já vistas, o professor adapta-se continuamente às habilidades em evolução do aluno.
Impacto: No conjunto de dados OpenMathReasoning, a amostragem de dados Goldilocks melhora o desempenho de modelos treinados com GRPO padrão sob o mesmo orçamento computacional.

Repensando JEPA: SSL de Vídeo com Professores Congelados para Eficiência

Video Joint Embedding Predictive Architectures (V-JEPA) aprendem representações de vídeo generalizáveis prevendo regiões mascaradas no espaço latente. Tradicionalmente, isso é feito com um professor atualizado por Exponential Moving Average (EMA).

Desafios do EMA: Embora o EMA previna o colapso da representação, ele complica a seleção escalável do modelo e acopla as arquiteturas do professor e do aluno.
Inovação: Uma pesquisa recente revisita a predição latente mascarada e demonstra que um professor congelado é suficiente.
Benefícios: Esta abordagem simplifica significativamente o processo, resultando em:
- Maior eficiência computacional.
- Seleção de modelo simplificada.
- Desacoplamento das arquiteturas do professor e do aluno.

Leis de Escala para Destilação de Modelos

Apresentamos uma lei de escala de destilação que permite estimar o desempenho do modelo destilado com base em um orçamento computacional e sua alocação entre o aluno e o professor.

Mitigação de Riscos: Nossos achados mitigam os riscos associados à destilação em larga escala.
Alocação Ótima: Possibilitam a alocação computacional ótima tanto para o professor quanto para o aluno, maximizando o desempenho do aluno.
Receitas de Destilação: Fornecemos "receitas" de destilação computacionalmente ótimas para dois cenários-chave:
- Quando um professor já existe.
- Quando o professor precisa ser treinado.

Estas descobertas são cruciais para otimizar o uso de recursos em projetos de IA de grande escala.

Impacto Prático

Essas inovações – desde a estratégia Goldilocks RL que ajusta dinamicamente a dificuldade da tarefa, passando pela simplificação computacional das arquiteturas V-JEPA com professores congelados, até as leis de escala que guiam a destilação eficiente de modelos – representam um avanço significativo na eficiência e escalabilidade do treinamento de modelos de IA. Na AITY, estamos focados em alavancar essas técnicas para desenvolver sistemas de IA mais inteligentes, mais rápidos e mais sustentáveis, entregando valor prático para diversas aplicações em larga escala.

Introdução à Eficiência em Modelos de Linguagem e Visão

Goldilocks RL: Ajustando a Dificuldade da Tarefa para Raciocínio

Repensando JEPA: SSL de Vídeo com Professores Congelados para Eficiência

Leis de Escala para Destilação de Modelos

Impacto Prático

Comentários