Engenharia

LLMs Eficientes: Arquitetura e Leis de Escala

Introdução: Navegando o Trade-off de Eficiência em LLMs

Como Engenheiro de Software Sênior e Arquiteto de Soluções na AITY, acompanho de perto a evolução dos Large Language Models (LLMs). É inegável que eles se tornam cada vez maiores e melhores. No entanto, o custo de operá-los — seja gerando texto, respondendo perguntas ou impulsionando aplicações em tempo real — também escala. Para aplicações web baseadas em IA em tempo real, a precisão do modelo é vital, mas não pode vir à custa da eficiência.

Em um artigo que apresentamos na International Conference on Learning Representations (ICLR), oferecemos um framework para navegar nesse trade-off entre precisão e eficiência. Conectamos diretamente as leis de escala às decisões de design arquitetônico.

A Lacuna nas Leis de Escala Atuais

Em 2022, o Google DeepMind publicou um estudo com o LLM experimental Chinchilla, demonstrando uma lei de escala que permitia a otimização conjunta do tamanho do modelo e dos dados de treinamento para atingir um nível de perda desejado, dado um orçamento computacional específico. Esta "lei de Chinchilla" relaciona a perda do modelo (L) ao número de parâmetros do modelo (N) e ao número de tokens no conjunto de dados de treinamento.

Apesar de sua importância, essa lei não especifica escolhas arquitetônicas, como o "tamanho oculto" (hidden size) das representações internas do modelo, ou a alocação relativa de parâmetros entre camadas de atenção e camadas Multilayer Perceptron (MLP). Dois modelos com o mesmo número de parâmetros (por exemplo, um bilhão), treinados nos mesmos dados e com a mesma precisão, podem diferir em até 40% no throughput em tempo de inferência, dependendo dessas escolhas arquitetônicas adicionais. Nosso trabalho visou deduzir leis de escala que pudessem prever essas escolhas.

A Arquitetura Transformer

A arquitetura Transformer, que está no cerne de todos os LLMs, consiste principalmente em blocos empilhados de atenção e MLP.

É fundamental entender que a arquitetura não é um detalhe. As configurações corretas podem desbloquear grandes ganhos de eficiência sem custo na precisão.

Nossa Abordagem: Arquitetura como Variável de Primeira Classe

Em nosso artigo da ICLR, introduzimos uma lei de escala que amplia o framework Chinchilla com três fatores arquitetônicos críticos:

Cada fator impacta diretamente o throughput de inferência:

É importante notar que ajustar esses fatores puramente para maior throughput pode ter um custo na precisão. Tanto o tamanho oculto quanto a razão MLP-para-atenção exibem curvas de perda em forma de "U", indicando um ponto ótimo. O GQA, por ter um efeito mais errático na perda, é tratado como um hiperparâmetro discreto ajustado por busca local.

Nossa lei de escala é deduzida em duas etapas: 1. Ajustamos a lei de Chinchilla padrão ao modelo em investigação, calculando os coeficientes (E, A, B, α, β) para estabelecer uma perda de referência ótima. 2. Calibramos como cada escolha arquitetônica (diferenças nos três fatores) afeta essa perda, aprendendo uma superfície de correção sobre o espaço de design. Os efeitos de tamanho oculto e razão MLP-para-atenção na perda se mostraram separáveis, permitindo a otimização independente de cada fator.

Duas Famílias de Modelos: Panda e Surefire

Essa lei de escala nos permitiu desenvolver um framework de busca que identifica arquiteturas Pareto-ótimas para qualquer alvo de precisão. O resultado dessa busca foram duas famílias de modelos:

Para validar o framework, treinamos mais de 200 modelos com arquiteturas variadas (de 80 milhões a três bilhões de parâmetros, oito bilhões a 100 bilhões de tokens). Os resultados dos experimentos com modelos de um e três bilhões de parâmetros são notáveis:

Impacto Prático na AITY

Nossa pesquisa na AITY revela insights cruciais com impacto direto no desenvolvimento e implantação de LLMs eficientes:

Esta abordagem estratégica na AITY nos capacita a construir e implantar LLMs de ponta que são simultaneamente poderosos e eficientes, garantindo que nossos clientes recebam o melhor desempenho ao menor custo operacional possível.

Comentários

Interações
Seu Perfil

Aguardando Login...