Tempo e Informação: Redefinindo a Inteligência em LLMs

Introdução: LLMs como Computadores de "Cadeia de Pensamento"

Quando solicitamos a um Large Language Model (LLM) que resolva uma equação polinomial complexa, ele não apenas retorna uma resposta, mas utiliza sua "cadeia de pensamento" para elaborar uma solução. Nesse sentido, o LLM se comporta como um computador, uma máquina que calcula a solução. No entanto, essa máquina é bastante diferente do que Alan Turing descreveu como um modelo universal de computação há quase 90 anos. Surge a questão: de que forma um LLM pode ser considerado um computador e ser universal, capaz de resolver qualquer tarefa computável, como uma máquina de Turing? E, se sim, como ele aprende essa habilidade a partir de dados finitos?

As teorias atuais de aprendizado de máquina oferecem pouca ajuda para responder a essas perguntas, exigindo novas ferramentas. Na AITY, argumentamos que agentes de IA e os LLMs que os impulsionam são motores de inferência transdutiva, apesar de serem treinados indutivamente, seguindo o molde da teoria clássica de aprendizado de máquina.

Transdução vs. Indução: Um Paradigma Inovador

A indução busca a generalização, ou a capacidade de se comportar em dados futuros como se comportou em dados passados. Para alcançar a generalização, deve-se evitar a memorização, ou seja, o overfitting aos dados de treinamento. Isso funciona em teoria, sob a condição de que dados passados e futuros sejam extraídos da mesma distribuição, o que é difícil de verificar na prática e geralmente não se aplica a dados de alto valor em negócios, finanças, ciência climática e linguagem. Isso nos deixa sem uma explicação para como um LLM poderia aprender a resolver verificavelmente uma tarefa computável geral.

Por outro lado, com a transdução, busca-se raciocinar através de dados passados para elaborar soluções para novos problemas. A transdução não se trata de aplicar soluções passadas na esperança de que elas se generalizem; trata-se de ser capaz de recuperar porções da memória que importam ao raciocinar sobre novas soluções. Na transdução, a memorização não é um estigma, mas um valor. Usar os dados de teste, junto com a memória, para elaborar uma solução durante a inferência transdutiva não é overfitting, mas uma computação adaptativa e específica da consulta — ou seja, raciocínio.

Indução:
- Busca generalização.
- Evita memorização (overfitting).
- Assume que dados passados e futuros vêm da mesma distribuição.
- Comportamento automático, reativo ("sistema-1").
Transdução:
- Busca raciocinar sobre dados passados para novas soluções.
- Valoriza a memorização para recuperar partes da memória relevantes.
- Computação adaptativa, específica da consulta (raciocínio).
- Exige olhar para todos os dados e realizar inferência de comprimento variável ("cadeia de pensamento").
- Comportamento deliberativo ("sistema-2"), que desejamos promover.
- É uma forma particular de meta-aprendizado, ou aprender a raciocinar.

A História da Computação e a Importância do Tempo

Em 1964, Ray Solomonoff descreveu um algoritmo universalmente ótimo para resolver qualquer problema através de inferência transdutiva, assumindo memória e tempo ilimitados: executar todos os programas através de uma Máquina de Turing e, em seguida, fazer a média do resultado daqueles que reproduzem os dados observados. Isso daria a resposta universalmente ótima, mas levaria, em geral, uma eternidade.

Em 1973, Leonid Levin derivou um algoritmo universalmente rápido, seu "universal search", que, no entanto, não é viável na prática e não ajuda a entender LLMs, pois não envolve aprendizado. Contudo, Levin apontou a importância crítica do tempo ao resolver tarefas computacionais. Mais tarde, em 1986, Solomonoff sugeriu como o aprendizado pode ajudar a reduzir o tempo.

O Tempo como Indutor de Razão em LLMs

Em nosso novo artigo, expandimos essas ideias e mostramos como a redução do tempo de inferência induz um modelo treinado a operar transdutivamente — ou seja, a raciocinar. Ao se esforçar para reduzir o tempo de inferência, o modelo aprende não apenas a estrutura estatística dos dados de treinamento, mas também sua estrutura algorítmica. Ele pode, então, recombinar métodos algorítmicos aprendidos de infinitas maneiras para abordar novos problemas arbitrários.

Essa percepção tem implicações para o design e treinamento de modelos de IA:

Devem ser projetados para prever o valor marginal de custos adicionais no tempo de inferência.
Seus alvos de treinamento devem incluir custos de complexidade, para forçá-los a minimizar o tempo durante a inferência.

Essa abordagem de aprendizado inverte a teoria clássica de aprendizado estatístico. Na teoria clássica, o grande perigo é o overfitting, então o objetivo é regularizar a solução, minimizando a informação que o modelo retém dos dados passados. Com a inferência transdutiva, o objetivo é maximizar a informação retida, pois ela pode ser útil para resolver problemas futuros.

A Inversão das Leis de Escala

Os ganhos de desempenho dos LLMs nos últimos anos vieram principalmente da escala: aumentar o número de parâmetros do modelo melhorou a precisão em benchmarks. Isso levou muitos a especular que o aumento contínuo da contagem de parâmetros poderia inaugurar uma era de "superinteligência".

No entanto, argumentamos o contrário: além de certa complexidade, os modelos de IA entram no que chamamos de "regime savant", onde o aprendizado se torna desnecessário e um melhor desempenho nos benchmarks vem com "insight" diminuído. No limite, está o algoritmo de Solomonoff de 1964, onde qualquer tarefa pode ser resolvida por força bruta.

Se a escala não leva à inteligência, o que leva? Argumentamos que a resposta é o tempo.

A inteligência é subjetiva e dependente do ambiente, mas sua ausência é menos incerta. A incapacidade de se adaptar à velocidade do ambiente é um dos muitos comportamentos que chamamos de "Traços de Não-Inteligência" (TONIs). Muitos TONIs são limitados pelo tempo:

Levar a mesma quantidade de tempo e energia (não mínima) para resolver instâncias repetidas da mesma tarefa, sem melhor resultado.
Incapacidade de alocar recursos proporcionais ao objetivo, gastando o mesmo esforço para uma tarefa trivial e uma complexa.
Iniciar uma tarefa que é sabido que levará mais tempo do que a vida do universo para render qualquer resposta utilizável.

Para quantificar a relação entre inteligência e tempo em modelos de IA, o primeiro passo é avaliar a quantidade de informação contida nos parâmetros dos modelos e como ela é afetada pela imposição de restrições de tempo.

Informação Algorítmica: Uma Nova Métrica

Claude Shannon, em 1948, definiu o conteúdo informacional de uma variável aleatória como a entropia de sua distribuição. Contudo, nessa definição, o conteúdo informacional de uma amostra de dados não é uma propriedade da amostra em si, mas da distribuição da qual foi extraída.

Na década de 1960, Solomonoff e, independentemente, Andrey Kolmogorov, abordaram esse problema com uma noção alternativa de informação: a informação algorítmica. Para uma dada string, pode-se escrever um programa que, executado por um computador, gera essa string. O programa mais curto possível que, executado por uma máquina de Turing universal, gera o dado específico é uma propriedade desse dado. Esse programa é a estatística suficiente minimal algorítmica, e seu comprimento é a informação algorítmica (complexidade de Kolmogorov-Solomonoff) desse dado.

Shannon também definiu a informação mútua, que quantifica a informação que pode ser inferida sobre o valor de uma variável observando uma variável correlacionada. Estendendo isso à teoria da informação algorítmica, a informação mútua algorítmica entre duas strings de dados mede o quanto o programa para gerar uma string será mais curto se você tiver acesso à outra.

Tempo É Informação: A Equação Fundamental

Se não conhecemos a distribuição da qual os dados de treinamento de um modelo foram extraídos, e não sabemos se as futuras entradas do modelo serão extraídas da mesma distribuição, como podemos quantificar o desempenho futuro do modelo?

Em nosso artigo, assumimos que a maioria das tarefas pode ser resolvida combinando e transformando — de infinitas maneiras possíveis — uma coleção de métodos, em última instância finita, mas a priori desconhecida. Nesse caso, podemos mostrar que otimizar o desempenho é uma questão de maximizar a informação mútua algorítmica entre os dados de treinamento do modelo e as tarefas futuras.

Embora encontrar o algoritmo mais curto possível para gerar uma string binária seja um problema intratável, provamos que existe uma relação fundamental entre a velocidade com que um modelo pode encontrar uma solução para uma nova tarefa e a informação mútua algorítmica entre a solução e os dados de treinamento. Especificamente, mostramos que:

log speed-up = I(h : D)

Onde h é a solução para a nova tarefa, D é o conjunto de dados em que o modelo foi treinado e I(h : D) é a informação mútua algorítmica entre os dados e a solução.

Isso significa que, durante o treinamento, minimizar o tempo que o modelo leva para realizar uma tarefa de inferência maximizará a informação algorítmica codificada em seus pesos. Reduzir o tempo de inferência garante que, mesmo com o aumento da contagem de parâmetros dos modelos, eles não entrarão no regime savant, onde resolvem problemas por força bruta, sem qualquer insight ou aprendizado.

O Valor Subjetivo do Tempo

A equação que relaciona o tempo de inferência à informação algorítmica não especifica unidades de medida, porque até mesmo o valor de "tempo" é subjetivo. Para um modelo de IA, não há um custo único de tempo para treinar e, correspondentemente, nenhuma escala única além da qual os LLMs entram no regime savant. O tempo constante pode ser séculos (descoberta científica) ou milissegundos (trading algorítmico).

Esperamos que os agentes sejam capazes de se adaptar ao seu ambiente, em alguns casos gerando modelos menores especializados para classes específicas de tarefas e, mesmo assim, fornecer aos usuários controles para ajustar o custo do tempo dependendo do contexto e domínio da aplicação.

O custo do tempo já é (parcialmente e implicitamente) levado em conta no processo de treinamento de LLMs. Durante o pré-treinamento, o custo do tempo é efetivamente definido como um valor mínimo. O fine-tuning para o raciocínio de "cadeia de pensamento" requer dados anotados, cujo alto custo impõe um viés para rastreamentos de raciocínio de "verdade básica" mais curtos. Assim, os LLMs já refletem o custo subjetivo do tempo para os anotadores que montam os conjuntos de treinamento.

No entanto, para permitir que o usuário module os recursos no tempo de inferência, dependendo do custo do ambiente, os modelos devem ser treinados para prever o valor marginal de mais um passo de computação em relação ao retorno final esperado. Além disso, eles precisam ser treinados para condicionar uma complexidade alvo, a fim de aprender a fornecer uma resposta dentro de um custo ou limite especificado pelo cliente.

Há esforços crescentes para ensinar aos modelos o valor do tempo, para que possam se adaptar às tarefas em questão (com ou sem supervisão humana). Isso certamente produzirá uma melhor relação custo-benefício, mas a teoria prevê que, em algum momento, levar em conta o custo do tempo realmente melhorará o desempenho absoluto em novas tarefas. Para tarefas verificáveis, aprender a raciocinar vem de buscar a cadeia de pensamento mais curta que produz uma resposta correta (verificada). Impor um custo ao tempo não deve prejudicar o desempenho do raciocínio.

Um Novo Paradigma para Codificação de IA

Conectar essas ideias à IA moderna requer repensar o que significa computação. LLMs são sistemas dinâmicos estocásticos cujos elementos computacionais (contexto, pesos, ativações, cadeia de pensamento) não se assemelham aos "programas" em modelos clássicos e minimalistas de computação, como as máquinas de Turing universais.

Ainda assim, os LLMs são modelos de computação — modelos maximalistas. Eles são universais, como as máquinas de Turing, mas em muitos aspectos, são antitéticos e operam através de mecanismos inteiramente diferentes. É possível "programar" esses sistemas dinâmicos estocásticos usando uma estratégia de controle de dois níveis: planejamento global de alto nível, open-loop, e controle de feedback de baixo nível, closed-loop.

Essa estratégia pode ser realizada com as AI Functions, uma biblioteca open-source lançada recentemente como parte do Strands Labs da Amazon, um repositório GitHub para a construção de agentes de IA. Uma linguagem de programação existente pode ser aumentada com funções da biblioteca. Essas são funções comuns, na sintaxe da linguagem, mas seus corpos são escritos em linguagem natural em vez de código, e são governadas por pré e pós-condições. Isso permite planejamento e verificação de alto nível, open-loop, antes que uma única linha de código seja escrita pela IA, e geram um feedback loop local automático se o código gerado pela IA não passar em todas as condições. Minimizar o tempo, o que se traduz em custo, está no cerne do design e da avaliação dos agentes resultantes.

Conclusão: O Impacto Prático na AITY

Na AITY, a compreensão de que o tempo é informação e que a inferência transdutiva é a chave para o raciocínio representa um avanço fundamental na engenharia de software e na arquitetura de soluções com IA. Ao projetar e treinar LLMs com foco na minimização do tempo de inferência, não apenas otimizamos a performance, mas também fomentamos a capacidade de aprendizado algorítmico e raciocínio adaptativo. Esta abordagem nos permite construir agentes de IA mais robustos e inteligentes, capazes de lidar com a complexidade do mundo real de forma eficiente, superando as limitações da mera escala e entregando soluções de alto valor que se adaptam dinamicamente às demandas de custo e tempo de seus ambientes operacionais.